2
| 本文作者: 劉子榆 | 2016-10-19 14:59 |

據國外媒體報道,微軟的研究人員本周宣布,在識別人類聲音領域,經過微軟工程師訓練的神經網絡(neural network)的準確率已經達到了人類的最高水平。
微軟介紹,其人工智能實驗室讓 NIST 2000 自動化系統與人類專業的速記員進行了比賽。在當地時間本周一發布的論文中,結果顯示,自動化系統的錯誤率(Word Error Rate, 簡稱 WER)第一次低于人工——僅為 5.9%。
讓我們來看一看,5.9 % 的錯誤率是什么概念?
在行業標準 Switchboard 語音識別任務測試中,由專業速記員組成的人類對照組將對話語音轉錄成文字,目前,該記錄的最低詞錯率就是 5.9%。這就意味著微軟的語音識別系統的識別能力已經高于世界上的絕大多數人,甚至能夠達到速記員的水準。
上個月的 14 日,微軟的對話語音識別技術在 Switchboard 語音識別基準測試中實現了詞錯率 6.3 % 的突破,創造了當時該領域內錯誤率最低的紀錄。而令人高興的是,從 6.3% 到 5.9%,微軟人工智能與研究部門只花了一個多月的時間。這讓人們有理由相信,計算機真正超越人類語音識別能力那一天已經不遠了。
據了解,微軟團隊使用的是一個基于多年技術積累開發的本地化深度學習系統 CNTK。CNTK 工具包已于一年前在 GitHub 上進行開源。目前,包括微軟人工智能的個人助理小娜和混合現實全息眼鏡 HoloLens在內的語音識別都是基于 CNTK 得以實現。
此次語音識別的里程碑式突破將對消費者和商業產品產生深遠影響,因為語音識別技術能夠顯著增強人們的日常計算體驗。
微軟在官方博客中表示:“這一里程碑將給用戶和商業產品帶來廣泛影響,語音識別技術將帶來明顯的增強。這些產品包括像 Xbox 的娛樂設備、像微軟小娜(Cortana)的生產力工具以及類似 Cortana 的實現實時語音到文本轉錄的語音助手。”
微軟表示,該團隊接下來的努力方向之一就是確保語音識別技術能在喧鬧的集體聚會或是背景聲音較大的高速公路上,類似這些更復雜的現實生活場景中也能夠進行精準地判斷。研發人員希望能夠將實現這一目標的方法進行完善,甚至幫助計算機在多人說話的場合為每位發言者分配名字,還要確保計算機能不受發言者的年齡、口音和音量大小的影響而準確地識別出各種語音。
微軟本周發布的這篇論文題為“Achieving Human Parity in Conversational Speech Recognition”。以下為其摘要:
自 20 世紀 90 年代,DARPA Switchboard 語料庫發布之后,對話語音識別技術(Conversational Speech Recognition)就一直成為語音識別領域的重要組成部分。在本篇論文中,我們進行測試的 NIST 2000 自動化系統的對話語音識別技術已經可以與人類最高水平媲美。 據 Switchboard 的數據顯示,專業速記員的誤差率是 5.9%, CallHome (朋友和家人進行開放式對話的環境)測試表明,速記員的誤差率是為 11.3 %。我們的 NIST 2000 系統 在這兩個案例中建立了一個新的、迄今為止最前沿的超越人類水平的基準。這意味著有史以來機器首次在對話語音上達到了人類水平。我們成功的關鍵在于系統地使用了卷積和 LSTM 神經網絡與全新的空間平滑方法(spatial smoothing method)以及 lattice-free MMI 聲學訓練。
論文PDF戳這里。
推薦閱讀:
五分鐘讀完美國白皮書:為了人工智能的未來,政府都做了哪些準備?
AI 是新的電能,百度如何將人工智能變成今天的“基礎設施”?
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。