0
| 本文作者: 隔壁王大喵 | 2017-07-30 00:07 |
雷鋒網 AI 科技評論按:小米近期發布了自己的 AI 音箱,加入了智能家居的戰局。正當我們覺得小米會不會只是蹭“人工智能”熱點的時候,小米的這篇論文證明了自己真的是把人工智能作為一件嚴肅的公司業務來做。請允許我們代表人工智能研究大家庭對小米公司表示歡迎,對小米的研究員們致以敬意!

這篇論文是西北工業大學、陜西省語音與圖像信息處理重點實驗室與小米科技公司的研究員聯合研究的成果。該項工作主要針對普通話識別任務,提出了一種基于注意力機制的端到端學習模型。
以下是雷鋒網 AI 科技評論根據論文摘要進行的編譯簡介。
在最近,語言識別領域的研究越來越多地采用了端到端(End-to-End)學習模式。這種學習模式可以直接將輸入的語音轉錄成相應的文本,而不需要使用到任何預定義的校準規則。據雷鋒網 AI 科技評論了解,該論文中的研究員們在端到端學習模式基礎上,探討了一種基于注意力機制的編解碼模型(Attention-based encoder-decoder model),而該模型主要針對普通話語音識別(Mandarin speech recognition)任務,并且取得了很不錯的效果。

圖一,上圖展示了編碼模型。該編碼模型是一個BLSTM,它從輸入x中提取出h。
在訓練期間還使用了幀子采樣(Frame sub-sampling)技術。在該項工作中,研究員通過跳幀(Skipping frames)的方式來縮小原序列的長度,并且正則化了權重以取得更好的泛化能力和收斂效果。除此之外,本項工作還探究了卷積注意力(Convoluional attention)和注意力平滑(Attention smoothing)這兩種不同的注意力機制所產生的不同影響,以及模型的性能和波束搜索(Beam search)的寬度之間的關聯性。

圖二,上圖展示了AttendAndSpell模型。該模型由MLP(注意力機制)和LSTM(解碼模型)組成。在每一次時間步驟(time step)t,MLP將結合隱含狀態st-1和輸入h計算出上下文向量(context vector)ct。從而生成新的隱含狀態st和新的標簽yt。
最終,該論文所提出的算法,在MiTV數據集上,在沒有使用任何詞匯(Lexicon)或語言模型(Language model)的情況下,實現了僅為 3.58%的字符錯誤率(Character error rate, CER)以及7.43%的句子錯誤率(Sentence error rate, SER)。另外值得一提的,該模型在結合了三元語言模型(Trigram language model)之后,進一步取得了2.81%的字符錯誤率以及5.77%的句子錯誤率。相比另兩種基于內容的注意力算法和卷積注意力算法,論文中提出的注意力平滑算法都取得了更好的表現。
論文中還表示,他們的下一步研究目標是把現有的技術和非常深的卷積網絡結合,以期獲得更好的表現。他們的后續成果我們拭目以待,我們期待小米進一步深化人工智能在自家產品中的應用,也希望更多國內企業都參與到人工智能相關技術的研究和應用中來。
Via Attention-Based End-to-End Speech Recognition in Mandarin
雷鋒網 AI 科技評論編譯。
雷峰網版權文章,未經授權禁止轉載。詳情見轉載須知。