專訪思必馳俞凱：大規模可定制的對話式語音交互，已經來臨

本文作者：楊麗

2020-08-24 10:59

導語：挑戰與機遇并存的語音行業

近些年，深度學習給語音交互的性能和研究方法帶來了極大進步。

但進步并不意味著就沒有挑戰。語音識別的精度總在不斷刷新，卻并沒有達到用戶使用體驗的門檻。

思必馳聯合創始人、首席科學家俞凱堅定地認為，大規模可定制的對話式語音交互技術已經到來。而當下，他所負責的學術與企業兩支隊伍正分別規劃著長遠期目標。

“語音識別的某些指標已經很高了，但往往是在受控的領域，在真實情況下，尤其是長尾的非配合語音識別領域還有很多問題待解決。同時，未來對大規模可定制的需求會越來越高。”

俞凱表示，當下語音技術供應商要針對更多長尾的場景提供定制模型，效果會變得更好，但這種情況不可持續，一定是會通過某些技術上的突破。當然，這種技術突破同樣也會跟通用語音識別的發展相輔相成，如果通用語音識別的（準確率）特別高了，那可能就不需要定制了。但從目前來看，定制是不可避免的。

在他看來，目前對話技術要做的，是對原有的更新替代和升級，不單單是語音識別技術，還有合成、語義理解、對話管理等一整套對話技術。

根據當下語音行業所面臨的問題，給出針對性解決思路，同時在技術研究的大方向上予以充分探索的機會，可能是當下科學家們予以的長期樂觀主義做法。

專訪思必馳俞凱：大規模可定制的對話式語音交互，已經來臨

思必馳聯合創始人、首席科學家俞凱

在剛剛過去的CCF-GAIR 2020全球人工智能與機器人大會上，雷鋒網采訪到了俞凱教授，了解對話式語音交互技術的最近研究進展，了解這位學者、科學家、產業從業者對當下語音交互技術最難落地的場景的思考。

以下為雷鋒網專訪實錄：

Q：大家對深度學習的不可解釋性容忍度越來越小，此次您主要分享了端到端的研究方法，并嘗試從通過引入先驗知識，以彌補不可解釋性的問題。該研究方法目前在工業界的落地情況是怎樣的？最大的挑戰是什么？

俞凱：半監督的方法很早就在工業界落地了，現在幾乎所有的工業界都在使用半監督及生成數據訓練。但目前情況是，工業界落地的都是最簡單的方法，比如說解碼、執行度選擇等等，主要還是在小規模數據上的落地效果比較明顯。

而到了萬小時（語音）數據上，這個方法的效果不夠高，是目前比較明顯的一個通病。基本上就是處于一個“大家意識到很重要但還沒有完全解決”的過程中。如果這件事情能有所突破，對未來的影響還是很大的。思必馳也是近一兩年開始研究。

Q：之前針對消費者個人的交互數據進行學習存在很大的挑戰，但如果放在企業所產生的交互數據進行學習，可能更為場景化，也相對比較好提取？

俞凱：從算法角度來講是沒有差異的，用的都是同樣的方法。不過，企業中的數據積累量會比較大，場景會比較單一，相比之下，消費級的場景其實更為分散。從這個意義上講，企業級得到的平均效果可能會好一些。

Q：就我們所了解到的，疫情期間的疫情防控機器人、智能聲控電梯、智能交互大屏等。從思必馳最近一年的探索上，服務于企業級用戶方面，主要有了哪些層面的突破？

俞凱：大規模可定制是很重要的一點。

任何一個單一系統，用傳統方法在有數據、環境可控的情況下，做的都還不錯。但問題在于，你有多少這樣的可控環境和足夠的數據？

思必馳在智能服務方面，提供了全鏈路對話，無論是外呼機器人，還是內部質檢、IVR導航等解決方案，都做到了大規模可定制，使得不懂語音技術或懂得比較少的人，能夠只通過少量的數據傳輸和相應的場景描述就可以快速做到可定制。這里面既有工程層面的產品可定制，也有技術層面的，將算法集成并形成一套工具，能通過小數據推行算法，能快速構建語義解析器，構建系統邏輯、生成。

思必馳在某些單項技術上已遠超過同行，在對話方面，以及整體鏈路系統的定制速度、效率的綜合實力上，也是相對會有一定的優勢。總結來講，思必馳在智能語音和對話技術供應商的角度變得更加專業，在規模化拓展的能力上也變得更強了。

Q：您認為從智能家居、汽車到金融、醫療、工業等行業，語音交互技術最理想的落地行業是哪些？在落地過程中最大的挑戰又會是什么？

俞凱：語音是個賦能型技術，我認為并不存在某一個最理想的行業。比如，IoT的落地并不是因為語音技術成熟，而是對人機對話的剛需。此外還有泛智能設備，金融、政務、醫療、教育等垂直領域的認知信息服務，都會跟對話交互結合在一起。

目前解決方案一方面會采取私有化的部署方式，另一方面，會在不影響響數據安全和隱私的情況下，跨不同的域進行機器學習或推理，比方說聯邦學習，就是最典型的一類概念。

Q：在語音交互技術的總體研究進展上，您認為過去5年比較有代表性的研究成果有哪些？

俞凱：最有代表性的是，抗噪語音識別識別率的提升方面，出現了一系列新形態的識別的網絡和準則。比如思必馳做了極深的卷積神經網絡（VDCNN），以解決單通道收集的語音，通過語音分離來解決“雞尾酒會效應”，以及端到端的語音識別的架構等。

二是效率方面。以端到端架構和神經網絡模型的壓縮兩項技術為代表，使得語音識別的效率大幅提升。例如，訓練一個超大的語音識別系統，如果用N-gram訓練，之前要大概占10G，現在大概用200MB就可以了，甚至可以更小；再比如喚醒模型的訓練，過去計算可能需要1秒，經過神經網絡的壓縮、系數化等工程的實現，就會變到只有100毫秒。

三是語音合成方面，最大的進展是序列的、端到端的語義合成。以Tacotron、FastSpeech等結構為代表，將序列到序列的深度學習引入，形成極高質量的語音合成，人基本聽不出語音合成和人之間的差別，尤其在韻律效果上得到了極大的改善。

四是自然語言處理方面。預訓練、無監督數據訓練模型的出現，使得語義理解得到了極大的提升。

五是統計對話管理，或稱為數據驅動的決策系統。從感知到認知的變化，比如利用強化學習在對話管理里，變得更加成熟。

Q：目前多模態也是智能語音技術落地的探索方向之一，想要實現理想狀態下的多模態交互，您認為有哪些問題需要解決？

俞凱：多模態最大的問題有這么幾類：

一是語義空間不統一。現在基本是單模態+融合模塊，真正意義上應該是跨模態，即在單模態處理的同時，用到其他模態的信息。

二是各個模態不同的數據集還不夠豐富。在研究界和企業界還沒有海量的量級，這個海量指的是企業級在萬小時以上，研究級在千小時以上。

三是要弄明白多模態究竟能用來解決什么任務，很多情況下是在封閉的場景中，而且這個場景不泛化。這就導致多模態現在研究的任務還不夠清晰，缺乏一個像傳統語音識別或合成這樣的典型任務。

當然，這個問題出現的本質還是成本太高，如果多模態能夠將語音識別率精度提高，有人愿意買單，這樣數據就來了，場景也來了。這個場景閉環已經有一些趨勢，比如車載就是一個比較典型的場景，還有一些特定場景，如地鐵售票機等。

Q：人工智能現在進入新階段了，市場和企業更加追求算法落地。您既作為思必馳的首席科學家，又同樣是聯合創始人的身份。（您或者您帶領的實驗室）取得了哪些成績？

俞凱：聯合實驗室最大的優勢，就是把企業的技術問題和訴求與持續的基礎創新，在高校里面的持續技術創新比較緊密地綁定在一起，在解決企業最核心的技術問題的同時，指導企業的思考和研究方向。

大規模可定制，從長遠看再過兩三年會有新的變化，已經在聯合實驗室里預演了。

思必馳-上海交大智能人機交互聯合實驗室，就是這樣一個深度綁定的實驗室。一是研究的問題關聯度比較高，二是有明確的知識產權的保護，相關技術成果和知識產權由思必馳所有并轉化，同時又能允許學術研究者做論文發表并聚焦于前沿的技術探索。

實驗室和企業在研究方向上是完全一樣的，只是說本身節奏不同，實驗室更為前瞻性一點，所以面臨的技術風險也會更大。

Q：最近一年以來，我們看到的現實情況是，國內外很多AI領域的專家離開企業，重新回歸學術研究、教學講堂，您認為當下人工智能產業發展遇到瓶頸了嗎？

俞凱：并沒有。專家們回到學校，本質上可能會有這些原因：學校和企業在研發上面是有著不同節奏的，而有些企業里的研發和產品部門是割裂的；同時，企業對學術專家的期望值也很高且缺乏耐心，希望專家能在短期內對企業有所實質性的貢獻。這時，學者們就更傾向于回到學校自己去探索，要么是自己出來創業。

Q：在人才培養方面，您認為當下國內語音/人工智能技術的培養模式，跟您當年那個時代相比有哪些不同嗎？

俞凱：我們目前模式的優勢是在于交大比較好的支持和思必馳發展歷史過程中形成的超緊密的聯合。這不是一般的聯合實驗室，而是將一個學術的研究方向與企業的核心問題緊密結合在一起，形成了一個極小角度的合力，這樣一種比較有效的組織方式。這種組織方式既依賴于制度如知識產權，也依賴于人。

Q：學生/研究員們選擇專業、擇業，就您的觀察看，他們最為關注的是什么？

俞凱：人工智能近些年比較火，大家都想學，可能也正因如此，會有一種略微浮躁的氣氛。人才的職業取向也無非三種：高薪酬，或許有時不一定與所能貢獻的價值相匹配；認定語音是潛力行業，并希望落地成為事業的；還有一種是認為不一定長久，但更希望在研究方面有所突破，專心搞科學研究的人。

（雷鋒網）

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏

楊麗

高級主筆

關注企業軟件、操作系統、云原生（PaaS）、數據中臺 | 微信：leeyangamber

發私信

當月熱門文章