五位機器聽覺領域大咖，論道語音前沿 | CCF-GAIR 2020

本文作者：肖漫

2020-08-13 15:26

專題：CCF-GAIR 2020 全球人工智能與機器人峰會

導語：一場關于語音技術的盛宴。

2020 年 8 月 7 日- 9 日，2020 全球人工智能和機器人峰會（CCF-GAIR 2020）于深圳正式召開。CCF-GAIR 2020 峰會由中國計算機學會（CCF）主辦，雷鋒網、香港中文大學（深圳）聯合承辦，鵬城實驗室、深圳市人工智能與機器人研究院協辦。

從 2016 年的學產結合，2017 年的產業落地，2018 年的垂直細分，2019 年的人工智能 40 周年，峰會一直致力于打造國內人工智能和機器人領域規模最大、規格最高、跨界最廣的學術、工業和投資平臺。

8 月 8 日，由深圳市人工智能學會、CCF 語音對話與聽覺專業組協辦的「前沿語音技術」專場拉開帷幕。

五位機器聽覺領域大咖，論道語音前沿 | CCF-GAIR 2020

專場由北京大學教授，深圳市人工智能學會副理事長鄒月嫻教授主持，五位語音領域的專家學者坐鎮，覆蓋“空間聲場控制、語音分離、聲紋識別、語音轉換、端到端語音識別”五個專門領域，論道前沿語音技術的發展。

可以說，這是一個干貨滿滿、學術氣息濃厚的專場。

西北工業大學智能聲學與臨境通信研究中心教授張雯：開放空間聲場主動控制技術

第一位登場演講的嘉賓是西北工業大學智能聲學與臨境通信研究中心教授張雯，演講的題目為《開放空間聲場主動控制技術》。

五位機器聽覺領域大咖，論道語音前沿 | CCF-GAIR 2020

張雯教授博士畢業于澳大利亞國立大學，現任西北工業大學航海學院教授、博士生導師。曾在澳大利亞聯邦科學與工業研究組織、澳大利亞國立大學工程與計算機學院工作，先后在 IEEE Signal Processing Magazine、IEEE/ACM Transactions on Audio, Speech and Language Processing、Journal of the Acoustical Society of America 等國際權威期刊及會議上發表論文 60 余篇，于 2015 年獲得澳大利亞研究理事會“早期職業研究員獎”（ARC DECRA）, 2017 年入選中國國家級人才計劃青年項目。

目前，張雯教授的研究方向主要包括語音與聲信號處理、主動噪聲控制和機器人語音交互。

在演講中，張雯教授主要從三個部分闡述了開放空間聲場主動控制技術，分別為空間聲場重構技術、空間多區域聲場控制技術，以及空間主動噪聲場控制技術。

在空間聲場重構方面，主要涉及到兩個技術：一是波場合成 WFS，二是 Ambisonics。張雯教授指出，近期更為受到歡迎的是 Ambisonics 面向場景的編解碼技術，它以聲波輻射模態為基地函數對聲場建模，通過處理經波域轉換后的 Amibisonic 信號實現聲場重構與控制。

在空間多區域聲場控制技術方面，張雯教授提出了空間多區域聲場控制系統，用一個揚聲器陣列同時控制多個區域的聲場，典型的應用包括在各種公共環境下產生個人聲區，以及在嘈雜的環境下產生靜區。

除了提出技術本身的應用場景，張雯教授還提出對該技術進行可實現性評價的理論，基于聲區的位置以及亮區期望重構聲場的信號來得到可實現性系數，越接近 1 實現性越高，越接近 0 表示實現性越低。

在空間主動噪聲場控制技術方面，張雯教授介紹到，區域內主動噪聲控制是通過結合麥克風陣列、揚聲器陣列及聲場控制技術，實現三維空間區域內的降噪效果。

演講的最后，張雯教授從兩個方面提到了最新的工作考量——傳聲器新設計和結合 AI 與分布式聲學的信號處理。張雯教授表示，在信號處理上要關注的是語音信號和噪聲信號的寬帶隨機性質，特別是對中高頻和快速變化信號的跟蹤能力，在這些情況下聲場控制的難度急劇增加，還將有大量的工作待展開。

滴滴 AI Labs 高級專家研究員宋輝：基于深度學習的語音分離技術進展

第二位登場的嘉賓是滴滴 AI Labs 高級專家研究員宋輝，其分享的主題是《基于深度學習的語音分離技術進展》。

五位機器聽覺領域大咖，論道語音前沿 | CCF-GAIR 2020

宋輝博士畢業于清華大學，在語音技術行業工作 10 余年，先后在百度語音技術部、滴滴 AI Labs 語音研究實驗室工作，擁有豐富的語音算法研發與產品化和商業化的經驗。

在本場演講中，宋輝博士介紹了語音分離技術的發展現狀，深入闡述了基于深度學習的單通道語音分離技術的發展脈絡，各種技術方案的優缺點與適用場景，以及未來面臨的挑戰。

宋輝博士首先展示了當下比較流行的單通道語音分離技術在兩個不同的公開數據集合上的表現，其中 WSJ0-2mix 是純凈測試集，WHAM 是與之相對應的含噪測試集。

在比較理想的純凈數據集上，單通道的分離技術近兩年在 SI-SDRi 指標上有比較大的進步。而對于更貼近真實環境的噪聲場景，目前的學術研究還不是特別完備，與安靜環境相比在 SI-SDR 指標上會有幾個 dB 的落差，表現比較好的單通道方法在含噪數據集上還沒有通過完備的測試和評估。

宋輝博士指出，單通道的語音分離可以抽象成“Encoder—Separator—Decoder”基本框架，Encoder 用于將一維混合語音變換到另一個二維空間中，Separator 用于在此二維空間中學習相對于每個說話人的 mask，并與混合語音進行元素級別相乘得到每一路分離后的變換域信號，而 Decoder 則是將每一路信號反變換回到時域。

目前主要有時域和頻域兩種主流的分離方法。頻域方法的優點是可以與傳統的信號處理方法（如頻域波束形成）更相融，可以得到更加稀疏和結構化的聲學特征表征。不過，其缺點也比較明顯，例如精準的相位重建比較困難、需要較長的窗長滿足頻率分辨率的要求而導致的長時延等。

在演講中，宋輝博士主要從 u-PIT、Deep CASA、Voice filter、SBF-MTSAL-Concat 四種方法闡述了頻域語音分離和目標說話人抽取任務的技術路線。

近年來，基于時域的語音分離技術越來越受到關注，宋輝博士也對時域語音分離技術進行了剖析——

與頻域的方法相對應的，時域方法能夠把混合語音變換到一個實數域潛空間中，用一種 data-driven 的形式學習其特征表示，例如可以采用 1-D CNN 或是更深的 Encoder 完成這種變換。時域分離方法不需要處理相位重建問題，延時比較短，可以做到采樣點級別的時延，非常適用于那些對實時性要求高的場景。

在具體方法上，宋輝博士主要介紹了 Conv-TasNet、DPRNN-TasNet、SpEx、SpEx+ 等幾種有代表性的方法。

隨后，宋輝博士介紹了單通道語音分離技術的幾個研究方向，包括 Separator 的改進、 Encoder/Decoder 的改進和優化、訓練機制的改進以及如果有效利用 speaker embedding 信息完成高質量的特定說話人抽取任務等。

最后，宋輝博士總結到，目前在學術界和工業界中，基于時域的分離方式更受大家歡迎。在未來展望上，宋輝博士表示，希望不斷提升神經網絡的泛化能力，使得各種分離網絡在真實的環境中可以取得滿意的結果；希望未來可以挖掘出更多語音分離的場景和應用。

昆山杜克大學電子與計算機工程副教授李明：基于深度編碼的聲紋識別及其關聯任務

緊接著登場的是昆山杜克大學電子與計算機工程副教授李明，其演講的題目為《基于深度編碼的聲紋識別及其關聯任務》。

五位機器聽覺領域大咖，論道語音前沿 | CCF-GAIR 2020

李明副教授博士畢業于美國南加州大學，現任昆山杜克大學電子與計算機工程副教授，武漢大學計算機學院兼職教授，博導。研究方向包括音頻語音信息處理，多模態行為信號分析等方向。已發表學術論文 100 余篇，現擔任 IEEE 語音及語言技術委員會委員，中國計算機學會語音對話與聽覺專業組專委，中國人工智能學會人工心理與人工情感專委會專委， APSIPA 語音及語言處理技術委員會委員，IEEE 協會高級會員。

李明副教授曾擔任 Interspeech2016、2018 及 2020 年說話人語種識別領域主席。帶領團隊于 2011 年、2012 年、2019 年三次獲得了 INTERSPEECH paralinguistic challenge 第一名，ASRU19 阿拉伯語語種識別第一名，interspeech20 fearless steps 說話人識別第一名，指導學生獲得 ISCSLP2014 最佳學生論文獎， IEEE CPTECE2018 最佳論文獎。2016 年被授予 IBM Faculty Award，2018 年被授予 ISCA 5 年最佳期刊論文獎。

在演講中，李明副教授先是從特征提取，建立模型，魯棒性處理，分類器設計等幾個步驟介紹傳統聲紋方法，并隨后引出基于端到端深度學習框架的聲紋識別網絡設計。

李明副教授提到，基于深度編碼的聲紋識別與傳統的參數化建模方法從結構上有一定的類比性，比如卷積神經網絡用于特征提取，編碼層網絡用于計算統計量并得到固定維度的特征向量，全連接網絡用于后端分類等。

在李明副教授看來，基于深度編碼的聲紋識別是在傳統技術上的升級：一方面，基于深度編碼的聲紋識別更準確，效果更好；另一方面，聲紋深度編碼還可以被用于說話人日志，多說話人合成，特定人變聲，特定人語音分離等一系列關聯任務中。

緊接著，李明副教授分享了聲紋深度編碼在說話人日志中的應用，介紹了如何通過 LSTM，Vector-To-Sequence 等方法更好的建模說話人片段序列相似度矩陣，以及利用匈牙利算法和預處理降低 PIT 損失函數的復雜度等。

李明副教授還介紹了一個具有聲紋深度編碼一致性約束的多說話人合成系統框架，在傳統的 TTS 輸出上，在輸出端增加一個聲紋網絡，使得合成網絡輸出聲音的聲紋編碼與給定的目標說話人的聲紋編碼保持一致，提高合成語音與目標說話人的相似性。

中國科學技術大學電子工程與信息科學系副教授凌震華：基于表征解耦的非平行語料話者轉換

第四位進行演講的嘉賓是中國科學技術大學電子工程與信息科學系副教授凌震華。

五位機器聽覺領域大咖，論道語音前沿 | CCF-GAIR 2020

凌震華副教授主要研究領域包括語音信號處理和自然語言處理。主持與參與多項國家自然科學基金、國家重點研發計劃、安徽省語音專項等科研項目，已發表論文 100 余篇，論文累計被引 4000 余次，獲國家科技進步獎二等獎和 IEEE 信號處理學會最佳青年作者論文獎。在 Blizzard Challenge 國際語音合成技術評測、Voice Conversion Challenge 國際語音轉換技術評測等活動中多次獲得測試指標第一名。

凌震華副教授現為電氣電子工程師學會（IEEE）高級會員、中國計算機學會語音聽覺與對話專業組委員、中國語言學會語音學分會學術委員會委員、全國人機語音通訊學術會議常設機構委員會委員。2014-2018 年曾任 IEEE/ACM TASLP 期刊副編輯。

在本次前沿語音技術專場，凌震華副教授的演講主題為《基于表征解耦的非平行語料話者轉換》。

話者轉換又稱語音轉換，指的是在不改變文本內容的前提下改變語音中的說話人身份信息。在演講中，凌震華副教授主要從語音轉換所基于的語料類型出發，介紹了平行語料下實現語音轉換的技術演變過程，并由此延伸到非平行語料下的語音轉換。

其中在平行語料條件下，傳統語音轉換基于 GMM （高斯混合模型）實現。 2013 年后深度學習技術被引入語音轉換任務，基于產生式訓練的深度神經網絡（Generative Trained Deep Neural Network, GTDNN）等模型相繼被提出。不過無論是 GMM 還是 DNN，都面臨源與目標語音幀對齊過程中出現的誤差和不合理問題。近年來提出的序列到序列（seq2seq）語音轉換方法可以有效改善這一問題，提升轉換語音的自然度與相似度。

進一步，凌震華副教授談到了在非平行語料條件下的語音轉換，并表示這種場景普遍存在于實際應用中，也更有難度。基于非平行數據構造平行數據，以及分離語音中的文本與話者表征，是實現非平行語音轉換的兩條主要技術途徑。

隨后，凌震華副教授重點介紹了所提出的基于特征解耦的序列到序列語音轉換方法，該方法在序列到序列建模框架下實現語音中文本相關內容和話者相關內容的分離，取得了優于傳統逐幀處理方法的非平行語音轉換質量，接近使用同等規模平行數據的序列到序列語音轉換效果。

最后，凌震華副教授表示：

我們在進行語音轉換的過程中，序列到序列建模方法在時長調整、長時相關性建模等方面有其優勢，但是將該方法從平行數據條件推廣到非平行數據條件存在挑戰。特征解耦是解決這一問題的有效途徑，通過序列到序列框架下的模型結構與損失函數設計可以獲取相對獨立的文本與話者表征，進一步實現非平行數據條件下的高質量語音轉換。

上海交通大學計算機系教授俞凱：端到端及半監督語音識別技術進展

最后一位壓軸登場的是上海交通大學計算機系教授俞凱。

五位機器聽覺領域大咖，論道語音前沿 | CCF-GAIR 2020

俞凱教授是上海交大蘇州人工智能研究院執行院長，思必馳創始人、首席科學家。清華大學本碩，英國劍橋大學博士。長期從事語音技術研究和產業化工作，發表論文 170 余篇，獲 ISCA Computer Speech and Language 和 Speech Communication的最優期刊論文獎，InterSpeech、IEEE SLT、ISCSLP 等國際會議優秀論文獎，以及美國國家標準局語音識別評測、國際口語對話系統研究挑戰賽等研究評測冠軍。

俞凱教授擔任多個領域旗艦會議領域主席與程序委員會主席。他是國家青年千人、自然科學基金委優青，IEEE 高級會員，中國大陸高校首個 IEEE 語言文字處理技術委員會委員（2017-2019）。現任 IEEE 語音與語言處理匯刊編委，中國人工智能產業發展聯盟學術和知識產權組組長，中國計算機學會語音對話及聽覺專業組副主任。獲評 2014 中國人工智能學會吳文俊科技進步獎，2016 年“《科學中國人》年度人物”，2018 中國計算機學會青竹獎。

在前沿語音專場，俞凱教授帶來的演講是《端到端及半監督語音識別技術進展》。

在俞凱教授看來，端到端語音識別降低了識別系統復雜度，減少參數量，簡化了訓練流水線。當下的端到端框架主要有兩類——同步框架和異步框架；解決分類和對齊的問題。

在演講中，俞凱教授主要探討的是異步的端到端，其最大特點是輸出和輸入沒有統一時鐘，具有兩個不同的網絡。Encoder 對整體輸入序列提取特征信心，接著 Decoder 以自回歸方式輸出標簽序列，再通過注意力機制（Attention）處理輸入輸出對齊。

同時，俞凱教授還指出，端到端識別系統存在“在線解碼的遲延問題、文本資源及語言空間約束”兩方面挑戰。

要解決在線解碼的遲延問題，需要借助異步端到端模型的在線解碼，主要有三種方法——固定短時窗口預測（Neural Transducer）、基于單幀觸發的變長窗口方法（MoChA, Triggered Attention）、基于多幀累積觸發閾值的方法（Adaptive Computing Steps）。

對于文本資源及語言空間約束的挑戰，則可以采用模型融合（Fusion）、語言模型模塊嵌入、半監督訓練等方式進行解決。

除了端到端模型，俞凱教授還提到了數據處理。要從海量數據升級到高質量精準大數據，需要借以自監督預訓練、半監督訓練以及使用生存數據訓練。

此外，俞凱教授還提及了在沒有數據的情況下如何無中生有合成。俞凱教授表示：