關于自然語言對話的技術挑戰和應用前景，來自這六大廠的一線技術負責人聊了聊

本文作者：叢末

2019-11-20 09:59

導語：微軟、阿里、百度、小米、京東以及華為！

雷鋒網 AI 科技評論按：對話作為人類最基本、最重要的交流方式，自然語言對話技術自然也成為了自然語言處理領域離人類最近的技術之一，這一領域乃至整個人工智能領域要想走向理想狀態，勢必要解決自然語言對話所面臨的一系列問題和挑戰。

而所有技術的問題和挑戰在實踐應用中是最容易體現出來的，因而對此最具有發言權的莫過于實現技術落地的企業一線技術人員。

近日，華為諾亞方舟實驗室語音語義首席科學家劉群就在 CNCC2019 上主辦了一場主題為「自然語言對話：技術挑戰和應用前景」的技術論壇，邀請了來自微軟、阿里、百度、小米、京東以及華為這幾家在自然語言處理領域涉獵較深的大廠一線技術負責人——周明、陳海青、孫珂、王剛、何曉冬以及蔣欣來對這一主題進行探討，幾位演講嘉賓既從宏觀的技術視角闡述了自己對于該研究領域的看法和觀點，也從應用案例的角度分享了自然語言對話的技術實踐。

關于自然語言對話的技術挑戰和應用前景，來自這六大廠的一線技術負責人聊了聊

從左至右依次為：陳海青、何曉冬、孫珂、周明、王剛、蔣欣、劉群

我們一一來看他們在本場技術論壇的分享內容。

微軟周明：面向深度理解的聊天機器人

關于自然語言對話的技術挑戰和應用前景，來自這六大廠的一線技術負責人聊了聊

來自微軟亞洲研究院的周明，首先從宏觀、全局的視角分享了聊天機器人的整個技術演化進程。他指出，聊天機器人技術有從檢索式回復到生成式回復再到集成式回復的三個發展階段。

其中檢索式回復利用文本匹配技術選出相似的對話以此輸出對應的回復，而生成式回復則是利用文本生成技術得到相應的回復，二者相比各有優缺，前者的優勢在于可讀性好、語言流程，多樣性強以及易于分析、可解釋性強，缺點則在于強依賴于檢索數據，輸出的回復有時在相關性方面并不好；后者在相關性方面表現較好，易于進行端到端實現并且靈活性強、不太依賴于檢索數據，然而在多樣性方面較差，同時輸出的回復往往比較短，沒有太多信息量。

集成式回復生成則采用檢索式系統提供候選原型回復、生成式系統對原型加以修改的方式，既能夠繼承檢索模型回復的多樣性，又能夠繼承生成模型的靈活性，對二者揚長避短。

與此同時，周明指出，雖然回復技術取得了一定進展，包括基于神經網絡的 S2S 模型一定程度上改進了生成的回復流暢度，預訓練模型讓檢索式回復技術一定程度上增強了上下文理解能力等，但目前聊天機器人依舊距離理想的狀態很遠，具體而言體現在：

第一，在多輪對話中，機器人依舊無法真正理解對話歷史中的復雜句間關系；
第二，對話風格與內容的解耦仍然不佳，即便風格符合，內容往往在改寫中出錯；
第三，對話很難保持時間、空間和邏輯一致性，容易出現前后矛盾的情況；
第四，缺乏人類先驗知識；
第五，聊天機器人「健忘」，無法記憶用戶所說的內容。

對此，未來聊天機器人需要采用面向深度理解的回復機制，努力的方向包括：讓聊天機器人融入常識和知識、精準理解對話歷史、強化記憶機制從而提高上下文的一致性，并且能夠實現定制回復生成的風格（包括詞匯量、情感、句式和正規性等），而為了實現這些目標，社區還需要建立更加精準的評測，包括數據集和評測指標等。

阿里陳海青：阿里小蜜智能人機交互技術實踐

關于自然語言對話的技術挑戰和應用前景，來自這六大廠的一線技術負責人聊了聊

阿里巴巴集團達摩院智能服務事業部資深算法專家陳海青則從更加應用的角度，基于阿里的人機交互產品——阿里小蜜介紹了阿里 NLP 核心技術及人機交互技術實踐、面臨的挑戰及未來的發展方向。

簡單介紹阿里小蜜平臺的生態圈和應用后，陳海青介紹了其背后的核心 NLP 支撐技術：

自然語言處理板塊的分層梳理流程，主要包括分層領域的框架設計，基于不同業務場景的意圖和模型設計與積累，以及通過模型沉淀框架并進行平臺化積累，能夠完成 QA Bot、Task Bot、Predict Bot 以及 Chit Chat 四項任務的能力。
圍繞數據、算法、服務、應用四個層面的 NLU 架構體系，則包括數據的沉淀以及業務標注的訓練平臺體系構建、基于平臺化算法框架的意圖識別和實體識別能力搭建以及基于規則、降級模型以及深度模型的 NLU 工程能力平臺搭建。

而當前 NLU 還是以意圖識別和實體識別為核心能力，其面臨的核心挑戰是意圖的平臺化擴展效率和小樣本場景的冷啟動，就 NLU 的效率和效果而言，主要涉及的問題是如何構建數據、算法和服務。

最后，陳海青指出，未來智能服務機器人將以多模態的方式，不僅提供自動服務模式，同時提供更好的人機協同模式，為用戶和客服人員提供更復雜問題的解決能力和決策支持能力，而持續探索的技術方向有生成模型、強化模型、遷移學習、機器閱讀理解、情感分析等。

百度孫珂：可定制對話系統的挑戰與設計

百度自然語言處理部主任研發工程師、UNIT 平臺技術負責人孫珂基于百度的智能對話定制和服務平臺 UNIT 分享了目前可定制對話系統的挑戰與設計。

一開始，孫珂先拋出了對話技術在面對產業定制需求時所面臨的一些挑戰：

在消費互聯網中，對話服務的關鍵任務是提供最好的產品服務從而盡可能擴大用戶規模，要求工程師結合使用算法實現效果最佳化、能夠定向挖掘海量資源以及部署方案具備高吞吐能力的定制對話技術；
然而到了產業互聯網，對話服務的關鍵任務則是在實現較好效果的前提下降低定制的邊際成本，要求工程師結合應用算法的綜合優化成本低廉、獲取資源和詞典低成本以及部署方案能夠靈活適應環境的可遷移對話技術。

而將可遷移對話技術的目標進行拆解來看，設計思路便是用高學習效率的模型和自動發現模型缺陷板塊來提高單位數據對提高對話效果的幫助，而使用知識輔助構建和預置知識來降低單位數據的獲取成本。

整體基于這一思路設計的 UNIT，核心對話技術包括任務式對話和問答式對話，具體設計思路分別如下：

針對任務式對話，UNIT 在高效率的學習模型上采用的是核心理解引擎為啟發式對話理解、基于深度學習的對話理解以及多引擎結果融合，成分分析為領域或通用關鍵詞分析的多引擎融合對話理解模型；在自動發現模型缺陷板塊和高效率知識構建工具方面，則采用 DataKit 以及 15 套對話式理解范式，可自動修復理解異常問題，從而提高對話效果理解。
針對問答式對話，UNIT 的設計思路則是不定義任務、不梳理知識，而是直接用原始業務數據直接生成回復；其核心技術是引入外部知識的閱讀理解模型——文本表示和知識表示融合的閱讀理解模型 KT-NET。

小米王剛：語音交互帶給人機交互的變化

與前兩位基于自家產品進行技術解析不同，小米人工智能部副總經理、小愛團隊負責人王剛從語音交互給人機交互帶來的變化出發，闡述了自身對于語音交互未來發展方向的看法。

他認為未來的語音交互有三個發展趨勢：無所不在、更自然的交互以及更懂你。而背后的技術可具體拆解為喚醒、識別、理解、滿足與合成幾大板塊，針對這幾大板塊目前所存在的幾大問題，王剛分別介紹了這些問題面臨的挑戰、當前的解決方案以及未來的潛在解決方案：

第一個問題是 ASR 錯誤率高，其面臨的挑戰主要為同音錯別字、多字少字、中英文混雜、口音及方言，當前的解決方案為「NLP 幫 ASR」、「ASR 幫 NLP」，而未來可以嘗試往語音、語義一體化的方向嘗試；
第二個問題是 Query 意圖理解難，其面臨的挑戰主要為領域和常識知識積累少、信息量少以及表達方式多樣化，當前的解決方案為垂域持續建設以及增強中控能力等，而未來則會逐漸走向涵蓋知識能力、算法能力、數據能力和用戶反饋閉環的綜合能力的建設。
第三個問題是全領域全雙工連續對話，目前面臨的挑戰為技術鏈路長，當前解決方案為在前端進行回聲消除，采用上下文繼承方法來實現垂直域、跨垂域多輪對話，以及無效音拒識（語音拒識、語義拒識、聲紋識別）、節奏控制（回復打斷、主動響應以及 Query 預測）以及結合應用圖形交互界面和語音交互界面等方法；
第四個問題是單領域復雜任務對話，目前面臨的挑戰為當遇到領域特有詞時，ASR 的錯誤率上升，另外面對歧義表達需要領域知識消歧和驅動對話等，當前的解決方法為：1）提高表示能力，包括領域知識的本體表示、對話表示以及本體表示道對話表示的轉移能力等；2）提高任務式對話能力，包括在 NLU 上，基于對話建模抽取槽位信息而非槽位標注方案以提高魯棒性；在 DST 上，基于對話表述和 NLU 輸出更新對話狀態；在 Policy 方面，基于對話狀態進行對話引導。
第五個問題是主動感知和推薦問題，目前的解決方法主要從主動交互、場景理解以及用戶畫像等層面來解決此問題。

京東何曉冬：任務導向型大規模對話系統及應用

關于自然語言對話的技術挑戰和應用前景，來自這六大廠的一線技術負責人聊了聊

京東人工智能研究院常務副院長、深度學習及語音和語言實驗室主任何曉冬在演講中強調了人機對話對于人機交互未來發展的重要性及其當前面臨的幾大技術難點，基于此，他也對對話系統下一步的發展方向闡述了自己的觀點。

他指出，多輪人機對話是人工智能的起點及圣杯，而作為人類最基本、最重要的交流方式，對話也是人機交互技術未來的期望所在，然而雖然目前出現了很多應用于特定領域的對話系統并且領域內也在嘗試針對開放領域以及高復雜、可靠性要求高的任務的對話系統，但是目前尚無系統能夠真正通過圖靈測試。

在典型應用上，以京東大規模的復雜客服場景為例，對話系統需要覆蓋售前、售中、售后以及物流，涉及到智能調度、智能導航、智能摘要、實時輔助應答、智能質檢以及智能創事件等具體任務。基于在大規模任務導向場景中的積累，京東還聯合北京智源研究院發布了智源—京東大規模任務導向性對話數據集。

從技術難點來看，何曉冬進一步指出，對話技術目前主要面臨五大難點：

一是多輪對話狀態跟蹤不充分，對話系統缺乏有效的全局優化機制，評估準則欠缺；
二是基于上下文歷史信息的精確語義理解還有待提高，缺乏對用戶意圖的精確理解；
三是缺乏大量的領域知識及基礎常識的支撐，目前還不能執行深度的推理與決策；
四是對話生成機制還待探索，缺乏可控性、可解釋性，難以產生有對用戶有同理心的回復；
五是包括視覺、語音、語言的跨模態的對話與交互技術還有待深入研究；

對此，何曉冬表示，對話系統下一步必然走向全方位多模態的交互方式，通過視覺、語音、語言、知識等統一，使得人與機器的交流變成無限制的交流。基于這一目標，京東 AI 研究院也在不斷推進多模態對話智能基礎研究。

華為蔣欣：對話系統中的若干技術探索

關于自然語言對話的技術挑戰和應用前景，來自這六大廠的一線技術負責人聊了聊

來自華為諾亞方舟實驗室的蔣欣則從對話數據的收集和增強以及對話深度語義理解兩個維度來分享對話系統中的一些技術探索。

作為構建對話系統的基石，對話數據的收集面臨著不少困難，例如用戶隱私、領域強相關、標注復雜性以及動態交互和評估等都是其面臨的問題，對此學術界提出了人-人對話、人-機器對話以及機器-機器對話等三種數據收集方法。

其中人-人對話（Wizard-of-Oz）雖然較為貼近真實對話場景，然而人工標注和校驗成本高，并且對交互行為的覆蓋率低；機器-機器對話（Self-Play）雖然在覆蓋率和多樣性方面更佳，標注也相對容易，然而對話數據質量依賴于模擬用戶機器人和系統機器人，因而在實踐中往往會結合 Wizard-of-Oz 和 Self-Play 兩種方式分別生成對話數據，再使用數據訓練對話系統的 NLU、DST、Policy 以及 NLG 模塊，通常可以在受限領域的對話中達到較高的成功率。

對話數據增強方面，一個比較通用的方法則是復述生成，華為諾亞在近期的工作中提出基于 Seq2Seq 神經網絡生成相同語義的不同表達，具備更好的可解釋性、可控性和可遷移性；此外，在對話狀態跟蹤任務上，提出基于 Contextual Bandits 對增強的數據進行選擇，最后并聯合訓練數據增強模塊和狀態跟蹤模塊。

對話深度語義理解上，目前最好的模型是預訓練語言模型：

預訓練語言模型作為語義理解新范式，具體指在大規模文本語料上訓練語言模型，之后在下游任務上微調訓練，以中文預訓練語言模型「哪吒」為例，目前基于 BERT 已在華為云上實現了多機多卡數據并行訓練并嘗試了混合精度訓練、全詞覆蓋等一系列訓練技術；
TinyBERT 模型則是專為 Transformer 模型設計的知識蒸餾方法，是以 BERT 作為「老師」蒸餾出的一個小型化模型，以適應不同邊緣設備上的計算需求。它的參數量為 BERT 的 1/7，預測速度是后者的 9 倍，并且在 GLUE 評測上相比 BERT 僅下降了 3 個百分點。

演講結束后，在劉群的主持下，周明、陳海青、孫珂、王剛、何曉冬以及蔣欣六位嘉賓還基于本場技術論壇的主題「「自然語言對話：技術挑戰和應用前景」，展開了一場 Panel 討論，就「在開發對話系統的實踐中遇到的難點」、「自然語言對話的數據和評價問題」、「強化學習在自然語言對話的實際應用中所存在的問題」以及「未來對話技術將會在哪些方面會取得突破，應用上是否會有殺手級的場景出現」等問題發表了自己的觀點并展開了深度交流。

雷鋒網 AI 科技評論報道。

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

1人收藏

叢末

編輯

發私信

當月熱門文章