^{<sub id="jgr5k"></sub>}

在難一點的圖靈測試面前，聊天機器人就開始自我暴露了

本文作者：亞萌

2016-07-19 20:10

導語：讓計算機理解我們，還有很長的一段路要走。

用戶: Siri，幫我叫救護車。
Siri: 好的，從現在開始我會叫你“救護車”。

在2011年Siri初次面世的時候，蘋果公司很快修復了這個錯誤。但是一個新的競賽顯示出，計算機仍然缺乏基本的常識來避免這種令人尷尬的混淆。

這個競賽名為“威諾格拉德模式挑戰賽”（Winograd Schema Challenge），是圖靈測試的一個變種，由加拿大多倫多大學的計算機科學家赫克托·萊維斯克（Hector Levesque）發起，挑戰賽的名字是為了向特里·威諾格拉德（Terry Winograd）教授致敬，他是斯坦福大學的一位教授，人工智能領域的開拓者。

在難一點的圖靈測試面前，聊天機器人就開始自我暴露了

左圖為：赫克托·萊維斯克，右圖為：特里·威諾格拉德

60多年來，研究人員一直使用圖靈測試來評估機器仿人思考的能力，但是這個針對人工智能的評判標準太老舊了，很多舊版圖靈測試的題目太過簡單，而不能真正測試出計算機的智能水平，急需更新換代。始于2014年的“威諾格拉德模式挑戰賽”針對圖靈測試進行改進，要求人工智能回答關于語句理解的一些常識性問題。

比如挑戰賽中，有這么一道測試題“市議員們拒絕示威者的游行許可，因為他們害怕暴力”，普通人類一眼望去，就會根據上下文判斷出這句話清晰的邏輯，然而對于計算機來說，就很難弄清楚這里的“他們”指的是誰，是市議員們呢？還是示威者呢？

在難一點的圖靈測試面前，聊天機器人就開始自我暴露了

一個典型的“威諾格拉德模式挑戰賽”的題面包括以下幾個關鍵部分：

首先，具有同類語義的兩個名詞（本題里指的是：市議員們和示威者）
第二，有一個指代以上兩個名詞的模糊代詞（本題里指的是：他們）
第三，有一個特別的單詞，當這個單詞被換成另外一個單詞時，那么模糊代詞的意義就會改變（本題里，如果把“害怕”換成“主張”，那么句子里的“他們”的意思就會發生改變）

然后，計算機需要回答的問題就是：這個具有模糊含義的代詞指的是什么，并給出兩個選項讓計算機選擇。所以計算機面臨的就是一個二選一的問題。

按統計過的概率來說，就算胡亂選擇，答對題目的準確率是45%，然而這次計算機真實的比賽結果是：最好的成績是48%。所以，計算機經過謹慎的“思考”得出的準確率，比人蒙著眼睛隨便選的準確率才高出那么一點點，這不得不令人唏噓。

成績最好的兩支隊伍，一個由來自中國科學技術大學的劉權帶領，另一支隊伍由塞浦路斯開放大學的Nicos Issak帶領。

這個挑戰賽的獎金高達25,000美金，但是要拿到這個獎金，準確率必須要達到90%以上。所以就算是成績最好的兩個隊伍也與獎金無緣了。

在難一點的圖靈測試面前，聊天機器人就開始自我暴露了

本次競賽的顧問之一，紐約大學的心理學家 Gary Marcus說：“機器的成績只比隨機選擇好一點點，這并不出乎我的預料。”那是因為，賦予計算機以常識極其困難。手動編碼輸入這些知識需要花費的時間不可想象，而且用數據統計的方法來學習真實世界的知識對于計算機來說也十分困難。這次挑戰賽的很多計算機，都是試圖將手動編碼的語法理解與基本的現實知識相結合。

另外，人們明顯發現，谷歌和Facebook并沒有參加這次的活動，而這些公司的研究人員已經多次暗示了他們在自然語言理解方面已經取得了非常大的進展。“這兩家公司本可以隨意跳著華爾茲進場，并取得100%正確率的成績，再得意地向世人炫耀。但如果是那樣的結果的話，我也會非常震驚的。”Marcus說道。

谷歌、Facebook、亞馬遜和微軟這些大公司的研究人員正在將他們的注意力轉向自然語言理解。他們使用最新的機器學習方法，尤其是“深度學習”神經網絡來開發更加聰明、更加敏銳的聊天機器人和個人助手。實際上，隨著聊天機器人和語音助理變得越來越普遍，伴隨著在圖像和語言識別領域取得的巨大進展，人們很容易產生機器在理解語言方面已經十分厲害的錯覺。然而真實的情況并不令人樂觀，至少這次比賽的結果并不令人滿意。

本次競賽最優秀的兩支隊伍都使用了最前沿的機器學習方法。劉權的隊伍，囊括了來自多倫多紐約大學和加拿大國家研究院諸多的研究人員，使用深度學習來訓練計算機識別兩次事件之間的關系，例如，從幾千篇文章里學習“打籃球”、“游泳”和“受傷”之間的關系。賽后，劉權的隊伍聲稱在修補系統解析競賽問題的一個漏洞之后，準確率可以達到60%，而來自主辦方的 Leora Morgenstern表示，就算這一結果被證實，仍然比人類的準確率低很多。

這次競賽結果透露出來的訊息非常重要。“當人工智能開始支持對話的時候，這些問題就會暴露出來。比如，如果購物的時候我說，‘我想要給我的吉他買一個箱子，所以它必須得很結實’，那這里的‘它’指的是箱子呢，還是吉他呢？”，Charlie Ortiz說道，他是Nuance公司的高級研究員，這家公司專門從事語音識別軟件、圖像處理軟件的研發和銷售工作。

隨著智能家居設備和可穿戴產品會變得越來越普遍，常識推理將會變得越來越重要。Marcus說道：”當你詢問自己的手表時，你不希望這時它提供50個選項，讓你滑動屏幕進行選擇。而當你開始與你的車和手表展開對話時，你希望免去打字的繁瑣，得到一系列有內在聯系的交流對話，人們會很自然地反復提及之前說到的內容，就會經常出現模糊指代，而這就是計算機亟待解決的問題。“

讓計算機理解我們，還有很長的一段路要走。

Via MIT Technology Review

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

1人收藏

亞萌

編輯

關注人工智能（AI）報道

掃描關注作者微信

發私信

當月熱門文章