^{<sub id="jgr5k"></sub>}

MIT開發新型神經網絡訓練技術，打開AI決策黑箱

本文作者：夏睿

2016-10-31 15:57

導語：科學家能訓練神經網絡做預判和分類，然而卻不知道其決策背后的原理。叫獸們說，打開這個黑箱很重要。

神經網絡是一種模仿生物神經網絡（如大腦）的結構和功能的數學模型或計算模型，它能在訓練數據的過程中尋找模式以對數據進行預測和分類。近年來，神經網絡的研究極大促進了人工智能的發展，科學家用它開發出不少高性能的系統應用——比如用神經網絡識別數字圖像中的某些對象或推斷文本主題等。

雖然神經網絡在受到訓練之后能夠很好地將數據分門別類，但是，即使是它的設計者也無從得知它們是如何思考的。它就像一個黑匣子。若是進行圖像識別，也許還能通過反向運行神經網絡找出它識別和決策的內在因素，正如雷鋒網文章《深度 | Nature：我們能打開人工智能的“黑箱”嗎？》中曾提到的，Tyka 和 Google 的研究員為了深入研究黑箱問題而開發的 Deep Dream 算法，從一個圖形開始，好比說一朵花或者一個沙灘，通過修改它來提高特定的頂級神經元的反應。相比之下，文本處理系統的決策過程就較為晦澀難懂了。

在由計算機語言學協會（the Association for Computational Linguistics）舉辦的會議中，研究人員們將會討論自然語言處理中的一些經驗。來自 MIT 計算機科學及人工智能實驗室( CSAIL )的研究院會展示一種訓練神經網絡的新方法。論文中表示這種新方法不僅能做預測和分類，更重要的是能給出其決策背后的原因。

“在實際應用中，有時人們會特別想知道一個模型到底為什么能做出這樣那樣的預測，” MIT 電氣工程和計算機科學研究生，同時也是該論文的第一作者，Tao Lei 說道，“醫生不相信機器學習，主要也是因為它做出的決策無依據可尋。 ”

Regina Barzilay 是 Delta 電子電氣工程與計算機科學教授，同時也是 Lei 的論文指導顧問，他說道，“預測錯誤所造成的成本損失是極高的，不僅在醫療領域，在所有領域都是如此。因此你得說清楚根據機器學習的預測做出進一步行動，背后的原因是什么。”

“而且，這項工作涉及范圍很廣，” MIT 電氣工程和計算機科學教授，該論文的第三作者 Tommi Jaakkola 表示道，“你可能不僅想弄清楚一個模型是如何做出正確預測的，而且還想對它應做出的加某些影響預測類型施。一個完全不懂機器學習的外行該如何與一個受過算法訓練的復雜模型進行對話？如果模型能告訴你做出某項預測背后的原因是什么，人們也許就能以一種新的方式和模型進行互動。”

| 虛擬大腦

文章開頭已提到過，神經網絡是模仿大腦結構而制成。和人類大腦中的神經元一樣，它們包含大量的處理節點，節點之間彼此連接，形成一個密集的網絡，但其認知能力卻相當初級。

在深度學習過程中，訓練數據被送到輸入節點中，網絡的輸入節點會對其進行修改并輸送給其他節點，以此類推。儲存在神經網絡輸出節點中的信息會和試圖要學習的分類條目進行匹配，這些類別可能是物體形象，或是文章主題。

網絡在接受訓練時，各個節點在傳遞信息時一直在對其進行修改，使得最后輸出最佳結果。但整個過程結束時，編程網絡的計算機科學家往往也不知道這些節點到底是怎么設置的，或者，很難把低級信息轉成讓人通俗易懂的系統決策過程。

在該論文中， Lei, Barzilay 和 Jaakkola 專門強調了用文本數據進行訓練的神經網絡。為了解釋神經網絡的決策過程，CSAIL 研究院把神經網絡分成兩個模塊，第一模塊從訓練數據中提取文本段，并且根據其長度和相干性來對分段進行評分：分段越短，并且從連續單詞串中抓取的分段越多，其分數越高。

接著，第一模塊把抓取的數據傳送給第二模塊，由第二模塊來執行預測和分類任務。兩個模塊同時訓練，既要使第一模塊的分數提高，又要增加預測和分類的準確性。

研究員們測試系統所用的其中一個數據集是某網站用戶對不同啤酒的回復評論。數據集包括評論的原始文本和對應評級，從芳香度、味覺和外觀三個方面來評價，每一個都采用五星評級制。

而自然語言處理員對這些數據感興趣還有一個原因，這些數據同時被人們進行手動注釋，表明了不同回復所對應的不同等級是什么。比如，一個回復可能有八到九個句子，注釋就會標出和啤酒有關的部分，比如“大約半英寸厚的棕褐色泡沫”、“明顯愛爾蘭啤酒的味道”或者“缺乏碳酸化”等等。

| 驗證

該數據集能很好地測試 CSAIL 研究人員的系統。比如，如果第一模塊提取了三個短語，而第二模塊把它們對應到相關等級中，就相當于該系統的判斷基礎與人類注釋的判斷基礎相同。

試驗中，系統判斷在芳香度和外觀和人類判斷相似度分別達到 96% 和 95%，對于味道的相似度則略差，有85%。

論文中，研究人員還報道了利用自由問答所獲得的數據測試該系統得到的結果，以判斷是否一個給出的問題先前已被回答過。

還有些成果他們沒有發表，這包括將該系統應用于數千份乳腺活檢的病理報告。在該應用過程中，它學會了提取文本以為病理學家提供診斷基礎。甚至還能用它來分析乳房的 X 光照片，其中第一個模塊提取的是圖像而不是文本。

“對于深度學習，尤其是用深度學習進行自然語言處理，人們往往會夸大其詞，”美國東北大學計算機與信息科學副教授 Byron Wallace 說道，“這些模型有一個很大的缺點，它們對于人類就像是黑匣子。模型不僅要能做出準確預測，還要能告訴你背后的原因。后者很重要。”

“在會上，我們發現有人和我們做類似的研究，” Wallace 補充說道，“我不知道 Regina 也在做這個，而且我覺得她的方法更好。我們的方法是，比如，有人告訴我們一個電影評論給的評價很高，我們就假設他們會在句子中做標記，并且給出理由。我們通過這種方式訓練深度學習模型，來提取這些原因。但是他們無需假設，也就是無需人類注釋神經網絡就能給出做決策的原因。這個方法非常好。”

via：scienceblog