著名的「詞類比」現象可能只是一場高端作弊

本文作者： MrBear

編輯：幸麗娟

2019-08-17 16:10

導語：詞類比又被 Diss了？

雷鋒網 AI 科技評論按：「詞類比」可謂是自然語言處理領域最為人津津樂道的經典案例之一。然而，進來一系列針對詞類比現象的理論依據的討論似乎要將這一明星案例拉下神壇。然而，無論結果如何，這一場圍繞爆炸新聞和真理的大討論都大大吸引了人們對于自然語言處理領域的關注，激發了大家的研究熱情！

自然語言處理（NLP）是現代機器學習工具的重要應用領域之一。它涉及到使用數字化的工具來分析、解釋、甚至生成人類（自然的）語言。

目前，NLP 領域最著名的算法莫過于「Word2Vec」，幾乎所有該領域的從業者都知道它（甚至許多對機器學習感興趣，但不研究 NLP 的人也知道它）。WordVec 有幾種不同的實現方式，非常易于使用。在許多機器學習/人工智能或 NLP 入門課程中，往往會將其作為一個教學示例。

人們喜歡它的一個主要原因是：它似乎非常直觀。通常，Word2Vec 的名氣是由一些吸引眼球的、直觀構建的例子得來的，這些例子常常被用來展示 Word2Vec 的能力。下面，我們簡要介紹一下 Word2Vec 的工作原理：

Word2Vec 會查看大量的文本，然后統計哪些詞會經常與其它單詞一同出現。基于這種詞共現統計，Word2Vec 會為每個單詞生成抽象表征，也就是所謂的詞嵌入。詞嵌入是一些低維向量（可以想象成一個包含 200 或 300 個數字的列表）。有了這些詞向量，你就可以用單詞做一些「神奇」的數學運算了！當我們擁有「國王」、「男人」、「女人」的詞向量時，我們可以計算「國王-男人+女人」，最終會得到「女王」的向量！

著名的「詞類比」現象可能只是一場高端作弊

我強烈推薦大家研究一下詞向量！詞向量非常有趣，你可以找到許多預訓練好的網絡，這樣一來你就可以迅速上手了。不妨試試這里的詞向量運算器：http://vectors.nlpl.eu/explore/embeddings/en/calculator/。如果你想自己在各種各樣的書籍數據上進行訓練，我強烈推薦 Dave Arnold 編撰的「Liquid Intelligence」。

太神奇了！國王-男人+女人=女王！

這就是見證奇跡的時刻。因此，我們可以認為算法學到了這些單詞的「意義」。它似乎能夠在某種程度上「理解」這些單詞。至少，看起來是這樣...

但問題是，簡單地用這個著名的例子來解釋 Word2Vec 在我看來是一個巨大的錯誤。對我來說（我相信其他許多人也是如此），這種說法非常容易讓人誤解。

著名的「詞類比」現象可能只是一場高端作弊

需要澄清的是：算法本身并沒有任何問題！算法的概念非常有趣，在大多數情況下都非常有效。如果處理得當，它可以很好地表征單詞的相似性或意義。但是「國王-男人+女人=女王」的例子遠遠夸大了算法的實際能力。

以下是我認為應該停止使用這個經典的例子來介紹 Word2Vec 的原因：

1. 事實證明，為了讓這個例子成立，你必須采取一些「作弊」手段。實際上我們更容易得到「國王-男人+女人=國王」。因此，最終得到的向量更接近于「國王」而不是「女王」。這個廣為人知的例子之所以成立，是因為算法將原始的向量（國王）排除在了可能的結果之外！這意味著「國王-男人+女人」的結果與「國王」的詞向量更接近。排在第二位的才是「女王」，而這也就是計算機程序最終選擇的輸出。這太讓人失望了，不是嗎？

著名的「詞類比」現象可能只是一場高端作弊

在我看到的許多課程和教程中，都沒有提及這個問題。因此，我認為這一點仍然沒有廣為人知。實際上，我是在一門更「良心」的自然語言處理在線課程中，最終才了解到了這個令人失望的「技巧」。（俄羅斯國立高等經濟大學的在線 Coursera 自然語言處理課程，值得一看：https://www.coursera.org/lecture/language-processing/word-analogies-without-magic-king-man-woman-queen-lpSIA）

最近，格羅寧根大學的三名研究人員針對 Word2Vec 測試了一些著名出版物上提及的例子。雖然有些例子確實可以達到預期的效果，但令人沮喪的是，大量給定的例子只有在使用「不允許查詢單詞本身」的「小技巧」時才能成立（詳情請參閱 Nissim 等人于 2019 年發表的論文「Fair is Better than Sensational:Man is to Doctor as Woman is to Doctor」：https://arxiv.org/abs/1905.09866）

著名的「詞類比」現象可能只是一場高端作弊

圖表選自 Nissim 等人于 2019 發表的論文「Fair is Better than Sensational:Man is to Doctor as Woman is to Doctor」。作者使用 Word2Vec 測試了一系列關鍵文章中的類比示例。他們執行了一系列類似于「C 之于 B，相當于 A 之于 X」這樣的查詢。「索引」（Index）指的是報告的答案（“Reported”）實際上被找到的位置（通常不是“1”）。此外，右邊兩列也展示出了算法給出的排序第一、第二的答案。

2. 很不幸的是，事實往往更加糟糕。Finley 等人于 2017 年對「男性=女性/國王-女王/男人-女人」之外的詞類比進行了更加差地的分析。他們對大量的句法和語義類比進行了評估，發現基于詞嵌入（即詞向量）的計算對于某些類型的類比效果良好，但是在有的類比任務中的表現又要差一些。在「詞匯語義」這一種類比任務中，這些算法似乎表現得特別糟糕...但只有一個非常明顯的例外：「男性-女性」的類比！因此，從某種程度上說，這些通常在講座或教程中給出的例子代表的是一種例外情況，而不是常規的規則（詳情請參閱 Finley 等人于 2017 年發表的論文「What Analogies Reveal about Word Vectors and their Compositionality」：https://www.aclweb.org/anthology/S17-1001）

3. 讓我們跳出這個著名的例子，來比較不同產生詞嵌入的方法，人們通常會比較方法在大量的不同的文本語料庫上的準確率。即使在這種情況下，事情也比人們通常所認為的復雜的多。一些有趣的研究（例如 Levy 等人在 2016 年發表的工作）清晰地表明，在比較不同的算法時，我們需要十分小心謹慎（包括 Word2Vec）。

通常情況下，「新」方法會針對測試數據集進行優化，從而獲得良好的性能。然后，這些方法會拿來與「舊」方法進行對比，這很好。但問題是，這些舊方法針對各自的數據集進行的優化相對于新方法要少得多。即使處理得當，實驗的結果往往不那么令人信服，而且許多情況都說明，舊方法（處理得當）和新方法的性能幾乎沒有什么差別（詳情請參閱 Levy 等人于 2014 年、2016 年發表的論文

「Neural Word Embedding as Implicit Matrix Factorization」（https://papers.nips.cc/paper/5477-neural-word-embedding-as-implicit-matrix-factorization.pdf）
「Improving Distributional Similarity with Lessons Learned from Word Embeddings」（https://www.aclweb.org/anthology/Q15-1016）

至此，我學到了兩件事：

在使用一個或幾個特定的數據集上的對比基準測試對方法進行比較時，需要特別小心。這條原則遠遠不止局限于討論「Word2Vec」的例子！
不要再簡單地認為「國王-男人+女人=女王」的例子就可以解釋「Word2Vec」。人們對它產生了不切實際的過高的期望。而且...如果不能作弊的話，這個例子甚至都不成立！

PS：在本文中，我主要寫的是 Word2Vec（或與其非常相關的算法）。但是，考慮到上面列舉出的問題的嚴重性，我也希望人們能找出其它流行的詞嵌入算法中的類似的問題。這似乎真的值得一試！

參考文獻：

1.俄羅斯國立高等經濟學院的 NLP 在線課程可以在 Coursera 上看到。這是我看到的比較優質的 NLP 課程，它清晰地分析了 Word2Vec。

HSE/Coursera NLP 課程鏈接（https://www.coursera.org/learn/language-processing）
「國王-男人+女人=女王」的課程視頻鏈接（https://www.coursera.org/lecture/language-processing/word-analogies-without-magic-king-man-woman-queen-lpSIA）
Github 代碼倉庫鏈接（https://github.com/hse-aml/natural-language-processing）

2.如果你對動手研究詞嵌入感興趣，那么網上有很多預訓練好的、可以直接使用的資源。不妨試著動手實現一下下面該出的語義運算器：http://vectors.nlpl.eu/explore/embeddings/en/calculator/。你可以選用在谷歌新聞，英文維基百科等語料庫上訓練的模型。這個小工具很有趣，看看它能做些什么、不能做些什么也很有意義。

3.Nissim, van Noord, van der Goot (2019): Fair is Better than Sensational: Man is to Doctor as Woman is to Doctor（https://arxiv.org/abs/1905.09866）

4.Levy, Goldberg, Dagan (2016): Improving Distributional Similarity with Lessons Learned from Word Embeddings.（https://www.aclweb.org/anthology/Q15-1016）

5.Levy and Goldberg (2014): Neural Word Embedding as Implicit Matrix Factorization.（https://papers.nips.cc/paper/5477-neural-word-embedding-as-implicit-matrix-factorization.pdf）

6.Finley, Farmer, Pakhomov (2017): What Analogies Reveal about Word Vectors and their Compositionality.（https://www.aclweb.org/anthology/S17-1001）

via https://blog.esciencecenter.nl/king-man-woman-king-9a7fd2935a85. 雷鋒網雷鋒網

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

2人收藏

MrBear

知情人士

發私信

當月熱門文章