0
雷鋒網按:2013年,Tomas Mikolov發表的《Efficient estimation of word representations in vector space》,目前引用率已經超過11K。除了其詞向量的貢獻外,一個讓人印象深刻的貢獻便是指出NLP中「詞類比」的現象,最經典的例子莫過于「國王-男人+女人=皇后」。

Mikolov在另外一篇引用率極高的文章《Linguistic regularities in continuous space word representations》中也著重強調了在連續空間詞表示的語言規律。
此后,關于詞類比的研究此起彼伏,有諸多相關論文發表,雷鋒網AI科技評論在一周前也曾發表過一篇ACL 2019論文解讀,介紹詞類比的理論解釋:「國王-男人+女人=皇后」背后的詞類比原理究竟為何?| ACL 2019。
但是,在NLP中太過美好的事情往往都存在潛在的風險。
馬薩諸塞大學(洛厄爾分校)文本機器實驗室的 Anna Rogers 近日發表一篇博客,指出了詞類比存在的問題以及由此引發的「如何讓錯誤結論停止傳播」的問題,值得我們思考。
據我所知,首次對矢量偏移(vector offset)提出質疑的是K?per等人發現它在詞典關系( lexicographic relations )中并不適用[1],后來Karpinska等人證實了這個結論[2]。
之后,Gladkova等人的工作發現,BATS數據集提供的包含40類關系的更大平衡樣本中,矢量偏移僅適用于恰好包含原始Google 數據集中的那部分[3]。如下圖所示,40類關系中僅「形態較差語言中的屈折形態」和「國家 : 首都」這類詞才能取得較高的準確率。

如果語言關系能夠如Mikolov等人文章中所說的那樣整齊和規律,那么為什么這個規律(詞類比)不能概括所有詞呢?
一些研究工作證明,如果 3 個源詞(source words)沒有從待選答案集中排除的話,詞類比就不會起作用。例如在 king-man+woman=queen的這個結論中,king、man和woman的向量是被排除在可能的答案集之外的。Tal Linzen的工作[4]表明,不用詞類比,你只需要簡單地獲取woman最近鄰的詞,或者同時與woman和king(沒有man)最相似的詞,便可以獲得相當高的準確率。在Rogers等人[5]的工作中指出,如果你不排除 3 個源詞的話會發生什么:

其中a、a’、b是源向量,b’是目標向量。可以看出,在大多數情況下詞類比的最好結果竟然是 b(也即 woman)。
如果在大多數情況下預測向量都是最接近woman向量,這就意味著矢量偏移太小,偏移本身并沒有產生實質性意義,你的結果仍然停留在源向量附近。
Rogers等人的研究還指出,如果源向量a(“man”),a’(king)和b(“woman”)被排除在外,那么你成功的可能性取決于正確答案與源詞的接近程度,從下圖可以看出:

你可以能會反對說:出現以上問題的原因是不良的詞嵌入,理想的嵌入能夠編碼所有可能的關系以便能夠通過矢量偏移來得到目標向量。
這種反對目前來看,只能期望通過未來的實驗來驗證了。
但從理論角度來看,即使理想的嵌入也不可能得出通用的詞類比關系,原因如下:
(1)從語義角度,操縱向量差的想法讓人想起上世紀50年代的成分分析方法,針對成分分析已經有充足的理由來說明為什么不值得繼續發展,例如“man”+“unmarried”作為“bachelor”(單身漢)的定義是否適用于“Pope”(教皇)?
(2)從分布角度,即使看似完美的類比(如,cat:cats與table:tables)也并不完美。例如 turn the tables (翻桌子)與turn the table(轉過桌子)并不相似,它們出現在不同的上下文中,而這種差異在cat:cats中卻不存在。鑒于這樣的差異成千上萬,我們怎么能夠期望總體能夠表現出完美的類比規則呢?如果真的這樣做了,它們能夠很好地代表語言語義嗎?如果我們想獲得良好的語言生成,我們就需要考慮到這種細微的差異,而不是粗暴地忽略它們。
總結來說,以上幾篇論文對懷疑矢量偏移效果提供了充分的理由。矢量偏移似乎更適用于小的原始數據集,前提是預測目標要事先排除掉源向量;其成功的部分原因可歸結為基本余弦相似性,但它無法概括為更廣泛的語言關系。
我寫這篇文章的重點,想說的并不僅僅是上面提到的關于矢量偏移的負面證據,而是這些負面結果以及相關的報告從來沒有被受Mikolov論文影響的那成千上萬的研究者所廣泛了解。
這種現象也很容易理解。對于一個廣泛傳播的謠言,即使后期有諸多辟謠,也無法覆蓋所有被影響的人。因此,辟謠是重要的,對辟謠的廣泛支持和傳播更為重要。
在科學領域,如果對一篇被廣泛引用但有瑕疵的論文的結論進行更新,那么快速傳播這種更新的結論符合每個研究人員的利益,這可以節省更多研究人員浪費在原始未經測試的假設上的努力。
然而不幸的是,以上提到的那些研究成果,僅有一篇發表在頂會上(Schluter, NAACL 2018),這或許并非巧合。 作為對比,現在已經有兩篇ACL論文、一篇COLING論文和ICML的一篇最佳論文為矢量偏移能起作用提供數學證明[6][7][8][9]。注意,Schluter的論文也是采用了數學的觀點,卻得出了完全相反的結論。
當然我對矢量偏移持完全開放的態度,它有可能是對的,但也可能是錯的。如果前者,那么說明我們擁有了一個直觀、方便且可靠的方法來進行類比推理。但必須要強調的是,目前那些證明矢量偏移有效的論文并沒有解決它的負面證據。
考慮假如上面的那些負面證據是正確的,那對該領域該有多大的影響?這意味著我們大多數人正在追求一個簡單卻不真實的語言關系模型,許多從業者在實際工作中也在使用這種方法。
總結:類比推理是人類推理中一個非常重要的方面,如果我們要達到通用人工智能,我們必須做到正確。截止目前為止,從我所看到的,詞嵌入的線性矢量偏移并不是正確的思考方式。但除了它,還有許多其他的方向,包括一些更好的推理方法[][],或許我們也該嘗試一下其他更有希望的方向。
矢量偏移的問題并不是個別現象。它是一類模式的代表:(1)有一個閃亮的結果,直觀、有吸引力,然后又因為過于出名而少有質疑;(2)負面的結果可見度低,并不為大多數人所注意。
在NLP領域,后者因為近年來Arxiv論文暴漲而加劇。當你連自己想要閱讀的論文列表都讀不完時,哪還有心思去關注哪些小眾的引用率低的論文?最自然的選擇就是,重點關注引用率最高的哪些。
事實上,很難讓負面結果變得如那些明星論文一樣性感,正如辟謠從來沒有謠言傳播力大一樣。
但我認為,可以通過某種機制來改善這種情況。為什么我們不在ACL這樣會議上設立負面結果的獎勵呢,這可以鼓勵人們對那些被廣泛接受的假設進行事實核查?這將:
提高對流行問題的認識,使人們不會在不牢靠的假設基礎上進行進一步工作;
確定明年需要更多人手的高產研究方向,從而刺激NLP的整體進展;
通過鼓勵研究和報告負面結果來減少錯誤重復的問題。
例如NAACL 2019上就有幾篇有意思的論文就可以獲得此種類型的獎:
exposing the lack of transfer between QA datasets (Yatskar, 2019)
limitations of attention as “explaining” mechanism (Jain & Wallace, 2019)
multimodal QA systems that work better by simply ignoring some of the input modalities (Thomason, Gordon, & Bisk, 2019)
這三篇論文中有兩篇都只是poster paper。我無法想象有多少類似的工作甚至都沒有通過評審。我覺得這對做類似重要工作的人發出了一個錯誤的信號,告訴他們明年不要做這種類型的工作了。很悲哀!
想象一下,假如有這樣一個獎,并且被授予給Yatskar。那么參加這個會議的每個人(甚至更多人)都會知道三個流行的問答數據集之間缺乏遷移。QA是最流行的任務之一,所有如果能夠讓整個社區知道這個問題,來年就會有更多的人去解決QA中的這個問題,而不是單純地集中在某一個數據集上進行研究。
負面結果的論文,應當被重視,也應當被強調!
雷鋒網報道!
參考資料:
[1] K?per, M., Scheible, C., & im Walde, S. S. (2015). Multilingual Reliability and "Semantic" Structure of Continuous Word Spaces. Proceedings of the 11th International Conference on Computational Semantics, 40–45. Association for Computational Linguistics.
[2] Karpinska, M., Li, B., Rogers, A., & Drozd, A. (2018). Subcharacter Information in Japanese Embeddings: When Is It Worth It? Proceedings of the Workshop on the Relevance of Linguistic Structure in Neural Architectures for NLP, 28–37. Melbourne, Australia: Association for Computational Linguistics.
[3] Gladkova, A., Drozd, A., & Matsuoka, S. (2016). Analogy-Based Detection of Morphological and Semantic Relations with Word Embeddings: What Works and What Doesn’t. Proceedings of the NAACL-HLT SRW, 47–54. https://doi.org/10.18653/v1/N16-2002
[4] Linzen, T. (2016). Issues in Evaluating Semantic Spaces Using Word Analogies. Proceedings of the First Workshop on Evaluating Vector Space Representations for NLP. https://doi.org/http://dx.doi.org/10.18653/v1/W16-2503
[5]Rogers, A., Drozd, A., & Li, B. (2017). The (Too Many) Problems of Analogical Reasoning with Word Vectors. Proceedings of the 6th Joint Conference on Lexical and Computational Semantics (* SEM 2017), 135–148.
[6] Gittens, A., Achlioptas, D., & Mahoney, M. W. (2017). Skip-Gram - Zipf + Uniform = Vector Additivity. Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), 69–76. https://doi.org/10.18653/v1/P17-1007
[7] Hakami, H., Hayashi, K., & Bollegala, D. (2018). Why Does PairDiff Work? - A Mathematical Analysis of Bilinear Relational Compositional Operators for Analogy Detection. Proceedings of the 27th International Conference on Computational Linguistics, 2493–2504.
[8] Ethayarajh, K., Duvenaud, D., & Hirst, G. (2019). Towards Understanding Linear Word Analogies. To Appear in ACL 2019.
[9] Allen, C., & Hospedales, T. (2019). Analogies Explained: Towards Understanding Word Embeddings. ArXiv:1901.09813 [Cs, Stat].
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。