0
作者 | 李梅
一味追求大模型是不是走錯了路?
未來最有影響力的進展是會來自工業界還是學術界?
語言模型到底有沒有理解語言?
我做的研究到底有沒有價值?
......
最近,一項針對 NLP 社區的調查反映了 NLPer 對所有這些重要問題的看法。來自華盛頓大學、紐約大學和約翰霍普金斯大學的組成的研究團隊,就 NLP 領域的一些爭議性問題征求了廣大研究者的意見,包括研究者在大模型、AGI(通用人工智能)、語言理解、未來方向等多個方面的看法。

調查結果真是一看嚇一跳,竟有多達 67 % 的 NLP 研究者對自己所從事研究的科學價值抱有懷疑態度!
還有網友吐槽:連塔羅牌都比 NLP 靠譜。

其他受訪者同意比例相當高的觀點還有:
被引用最多的研究成果將來自工業界而不是學術界,如今工業界在引領 NLP 領域發展進程方面的影響力過大;
反對最大化規模可以解決一切問題的假設;
“NLP 寒冬”將在未來 30 年內來臨;
NLP 研究人員應該關注 AGI;
NLP 研究人員應該更多考慮整合來自鄰近學科(如語言學、認知科學)的見解;
過去 5 年發表的構建可解釋模型的大多數研究都走錯了方向;等等。
首先簡單介紹一下本次調查的受訪者情況:
共有 480 位 NLPer 參與了此次調查。其中 327 人在過去三年中至少發表過兩篇 ACL 論文,這部分人是調查的目標人群。
在地區分布上,受訪者中的 58% 來自美國,23% 來自歐洲,8%來自亞洲。其中,來自中國的 NLP 研究者占 3%。
73% 的受訪者來自學術界,22% 的受訪者來自工業界,4% 從事非營利組織或政府工作。其中,教師和高級管理人員占 41%,23% 是初級研究人員(包括博士后),33% 是博士生,2% 是碩士研究生或本科生。
另外,受訪者的男女比例分別為 67% 和 25%。
下面我們來看本次調查的詳細結果和分析:

工業界的領域影響力
Q1-2:未來 10 年被引用最多的論文更有可能來自工業界,而不是學術界。
調查結果顯示,絕大多數人(86 %)都認為,未來 10 年,被引用最多的研究成果將來自工業界而不是學術界;但也有 77 % 的人認為,如今的私營企業在引領 NLP 領域發展進程方面的影響力過大。
在許多人看來,一項工作的被引用次數并不能很好地代表其價值或重要性,而且,工業界對該領域的持續主導地位將產生負面影響,比如在基礎系統方面的絕對控制地位,就像 GPT-3 和 PaLM。
不過,受訪者對這兩個問題的回答分歧很大,在學術界人士中,認為工業界的影響力過大的人所占比重為 82 %,而在工業界這一比例為 58%。
NLP 寒冬何時到來?
受訪者被詢問是否預計在不久的將來會出現一個“NLP 寒冬”,即資金和就業機會較峰值下降至少 50%。
Q1-4:我預計未來 30 年內將出現“NLP 寒冬”。
有 30 % 的人同意或弱同意寒冬將在未來 10 年內到來,其中僅有 7% 的人選擇“同意”;而相信寒冬將在未來 30 年內到來的人要多得多,比例為 62%。
盡管 30 %不是一個大數字,但這也反映了這一部分 NLP 研究者的一種信念,即 NLP 研究將在不久的將來發生重大變化(至少在誰提供資金以及提供多少資金方面)。為什么他們的態度會相對悲觀?背后有許多可能原因,比如由于工業界影響力過大而導致的創新停滯,工業界將憑借少量資源充足的實驗室來壟斷行業,NLP 和其他 AI 子領域之間的界限將消失,等等。
NLP 在科學上的價值
有 67% 的 NLP 研究者對這一領域研究工作的價值進行了反思,他們認為,大多數 NLP 工作在科學意義上是可疑的。
受訪者對“可疑”的定義可能是多樣的,包括根本不具有完整性的工作、所研究問題不恰當、研究結果無意義,或者研究發現并不重要、不可靠等等。
作者匿名制度的必要性
ACL 會議的匿名政策比許多其他會議(如 NeurIPS、ICLR 和 ICML)要嚴格得多。調查表明,盡管爭議很多,但 NLP 社區總體上是支持這一政策的, 63% 的人認為匿名可以保證限制預印本的傳播)。這個問題也顯示出了明顯的性別差異,有 77% 的女性表示同意,只有 58% 的男性表示同意。

規模最大化是終極方案嗎?
強化學習之父 Richard Sutton 在其文章 “The Bitter Lesson”中曾發表一個廣為人知的觀點:利用計算的一般方法最終是最有效的,而且效率提升幅度會非常大。在這種觀點下,模型做得越來越大,研究者期望在有足夠訓練數據和模型容量的情況下,與引入語言結構或專家設計的歸納偏差相比,使用更少的、更通用的原則性學習機制是更優的方案。
然而,這項調查的結果表明,NLP 研究者對 Sutton 這種觀點的認可程度實際上遠遠低于預期。僅有 17 % 的人同意或弱同意:鑒于本世紀算力和數據的可能發展程度,擴大現有技術的實施規模將足以解決 NLP 的所有重要問題。在人人似乎都對大模型趨之若鶩的當下,這個數字是極低的。
語言理論和歸納偏差的價值
Q2-3:專家設計的強歸納偏差(如通用語法、符號系統或受認知啟發的計算原語)對于解決一些重要的現實世界問題或 NLP 中的應用是必要的。
Q2-4:到 2030 年,被引用次數最多的五個系統中至少有一個可能會從過去 50 年語言學或認知科學研究結果中汲取明確的靈感。
與規模化的觀點形成對比,受訪者對于語言理論、歸納偏差的支持度實際上不低。50% 的人認為,語言結構對于解決 NLP 問題是有必要的;51% 的人認為專家設計的歸納偏差也很重要。許多 NLP 研究者似乎認為,當前使用低歸納偏差的神經網絡架構進行端到端建模的趨勢將會發生逆轉。
此外,有 61% 的受訪者表示,2030 年被引用次數最多的五個系統很可能會從過去 50 年語言學或認知科學研究中獲取靈感。而事實上,當前系統對認知科學的借鑒還僅僅停留在對神經元、注意力、token 的粗略解釋上。

AGI 的爭議
Q3-2:大規模機器學習建模(例如語言建模和強化學習)的最新進展是 AGI 發展的重要表現。
GPT-3 和 PaLM 等大型預訓練模型的多功能性和令人驚艷的語言輸出,引發了人們對通用人工智能 (AGI) 的巨大爭議,包括預測 AGI 何時會到來,我們是否真的在朝著 AGI 前進,以及 AGI 的后果會是什么,等等。
在關于 AGI 的問題上,受訪者的意見分布比較均衡,58% 的人認為 AGI 應當是 NLP 研究者的一個重要關注點,57% 的人相信最近的研究顯著推動了我們向 AGI 方向發展。這兩種觀點具有高度正相關性。
AGI 會帶來什么?
Q3-4:在本世紀,由 AI/ML 系統做出的決策可能會引發一場全面核戰爭級別的嚴重災難。
73% 的受訪者認為,AI 的自動化可能很快會帶來革命性的社會變革,這也是有那么多人認為 AGI 是一個重要問題的原因。值得注意的是,有 23% 的人盡管認同這種變革,但并不同意 AGI 的重要性,所以,關于 NLP 的討論或許沒有必要牽扯進關于 AGI 的辯論中。
此外,大約三分之一(36%) 的人認為,AI 決策可能會導致核戰爭級別的災難。這表明,有相當一部分研究者都對 AGI 表示擔憂。

語言模型(LM)是否能理解語言?
Q4-2:對于多模態生成模型(如一個經過訓練可以訪問圖像、傳感器和執行器數據等的模型)而言,只要有足夠的數據和計算資源,就可以理解自然語言。
有一半(51%) 的人同意 LM 理解語言,如果模型還可以訪問多模態數據(圖像等),同意的人則占比更多,為 67%。
相比之下,只有 36% 的人認為,純文本評估可以衡量語言理解。這表明在很多人看來,評估是一個獨立的問題,理解可能是可學習的,但不可測量。

過于關注規模化和基準
Q5-2。當前的 NLP 領域過于關注優化基準性能。
分別有 72% 和 88% 的 NLP 研究者認為,現在大家對規模化和優化基準性能的關注過多。
NLP 方向走錯了嗎?
Q5-4:過去 5 年發表的大多數開放式語言生成任務研究都走錯了方向。
Q5-5:過去 5 年發表的構建可解釋模型的大多數研究都走錯了方向。
Q5-6:過去 5 年發表的大多數可解釋黑盒模型的研究都走錯了方向。
在模型架構、語言生成、可解釋的模型、黑盒可解釋性四個具體的研究方向上,受訪的 NLP 研究者對以上問題的同意率分別為 37%、41%、50%、42%,爭議較大。在可解釋性模型問題上,社區成員的批評態度比較顯著。
跨學科的價值
有高達 82% 的人認為 NLP 研究需要借鑒更多相關領域科學。問題是,雖然有這么多的人嘴上都強調這一點,但實際上做得卻并不怎么好,真正的問題可能不是 NLP 研究者沒有意識到跨學科的重要性,而是我們還缺乏能推動實施的知識和工具。

雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。