0

全世界有7000多門語言,但自然語言處理(NLP)卻主要研究英語這門語言。來自Deep Mind的科研人員Sebastian Ruder認為,當下NLP領域集中于開發能夠有效處理英語的方法,卻忽略了鉆研其他語言的重要性。事實上,研究英語以外的語言不僅具有重大的社會意義,還有助于構建多語言特征模型,以避免過度擬合和應對機器學習的潛在挑戰。雷鋒網

(在上面的地圖中,一個綠色圓圈便代表一種本土語言。世界上大多數語言的使用集中分布在亞洲、非洲、太平洋地區和美洲地區。)
在過去的幾年里,NLP的許多任務取得了振奮人心的進步,但大多數成果只是局限于英語和其他少數幾門使用較廣泛、數據資源豐富的語言,如中文、日語、法語等。作者Sebastian Ruder回顧2019年ACL網站上關于無監督跨語言表示學習(Unsupervised Cross-lingual Representation Learning)的發文,然后基于線上所能獲取的無標注數據和標注數據,總結出一個語言數據資源等級體系。這個體系與2020年由來自微軟研究院的Pratik Joshi等人共同發表在ACL上的一篇論文“The State and Fate of Linguistic Diversity and Inclusion in the NLP World”里所提到的分類法相似,如下圖所示:雷鋒網

(這是Joshi等人歸納的語言資源分布圖。圓圈的大小和顏色分別表示一個語系下的語言數量和使用者數量。根據VIBGYOR光譜的排列順序:紫色(Violet)–靛藍(Indigo)–藍色(Blue)–綠色(Green)–黃色(Yellow)–橙色(Orange)–紅色(Red),顏色從左到右(從紫色到紅色)表示語言使用者數量遞增。)
從上圖中,我們可以看到,當下NLP文獻對分布在最右邊的、擁有大量標注數據和未標注數據的第5類語言(紅色)和第4類語言(橙色)有充分研究。相比之下,NLP對其他組別的語言研究十分有限。在本文中,作者將從社會、語言、機器學習、文化規范以及認知等視角論證NLP為何需要鉆研英語以外的其他語言。雷鋒網
1、社會方面
如果NLP僅適用于單一標準口音的英語使用者,那么這門技術便難以普及。
一個人所使用的語言決定了其獲取信息、接受教育和建立人際關系的途徑。雖然我們會想當然地以為互聯網面向所有人,但在現實生活中,我們不難發現:互聯網資訊顯示的語言僅幾百種(連全世界語言種類的15%都不到),主要面向主流語言使用者,這些網民也主要來自西方國家;相比之下,其他小眾語言使用者能接觸到的數字信息非常有限。
隨著越來越多門語言出現在聊天app與社交媒體中,主流語言與小眾語言的差距體現在技術的方方面面:從基礎層面看,數據資源匱乏的語言連一個輔助輸入的鍵盤都沒有,更別提檢查錯誤;從更高層面看,NLP的算法偏向于口音標準的英語使用者,對其他語言使用者和口音不“正宗”的英語使用者則表示出一種“歧視”。
算法“偏心”是一個不可忽視的問題。現有許多NLP研究將數據資源豐富的語言(如英語)作為自然語言的同義詞,導致NLP模型處理許多相關語言子分支(linguistic subcommunities)、方言和口音時效果較差。Jauhiain在2018年發表的論文“Automatic Language Identification in Texts: A Survey”里提到,事實上,語言與語言之間的分界線比我們現在劃分的要模糊,對相似的語言和方言的識別仍然是一個極具挑戰的難題。比方說,雖然意大利語是意大利的官方語言,但整個意大利所使用的語言和方言大約有34種。
技術包容性的持續缺失不僅會加劇主流語言與小眾語言之間的鴻溝,還可能迫使小眾語言的使用者放棄原有語言的學習,轉而學習使用較廣泛的、技術支持條件更好的語言(如英語),進一步危及了語言的多樣性。我們應將NLP模型應用于英語以外的其他語言,以確保非英語使用者能跟上時代,消除當下NLP領域的語言不平衡現象,以及減少語言和讀寫障礙。
2、語言方面
雖然我們聲稱要開發通用語言理解方法,但目前我們的方法總體上僅適用于一門語言,即英語。
世界上少數幾種數據資源豐富的語言(包括英語)在很多方面都不能代表其他語言。許多資源豐富的語言都屬于印歐語系,主要在西方國家使用,詞法匱乏。比方說,信息表達大體上遵循嚴格的句法結構,句子結構有固定的單詞順序、使用多個詞義獨立的單詞,而不是從單詞本身的變化來實現信息傳遞。
這個問題可以通過觀察不同語言的類型特征來獲得更全面的了解。《世界語言結構圖集》(Wolrd Atlas of Language Structure)歸納了192種類型特征,包括語言的結構和語義特征等。比方說,有一種類型特征描述了一門語言中主語、賓語和動詞的典型順序。每個特征平均有5.93個類別。48%的特征分類僅存在于上文圖表中0–2組的小眾語言中,不適用于3-5組的主流語言。忽略數量如此大的類別特征,意味著現有NLP模型可能會錯失那些有助于提升模型泛化能力的寶貴信息。
鉆研英語以外的其他語言也許會幫助我們建立對不同語言之間的關系的全新了解。此外,在這個過程中,我們還能了解在建立NLP模型時需要捕獲的語言特征。具體而言,就是你可以運用你對一門特定語言的了解,探究這門語言與英語在變音符號的使用、復合詞、詞尾的屈折變化、派生詞、重疊詞、沾著語、溶合法等等方面的不同之處。
3、機器學習方面
我們所編碼的模型架構反映了我們的假設,而這些模型架構往往是基于我們所打算應用的數據而來。雖然我們希望設計出能通用于其他語言的模型,但當下NLP模型的許多歸納偏差(inductive biases)僅適用于英語及與之類似的語言。
某些模型中缺乏明確編碼信息,但這并不代表這些信息是與語言無關的。一個典型例子是N-Gram語言模型,對于詞法復雜、詞序相對靈活的語言來說,它的表現會差得多。
同樣地,神經網絡模型常常會忽略形態豐富的語言的復雜性:基于子詞的分詞方法(Subword tokenization)在具有重疊詞的語言上表現不佳,字節對編碼(Byte Pair Encoding, BPE)與形態學的配合也較差,語言模型也不擅長處理詞匯量較大的語言。語法、單詞順序和句法構造的差異也會給神經模型造成問題。除此之外,我們通常假設預訓練的嵌入很容易對所有相關信息進行編碼,但這并不適用于所有語言。
上述問題在單詞與句子方面給建模結構帶來了獨特挑戰,包括多方向處理稀疏性(sparsity)、少樣本學習(few-shot learning)、以預訓練的形式對相關信息進行編碼,以及在相關語言間進行轉換等。現有模型尚無法解決以上難題,因此我們需要一套新的語言感知方法。
新近NLP模型在英語方面應用了具有成千上百萬示例的標注和未標注數據集,在越來越難的基準任務上與人類的表現幾乎不相上下。同時,NLP研究已過度適應了英語語言數據的特征和條件。尤其是因為過度關注數據資源豐富的語言,我們趨于優先選擇在大量標注和未標注數據可用的條件下運行良好的研究方法。
這些方法在處理大多數小眾語言時,由于數據資源的匱乏,往往會出現“癱瘓”狀態。即便是最近預訓練語言模型有望大幅降低下游任務的樣本復雜性,但這也需要大量干凈的、無標注數據,但世界上大部分語言都沒有大量無標注數據。因此,能否良好處理少量數據成為測試當前NLP模型局限性的一個理想條件,評估數據資源匱乏的語言無疑能產生影響深遠的、真實的應用。
4、文化與規范方面
模型訓練所使用的數據不僅展示了特定語言的特征,還詮釋了一定的文化規范和常識。
然而,在不同文化里,一些常識也可能有所不同。例如,“免費”商品指的是任何人都可以在未經許可的情況下使用的商品(如餐館里的鹽),但“免費”和“非免費”的概念在不同的文化中也會有不同的表現。不同文化里對禁忌話題的定義略有不同,甚至對相對權力和社交距離的評估也有一些差異。另外,許多現實情景(如COPA數據集所包含的情景)與許多直接經驗并不匹配,也沒能將許多眾所周知的背景知識平等地反映出來。
因此,僅接觸主要源自西方國家的英語數據的智能體也許能與來自西方國家的談話者進行合理交談,但與來自不同文化背景的人交談時則可能出現溝通障礙。
除了文化規范和常識知識以外,我們訓練模型所依據的數據還反映了潛在社會的價值。作為NLP研究人員或從業人員,我們必須詢問自己:我們是否希望我們的NLP系統排他地傳遞特定某個國家或語言社區的價值觀。
雖然這個問題對于當前主要處理諸如文本分類之類的簡單任務的NLP系統而言并不那么重要,但隨著系統變得越來越智能、并需要處理復雜的決策任務,該問題的決定將變得越來越重要。
5、認知方面
人類幼童能夠學習任何自然語言,而且他們的語言理解能力還能應用于各種語言。為了獲取人類級別的語言理解能力,NLP模型應該有理解不同語言派系和類型的能力。
NLP模型最終應能學習不局限于任何一種語言結構、還能泛化到特征不同的語言的抽象概念。
6、解決之道
1)建立數據集
如果要創建一個新的數據集,應該預留出一半注解用于創建另一門語言的大小相同的數據集。
2)評估
如果您對某項特定任務感興趣,可以考慮用不同語言在同一個任務上進行模型評估。
3)Bender Rule
標明你所研究的語言。
4)假設
明確說明你的模型所使用的信號及其作出的假設。想好哪門語言是你特地學的,哪門語言是籠統學習的。
5)語言多樣性
估算你正在研究的語言樣本的多樣性。
6)研究
鉆研那些能解決數據資源匱乏的語言難題的方法。
相關參考論文:
Cross-Cultural Pragmatic Failure (1983), https://academic.oup.com/applij/article-abstract/4/2/91/167524?redirectedFrom=fulltext
On Achieving and Evaluating Language-Independence in NLP (2011), https://journals.linguisticsociety.org/elanguage/lilt/article/view/2624.html
Choice of Plausible Alternatives: An Evaluation of Commonsense Causal Reasoning (2011), https://ict.usc.edu/pubs/Choice%20of%20Plausible%20Alternatives-%20An%20Evaluation%20of%20Commonsense%20Causal%20Reasoning.pdf
Keyboard layouts: Lessons from the me'phaa and sochiapam Chinantec designs (2014), https://www.researchgate.net/publication/290279777_Keyboard_layouts_Lessons_from_the_me'phaa_and_sochiapam_Chinantec_designs
Demographic Dialectal Variation in Social Media: A Case Study of African-American English (2016), https://www.aclweb.org/anthology/D16-1120/
From Characters to Words to in Between: Do We Capture Morphology? (2017), https://arxiv.org/abs/1704.08352
The DLDP Survey on Digital Use and Usability of EU Regional and Minority Languages (2018), https://www.aclweb.org/anthology/L18-1656/
Automatic Language Identification in Texts: A Survey (2018), https://arxiv.org/abs/1804.08186
Can LSTM Learn to Capture Agreement? The Case of Basque (2018), https://www.aclweb.org/anthology/W18-5412/
Deep Contextualized Word Representations (2018), https://www.aclweb.org/anthology/N18-1202/
Universal Language Model Fine-tuning for Text Classification (2018), https://www.aclweb.org/anthology/P18-1031.pdf
What Kind of Language Is Hard to Language-Model? (2019), https://www.aclweb.org/anthology/P19-1491/
On Difficulties of Cross-Lingual Transfer with Order Differences: A Case Study on Dependency Parsing (2019), https://www.aclweb.org/anthology/N19-1253.pdf
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (2019), https://www.aclweb.org/anthology/N19-1423/
The State and Fate of Linguistic Diversity and Inclusion in the NLP World (2020), https://arxiv.org/abs/2004.09095
A Call for More Rigor in Unsupervised Cross-lingual Learning (2020), https://www.aclweb.org/anthology/2020.acl-main.658/
From SPMRL to NMRL: What Did We Learn (and Unlearn) in a Decade of Parsing Morphologically-Rich Languages (MRLs)? (2020), https://www.aclweb.org/anthology/2020.acl-main.660.pdf
Byte Pair Encoding is Suboptimal for Language Model Pretraining (2020), https://arxiv.org/abs/2004.03720
XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating Cross-lingual Generalization (2020), https://arxiv.org/abs/2003.11080
ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators (2020), https://openreview.net/forum?id=r1xMH1BtvB
A Call for More Rigor in Unsupervised Cross-lingual Learning (2020), https://www.aclweb.org/anthology/2020.acl-main.658/
XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning (2020), https://arxiv.org/abs/2005.00333
via: https://ruder.io/nlp-beyond-english/
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。