CALMS：多語言摘要中的信息抽取與共享 | ?ACL 2021 Findings

本文作者：我在思考中

2021-08-09 10:18

專題：ACL 2019

導語：AI 科技評論為大家介紹一篇來自 ACL2021 Findings 的多語言摘要工作。

作者 | 王丹青

編輯 | 陳大鑫

在快節奏的生活中，人們往往沒有耐心閱讀長篇大論，而是希望能夠通過簡短的文字迅速掌握文章的重點信息，從而判斷是否有必要詳細閱讀。因此不管是在新聞推送還是在論文撰寫，為文章提取一個簡明扼要的摘要都是十分重要的。以往這項工作都是由文章作者或者專門的編輯進行，而現在，人們可以通過 AI 模型自動為文章提供摘要，大大解救了為總結全文而絞盡腦汁的作者編輯們。

緊隨國際化的步伐，我們對于摘要生成的需求也不再局限于單種語言。對于我們熟悉的中文，閱讀摘要自然能夠節約部分時間，但是對于不熟悉的英法德等語言，我們更需要通過摘要來判斷是否有必要花費大量精力對全文進行翻譯閱讀。然而，為每一種不熟悉的語言建立一個模型實在是過于繁重，我們最希望的是有一個統一的模型，能夠同時對多種語言的文章進行閱讀理解，同時生成對應語言的摘要輸出，這就是多語言摘要的研究核心。

一個優秀的模型除了精心的算法設計，還離不開大量的數據。由于摘要本身撰寫難度，人們很難收集到大量高質量的文章-摘要對數據，這個現象在小眾的語言上尤為突出。因此，要解決多語言摘要問題，我們首先需要解決的是數據問題。有了數據之后，我們希望能夠讓模型取長補短，利用資源豐富的語言數據來扶貧資源稀缺的語言。

這里AI 科技評論為大家介紹一篇來自 ACL2021 Findings 的多語言摘要工作《Contrastive Aligned Joint Learning for Multilingual Summarization》。

該篇文章由字節跳動人工智能實驗室和復旦大學合作完成，主要提供了一個囊括了12種語言，總數據量達到100萬的新多語言數據集 MLGSum。同時，該篇工作設計了兩個任務來提取文章信息并在多種語言間進行語義對齊，從而來同時提升模型在多種語言上的摘要性能。

CALMS：多語言摘要中的信息抽取與共享 | ?ACL 2021 Findings

1

多語言摘要數據集 MLGSum

機器學習模型，算法為主，但數據先行。沒有高質量的大規模數據只能是巧婦難為無米之炊。然而，目前絕大多數摘要數據集均集中在英文上，最近提出的多語言數據集MLSUM[1]也只提供了5種語言。

因此，作者首先從多語言新聞網站上收集了大量的新聞數據并進行篩選，保留包含人工摘要的部分數據，最終獲得了包括 12 種語言，總共文章-摘要對高達100萬的大規模數據集。具體語言和數據分布見圖 1，其中縱坐標單位為萬。

通過柱狀圖可以看到，德語（De），英語（En），俄羅斯語（Ru），法語（Fr）和中文（Zh）的數據量較多，其余幾種語言的數據量較少。因而作者以此為劃分，前面5種作為高資源語種，后面7種作為低資源語種。

作者的目標在于，在高資源語種上訓練一個聯合模型，使得其能夠同時在5種語言上獲得優于單語言模型的性能。與此同時，該聯合模型能夠很好地遷移到低資源語種上。

CALMS：多語言摘要中的信息抽取與共享 | ?ACL 2021 Findings 圖1：MLGSum的各語言數據量

2

對比學習的多語言摘要模型 CALMS

針對摘要的任務特性，作者利用對比學習的思想，設計了兩個句子級別的輔助任務。

第一個叫對比句子排序 (Contrastive Sentence Ranking, CSR)，其目的是幫助模型分辨出哪些信息更加重要。

具體做法是，首先從文章中隨機抽取出若干個句子作為摘要候選；其次將這些候選項和標準摘要進行對比，相似度最高的作為正樣本，其余作為負樣本。在模型學習過程中，需要將正負樣本的表示距離不斷拉大，從而分辨出文章中哪些句子對摘要更加重要。

第二個叫對齊句替換 (Sentence Aligned Substitution, SAS)，其目的是拉近不同語言間相似句子的距離。

具體來說，首先作者從語言A的文章中抽取出一些重要信息句（如前幾句），翻譯成另一種語言B并且進行替換，模型需要根據替換后的混合文章將原始句子還原出來。這個任務希望能夠借助翻譯拉近語種間的語義表示。從一方面來說，還原的過程可以認為是對重要信息句做B到A的翻譯；從另一個方面來說，可以將其視作利用A文章的剩余內容來還原重要信息句。基于重要信息句的信息量和剩余所有內容的信息量之和相似的假設，可以將這個過程視作自監督摘要。

CALMS：多語言摘要中的信息抽取與共享 | ?ACL 2021 Findings 圖2: CSR和SAS任務設計

3

性能一覽

作者利用 mBART 模型[2]作為多語言語言模型初始化，并且利用上述兩個任務進行進一步微調，最終獲得了模型CALMS（Contrastive Aligned Joint Learning for Multilingual Summarization）。

首先在5種高資源語言上進行了實驗，結果如下所示。其中Mono模型為每種語言一個的單語言模型，Multi模型為聯合的多語言模型。可以看出，通過上述兩個方法的設計，聯合模型在每種語言上都優于單語言模型，并且通過針對每種語言的微調可以進一步提升性能。

CALMS：多語言摘要中的信息抽取與共享 | ?ACL 2021 Findings 圖3: 各模型在De En Ru Fr Zh五種語言上的性能(以ROUGE-1為例)

此外，針對低資源語言，作者將上述在5種語言上聯合訓練的模型 CALMS 作為初始化，遷移到低資源語言上。其中 Transformer 和 mBART 為直接在該低資源語言上訓練的模型。

可以看到，針對上述5種語言較為相近的幾個語系，如Romance羅曼語(Fr Pt Es 法語葡萄牙語西班牙語)和Savic斯拉夫語(Ru Uk 俄語烏克蘭語)，CALMS明顯優于直接訓練的單語言模型，但是對于較遠的幾個語系，效果有所下降。這是因為CALMS針對上述5個語種進行針對性微調優化，導致語義空間和其余語系更遠。同時針對沒有被mBART覆蓋的Id印度尼西亞語，CALMS取得了優于單語言模型的效果，這是因為CALMS對摘要任務本身提取重要信息的能力也進行了加強。

CALMS：多語言摘要中的信息抽取與共享 | ?ACL 2021 Findings

圖4: CALMS遷移到低資源語言上的性能

4

總結

該篇文章為了解決多語言摘要問題，首先提出了一個包含 12 種語言的摘要數據集 MLGSum；其次針對多語言和摘要兩個特性設計了兩個輔助任務，來加強模型提取重要信息和語言間對齊的能力。最終聯合模型CALMS在5種高資源語言上取得了優于單語言模型的能力，并且證實了其在相似語系中有著良好的遷移能力。

數據集和代碼將會公開在 https://github.com/brxx122/CALMS

參考文獻

[1]Thomas Scialom, Paul-Alexis Dray, Sylvain Lamprier, Benjamin Piwowarski, and Jacopo Staiano. 2020. Mlsum: The multilingual summarization corpus. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 8051–8067.

[2] Yinhan Liu, Jiatao Gu, Naman Goyal, Xian Li, Sergey Edunov, Marjan Ghazvininejad, Mike Lewis, and Luke Zettlemoyer. 2020. Multilingual denoising pre-training for neural machine translation. Transactions of the Association for Computational Linguistics, 8:726–742.

贈書福利

AI科技評論本次聯合【圖靈教育】為大家帶來10本《算法（第四版）》正版新書。

CALMS：多語言摘要中的信息抽取與共享 | ?ACL 2021 Findings

AI科技評論將一共選出 10名讀者，每人送出《算法（第四版）》一本。

在2021年8月8日二條文章（不是本文，僅限AI科技評論微信公眾號端）留言區留言，歡迎大家暢所欲言，談一談你對本書的看法和期待。在綜合留言質量（留言是敷衍還是走心）和留言點贊最高（注：點贊最高的前10不意味著一定會中獎）的讀者中選出10位讀者獲得贈書。獲得贈書的讀者請聯系 AI 科技評論客服（aitechreview）。

留言內容會有篩選，例如“選我上去”、“這書寫的很棒（僅僅幾個字）”等內容將不會被篩選，亦不會中獎。
留言送書活動時間為2021年8月8日 - 2021年8月12日（23:00），活動推送時間內僅允許贈書福利中獎一次。
雷鋒網雷鋒網雷鋒網

雷峰網特約稿件，未經授權禁止轉載。詳情見轉載須知。

1人收藏

專題

ACL 2019

本專題其他文章

我在思考中

運營

發私信

當月熱門文章