<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
      此為臨時鏈接,僅用于文章預覽,將在時失效
      人工智能開發者 正文
      發私信給楊鯉萍
      發送

      0

      超越 BERT 和 GPT,微軟亞洲研究院開源新模型 MASS!

      本文作者: 楊鯉萍 編輯:幸麗娟 2019-06-26 17:29
      導語:在序列到序列的自然語言生成任務中完勝 BERT!

      雷鋒網 AI 科技評論按:自 2018 年以來,預訓練無疑是自然語言處理(NLP)領域中最熱門的研究課題之一。通過利用 BERT、GPT 和 XLNet 等通用語言模型,該領域的研究者們在自然語言理解方面已經取得了許多重大的突破。然而,對于序列到序列的自然語言生成任務,這些主流的預訓練方法并沒有帶來顯著的改進,對此,微軟亞洲研究院提出了一個全新的通用預訓練方法——MASS,在該任務中可以得到比 BERT 和 GPT 更好的效果。

      超越 BERT 和 GPT,微軟亞洲研究院開源新模型 MASS!

      前言

      BERT 和 XLNet 在自然語言理解任務(例如:情感分類、自然語言推理和 SQuAD 閱讀理解)方面取得了巨大成功。然而, NLP 領域除了自然語言理解任務之外,還存在很多序列到序列的語言生成任務,例如機器翻譯、文本摘要生成、對話生成、問答、文本風格轉換等。對于這些任務,使用編碼器-注意力-解碼器框架是主流方法。

      超越 BERT 和 GPT,微軟亞洲研究院開源新模型 MASS!

      圖 1 編碼器 - 注意力 - 解碼器框架

      如圖 1 所示,編碼器將源序列 X 作為輸入并將其轉換為隱藏表示的序列,然后解碼器通過注意力機制從編碼器中抽象出隱藏表示的序列信息,并自動生成目標序列文本 Y。

      BERT 和 XLnet 通常是對一個編碼器進行自然語言理解的預訓練;而 GPT 則是對一個解碼器進行語言建模的預訓練。當利用 BERT 和 GPT 進行序列到序列的語言生成任務時,我們通常需要對編碼器和解碼器分別進行預訓練。在這種情況下,編碼器 - 注意力 - 解碼器框架和注意力機制并沒有得到聯合訓練。然而,注意力機制在這類任務中極為重要,一旦缺失便會導致 BERT 和 GPT 無法達到最佳性能。

      一種新的預訓練方法

      針對序列到序列的自然語言生成任務,微軟亞洲研究院的機器學習小組提出了一種新的預訓練方法,即掩蔽的序列到序列預訓練(MASS:Masked Sequence to Sequence Pre-Training)。MASS 隨機掩蔽一個長度為 k 的句子片段,并通過編碼器 - 注意力 - 解碼器框架預測這一被掩蔽的片段。

      超越 BERT 和 GPT,微軟亞洲研究院開源新模型 MASS!

      圖 2 MASS 框架

      如圖 2 所示,編碼器端的第 3-6 個標記被掩蔽,而在解碼器端,僅有被掩蔽的標記被預測出來,而其他標記則被掩蔽。

      MASS 預訓練具有以下優勢:

      • 解碼器端的其他標記(在編碼器端未被掩蔽的標記)被掩蔽,從而推動解碼器提取更多信息以幫助預測連續句子片段,促進編碼器-注意力-解碼器結構的聯合訓練;

      • 為了給解碼器提供更多有用的信息,編碼器被強制提取未被掩蔽的標記的含義,這可以提高編碼器理解源序列文本的能力;

      • 解碼器被設計用以預測連續的標記(句子片段),這可以提升解碼器的語言建模能力。

      統一的預訓練框架

      MASS 有一個重要的超參數 k(被掩蔽的片段的長度)。通過調整 k 值,MASS 可以將 BERT 中掩蔽的語言建模和 GPT 中的標準語言建模結合起來,從而將 MASS 擴展成一個通用的預訓練框架。

      當 k = 1 時,根據 MASS 的設計,編碼器端的一個標記被掩蔽,而解碼器端則會預測出該掩蔽的標記,如圖 3 所示。解碼器端沒有輸入信息,因而 MASS 等同于 BERT 中掩蔽的語言模型。

      超越 BERT 和 GPT,微軟亞洲研究院開源新模型 MASS!

      圖 3 k = 1時,編碼器端一個標記被掩蔽,而解碼器端則會預測出該掩蔽的標記

      當 k = m(m 是序列的長度)時,在 MASS 中,編碼器端的所有標記都被掩蔽,而解碼器端會預測所有的標記,如圖 4 所示。解碼器端無法從編碼器端提取任何信息,MASS 等同于 GPT 中的標準語言模型。

      超越 BERT 和 GPT,微軟亞洲研究院開源新模型 MASS!

      圖 4 k = m 時,編碼器端的所有詞都被掩蔽,而解碼器端會預測所有的標記,等同于 GPT 中的標準語言模型

      不同 k 值下 MASS 的概率公式如表 1 所示,其中 m 是序列的長度,u 和 v 分別是掩蔽片段的起始和終止位置,超越 BERT 和 GPT,微軟亞洲研究院開源新模型 MASS!代表從位置 u 到 v 的標記都被掩蔽的序列。可以看出,當 k = 1 或 m 時,MASS 的概率公式等同于 BERT 中的被掩蔽的語言模型和 GPT 中的標準語言模型。

      超越 BERT 和 GPT,微軟亞洲研究院開源新模型 MASS!

      表 1 在不同 k 值下 MASS 的概率公式

      研究人員通過實驗來分析了在不同 k 值下的 MASS 性能,如圖 5 所示:

      超越 BERT 和 GPT,微軟亞洲研究院開源新模型 MASS!

      圖 5 在訓練前和微調階段的各種掩蔽長度 k 下 MASS 的表現,其中包括 a) 英語句子預訓練模型的PPL b) WMT13 英語-法語翻譯的法語句子 c) WMT13 無監督英語-法語翻譯的 BLEU 值 d) 文本摘要生成的 ROUGE 值 e) 對話生成的PPL

      當 k 等于句子長度的一半時,下游任務可以達到其最佳性能。掩蔽句子中一半的詞可以很好地平衡編碼器和解碼器的預訓練部分。如果預訓練更偏向編碼器端(k = 1,即 BERT)或更偏向解碼器端(k = m,LM / GPT),則無法實現最優的性能,這也表現出了 MASS 在序列到序列的語言生成任務中的優勢。

      序列到序列的語言生成任務測試

      • 預訓練

      值得注意的是,MASS 僅需要無監督的單語數據進行預訓練(例如 WMT News Crawl Data、Wikipedia Data 等)。MASS 支持跨語言任務(例如機器翻譯)和單語任務(例如文本摘要生成、對話生成)。在對英語-法語翻譯等跨語言任務進行預訓練時,研究人員可以在一個模型中同時進行英語-英語和法語-法語的預訓練,并使用附加的語言嵌入向量來區分語言。在無監督的機器翻譯、低資源機器翻譯、文本摘要生成和對話生成四個領域,研究人員對 MASS 進行了微調,以驗證其有效性。

      • 無監督機器翻譯

      關于無監督機器翻譯任務,研究人員將 MASS 與之前的方法進行了比較,包括以前最先進的方法 Facebook XLM。XLM 使用了由 BERT 創建的掩蔽預訓練語言模型,以及標準語言模型來分別預訓練編碼器和解碼器。

      結果如表 2 所示,MASS 在 WMT14 英語-法語、WMT16 英語-德語和英語-羅馬尼亞語的六個翻譯方向上的表現都優于 XLM,并取得了最新的最優結果。

      超越 BERT 和 GPT,微軟亞洲研究院開源新模型 MASS!

      表 2 MASS 與之前關于無監督機器翻譯方法之間的比較;英語-法語翻譯報道在 newstest2014 上,其它的在 newstest2016 可以找到;由于 XLM 在編碼器和解碼器中使用 MLM 和 CLM 的不同組合,因此報告上顯示的是每個語言對上 XLM 的最高 BLEU 值

      • 低資源機器翻譯

      低資源機器翻譯是指使用有限的雙語訓練數據來進行機器翻譯。研究人員模擬了 WMT14 英語-法語,WMT16 英語-德語和英語-羅馬尼亞語翻譯(分別為 10K,100K 和 1M 雙語數據)的低資源情景。

      超越 BERT 和 GPT,微軟亞洲研究院開源新模型 MASS!

      圖 6 MASS 與低資源機器翻譯方法之間的比較

      圖 6 顯示 MASS 在不同數據規模上的表現,均比不用預訓練的基線模型有不同程度的提升,并隨著監督數據越少,提升效果越顯著。

      • 文本摘要生成

      研究人員將 MASS 與 BERT+LM(編碼器用 BERT 預訓練,解碼器用標準語言模型 LM 預訓練)、DAE(去噪自編碼器)進行了比較。從表 3 中可以看出,MASS 的表現都優于 BERT+LM 和 DAE。

      超越 BERT 和 GPT,微軟亞洲研究院開源新模型 MASS!

      表 3 文本摘要生成任務中,MASS 和兩種預訓練方法之間的比較

      • 對話生成

      研究人員將 MASS 和 BERT+LM 進行了比較。表 4 顯示 MASS 實現了比 BERT+LM 更低的 PPL。

      超越 BERT 和 GPT,微軟亞洲研究院開源新模型 MASS!

      表 4 MASS 與 BERT+LM 之間的比較數據

      MASS 連續在序列到序列的語言生成任務上實現顯著增益,Facebook 的研究者表示,期待今后在自然語言理解任務中測試 MASS 的性能,并希望在未來的工作中,將 MASS 的應用領域擴展到包含語音、視頻等其它序列到序列的生成任務中。

      相關鏈接

      • 原文地址

      https://www.microsoft.com/en-us/research/blog/introducing-mass-a-pre-training-method-that-outperforms-bert-and-gpt-in-sequence-to-sequence-language-generation-tasks/

      • MASS 論文

      https://www.microsoft.com/en-us/research/publication/mass-masked-sequence-to-sequence-pre-training-for-language-generation/

      • GitHub 開源地址

      https://github.com/microsoft/MASS

      雷鋒網 AI 科技評論 雷鋒網

      雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知

      超越 BERT 和 GPT,微軟亞洲研究院開源新模型 MASS!

      分享:
      相關文章
      當月熱門文章
      最新文章
      請填寫申請人資料
      姓名
      電話
      郵箱
      微信號
      作品鏈接
      個人簡介
      為了您的賬戶安全,請驗證郵箱
      您的郵箱還未驗證,完成可獲20積分喲!
      請驗證您的郵箱
      立即驗證
      完善賬號信息
      您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
      立即設置 以后再說
      主站蜘蛛池模板: 国产成人精品无码专区| 国产精品露脸视频观看| 伊人久久大香线蕉av色婷婷色| 午夜福利影院不卡影院| a网站免费观看| WWW.99| 北碚区| 国产动作大片中文字幕| 亚洲制服中文字幕一区二区| 亚洲国产精品久久久久婷蜜芽| 中文字幕一区二区三区日韩精品 | 黑人VideOS特大粗暴| 孝义市| 亚洲欧美自拍偷一区二区| 三上悠亚精品一区二区久久| 亚洲经典千人经典日产| 少妇高潮毛片免费看| www片香蕉内射在线88av8| 午夜欧美日韩在线视频播放 | 18无码粉嫩小泬无套在线观看| 亚洲精品久久久久玩吗| 四虎影视永久在线精品| 在线观看的av网站| 三级色网| 欧美成人午夜无码A片秀色直播| 野花3观看免费观看视频| 一本色道久久88加勒比—综合| 亚洲不卡视频一区二区三区| 天天人人精品| 日本不卡一区| 18禁真人抽搐一进一出在线| 久久精品国产一区二区蜜芽| 6080啪啪| 富锦市| 日韩在线播放欧美字幕| 精品日韩人妻| 久久精品国产亚洲夜色av网站| 亚洲综合欧美在线一区在线播放| 神马视频| 一本大道中文字幕无码29| 定南县|