<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
      此為臨時鏈接,僅用于文章預覽,將在時失效
      人工智能開發者 正文
      發私信給楊鯉萍
      發送

      0

      華為開源預訓練語言模型「哪吒」:編碼、掩碼升級,提升多項中文 NLP 任務性能!

      本文作者: 楊鯉萍 2019-12-05 18:54
      導語:同時開源的還有壓縮 BERT 模型「TinyBERT」

      雷鋒網 AI 開發者按:一個月前,在「AICon 全球人工智能與機器學習技術大會」上,華為諾亞方舟實驗首席科學家劉群剛分享了新發布的中文預訓練語言模型 NEZHA(哪吒);就在這兩天,NEZHA 已在 Github 上開源,同時開源的還有壓縮 BERT 模型「TinyBERT」,它在推理時大小可縮小 7.5 倍,并且速度加快 9.4 倍。

      可以看到的是近兩年預訓練模型的發展非常快速,從 Word2Vec 到 ULMFiT、CoVe 再到 BERT、XLNET 等,都各有特點且在不斷完善中。聚焦于「多項中文 NLP 任務性能」的 NEZHA 也有亮眼的性能升級。在此,雷鋒網 AI 開發者將 NEZHA 詳細內容及 TinyBERT 相關地址整理如下。

      華為開源預訓練語言模型「哪吒」:編碼、掩碼升級,提升多項中文 NLP 任務性能!

      NEZHA 開發背景

      預訓練語言模型本質上,就是神經網絡語言模型。它主要有兩個特點,即:可以使用大規模無標注純文本語料進行訓練,以及可以用于各類下游 NLP 任務,各項性能指標均獲得大幅度提高,并可以將各類下游任務的解決方案統一簡化為集中固定的 fine-tune 框架。

      預訓練語言模型通常有兩個大類型。一類是 Encoder,用于自然語言理解,輸入整個文章,用于自然語言理解;另一類是 Decoder,是解碼式的,用于自然語言生成,只能來看到已經生成的內容,看不到沒有生成的內容,這兩類模型有所區別。

      更直觀來看,github 上來自清華大學的兩位同學——王曉智和張正彥(在讀本科生)整理的一份關于預訓練模型的關系圖,則可以從功能方面更簡單明了的幫我們理解該類模型類別。

      華為開源預訓練語言模型「哪吒」:編碼、掩碼升級,提升多項中文 NLP 任務性能!

      預訓練模型的關系圖

      更多詳細內容,可參見 PLM 論文整理 Github 項目地址:

      https://github.com/thunlp/PLMpapers     

      圖中列出了 BERT、GPT、XLNet、ERNIE 等模型以及它們之間的關系,并擬出了一份相關的論文列表。列表把預訓練模型主要分為了三個部分,包括:模型、知識蒸餾與模型壓縮。按照這樣的分類,TinyBERT 模型則可以歸類為「知識蒸餾與模型壓縮」部分;NEZHA 則歸為「模型」部分。

      而根據研究結果顯示,近年來的模型大多將重心落到了數據與算力部分。與早期的 ResNet(視覺模型)模型參數相比,數據顯示 GPT1 為 100M,BERT large 為 340M,GPT2 為 1.5BN,GPT-2 8B 為 8.3BN。

      華為開源預訓練語言模型「哪吒」:編碼、掩碼升級,提升多項中文 NLP 任務性能!

      預訓練語言模型研究結果

      因此,在預訓練模型開發過程中,華為諾亞方舟研究者提出了一種為基于 transformer 的模型設計的知識蒸餾方法——壓縮 BERT 模型 TinyBERT(詳細解讀可查看:https://mp.weixin.qq.com/s/f2vxlhaGW1wnu8UYrvh-tA);該模型大小不到 BERT 的 1/7,但速度是 BERT 的 9 倍多。

      而在模型方面,他們選擇在內部重現了 Google Bert-base 和 Bert-large 的實驗;利用 BERT 的代碼,實現了 OpenAI GPT-2 模型;實現基于 GPU 多卡多機并行訓練,并且對訓練過程進行了優化,提高訓練效率,最終得到了「多中文 NLP 任務」預訓練模型 NEZHA。

      三頭六臂 NEZHA(哪吒)

      盡管這一預訓練模型 NEZHA 的名稱聽起來有些匪夷所思,但它的開發者們將其視為「無所不能,可以解決不同任務」的寓意。在這個模型中,除了之前提到的重現、多卡多機并行訓練之外,主要有兩項改進,即:函數式相對位置編碼與全詞覆蓋的實現。

      華為開源預訓練語言模型「哪吒」:編碼、掩碼升級,提升多項中文 NLP 任務性能!

      一、函數式相對位置編碼

      位置編碼有函數式和參數式兩種,函數式通過定義函數直接計算就可以了。參數式中位置編碼涉及兩個概念,一個是距離;二是維度。其中,Word Embedding 一般有幾百維,每一維各有一個值,一個位置編碼的值正是通過位置和維度兩個參數來確定。

      NEZHA 預訓練模型則采用了函數式相對位置編碼,其輸出與注意力得分的計算涉及到他們相對位置的正弦函數,這一靈感正是來源于 Transformer 的絕對位置編碼,而相對位置編碼則解決了在 Transformer 中,每個詞之間因為互不知道相隔的距離引發的一系列資源占用問題。

      華為開源預訓練語言模型「哪吒」:編碼、掩碼升級,提升多項中文 NLP 任務性能!

      位置編碼模型

      具體而言,Transformer 最早只考慮了絕對位置編碼,而且是函數式的;后來 BERT 的提出就使用了參數式,而參數式訓練則會受收到句子長度的影響,BERT 起初訓練的句子最長為 512,如果只訓練到 128 長度的句子,在 128~520 之間的位置參數就無法獲得,所以必須要訓練更長的語料來確定這一部分的參數。

      而在 NEZHA 模型中,距離和維度都是由正弦函數導出的,并且在模型訓練期間是固定的。也就是說,位置編碼的每個維度對應一個正弦,不同維度的正弦函數具有不同的波長,而選擇固定正弦函數,則可以使該模型具有更強的擴展性;即當它遇到比訓練中序列長度更長的序列時,依然可以發揮作用。函數式相對位置編碼公式,如下圖所示:

      華為開源預訓練語言模型「哪吒」:編碼、掩碼升級,提升多項中文 NLP 任務性能!

      二、全詞覆蓋

      現在的神經網絡模型無論是在語言模型還是機器翻譯任務中,都會用到一個詞表;而在 Softmax 時,每個詞都要嘗試比較一下。每次運算時,所有詞要都在詞表中對比一遍,往往一個詞表會包含幾萬個詞,而機器翻譯則經常達到六七萬個詞,因此,詞表是語言模型運算中較大的瓶頸。

      而 NEZHA 預訓練模型,則采用了全詞覆蓋(WWM)策略,當一個漢字被覆蓋時,屬于同一個漢字的其他漢字都被一起覆蓋。該策略被證明比 BERT 中的隨機覆蓋訓練(即每個符號或漢字都被隨機屏蔽)更有效。

      華為開源預訓練語言模型「哪吒」:編碼、掩碼升級,提升多項中文 NLP 任務性能!

       BERT 中的隨機覆蓋

      在 NEZHA 的 WWM 實現中,研究者使用了一個標記化工具 Jieba2 進行中文分詞(即尋找中文單詞的邊界)。在 WWM 訓練數據中,每個樣本包含多個覆蓋漢字,覆蓋漢字的總數約占其長度的 12%,隨機替換的占 1.5%,盡管這樣預測整個詞運算難度有所增加,但最終取得的效果更好。

      三、混合精度訓練及 LAMB 優化器

      在 NEZHA 模型的預訓練中,研究者采用了混合精度訓練技術。該技術可以使訓練速度提高 2-3 倍,同時也減少了模型的空間消耗,從而可以利用較大的批量。

      傳統的深度神經網絡訓練使用 FP32(即單精度浮點格式)來表示訓練中涉及的所有變量(包括模型參數和梯度);而混合精度訓練在訓練中采用了多精度。具體而言,它重點保證模型中權重的單精度副本(稱為主權重),即在每次訓練迭代中,將主權值舍入 FP16(即半精度浮點格式),并使用 FP16 格式存儲的權值、激活和梯度執行向前和向后傳遞;最后將梯度轉換為 FP32 格式,并使用 FP32 梯度更新主權重。

      華為開源預訓練語言模型「哪吒」:編碼、掩碼升級,提升多項中文 NLP 任務性能!

      LAMB 優化器則是為專為深度神經元網絡的大批量同步分布訓練而設計。盡管大小批量 DNN 訓練是加快 DNN 訓練速度的有效方法,但是如果不仔細調整學習速率的調度,當批量處理的大小超過某個閾值時,模型的性能可能會受到很大影響。

      LAMB 優化器則不需要手動調整學習速率,而是采用了一種通用的自適應策略。優化器通過使用非常大的批量處理大小(實驗中高達 30k 以上)來加速 BERT 的訓練,而不會導致性能損失,甚至在許多任務中獲得最先進的性能。值得注意的是,BERT 的訓練時間最終從 3 天顯著縮短到 76 分鐘。

      華為開源預訓練語言模型「哪吒」:編碼、掩碼升級,提升多項中文 NLP 任務性能!

      NEZHA 實驗結果

      實驗通過對各種自然語言理解(NLU)任務進行微調來測試預訓練模型的性能,并將 NEZHA 模型和最先進的漢語預訓練語言模型:谷歌 BERT(漢語版),BERT-WWM 以及 ERNIE 進行了對比(詳細參數見論文),最終結果如下:

      華為開源預訓練語言模型「哪吒」:編碼、掩碼升級,提升多項中文 NLP 任務性能!

      NEZHA 實驗結果

      可以看到,NEZHA 在大部分情況下,都取得了相較更好的性能;尤其在 PD-NER 任務下,NEZHA 最高達到了 97.87 分。另一個表現較亮眼的模型還有 ERNIE Baidu 2.0,頗有超越 NEZHA 的趨勢。關于這個情況,論文中作者也解釋到,由于實驗設置或微調方法可能存在差異,比較可能不完全公平,之后其它模型新版發布后,他們將在相同的設置下對其進行評估并更新此報告。

      華為開源預訓練語言模型「哪吒」:編碼、掩碼升級,提升多項中文 NLP 任務性能!

      更多詳情,可參見 NEZHA 論文地址:

      https://arxiv.org/pdf/1909.00204.pdf 


      關于知識蒸餾模型 TinyBERT 詳細解讀,可參考往期內容:

      https://mp.weixin.qq.com/s/f2vxlhaGW1wnu8UYrvh-tA    

      Github 開源地址(包含 NEZHA 與 TinyBERT ):

      https://github.com/huawei-noah/Pretrained-Language-Model   


      雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知

      華為開源預訓練語言模型「哪吒」:編碼、掩碼升級,提升多項中文 NLP 任務性能!

      分享:
      當月熱門文章
      最新文章
      請填寫申請人資料
      姓名
      電話
      郵箱
      微信號
      作品鏈接
      個人簡介
      為了您的賬戶安全,請驗證郵箱
      您的郵箱還未驗證,完成可獲20積分喲!
      請驗證您的郵箱
      立即驗證
      完善賬號信息
      您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
      立即設置 以后再說
      主站蜘蛛池模板: 国产高潮国产高潮久久久| 浮妇高潮喷白浆视频| 国产传媒AV| 国产精品无码永久免费888| 成人欧美一区二区三区在线观看| 国产a网站| 国产在线观看黄| 久久精品成人无码观看不卡 | 一本加勒比hezyo无码专区| 国产xxxxx| 天海翼激烈高潮到腰振不止| 亚洲成人一区| 免费一级A片久久精品| 国产国语一级毛片| 欧美人妻aⅴ中文字幕| 久热中文字幕在线| 亚洲亚洲网站三级片在线| 玩弄少妇人妻中文字幕| 少妇一晚三次一区二区三区| 国产一区二区三区小说| 国产免费AV网站| 亚洲国产成人精品无码区在线观看 | 好男人视频在线播放| 亚洲精品久久久久avwww潮水| 熟女人妻av五十路六十路| 野花香在线视频免费观看大全| 久久96国产精品久久久| 九龙县| 香蕉久久一区二区不卡无毒影院| 女人天堂AV| 天堂国产一区二区三区| 看片总站| 乱人伦??国语对白| 国产视频拍拍拍| 色中色综合一区| 成人国产精品免费网站| 人妻少妇精品无码专区二区| 在线观看成人永久免费网站| 爆乳高潮喷水无码正在播放 | 麻阳| 2020无码专区人妻系列日韩|