<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強(qiáng)烈建議使用更快更安全的瀏覽器
      此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
      人工智能學(xué)術(shù) 正文
      發(fā)私信給camel
      發(fā)送

      0

      Facebook開源最大規(guī)模并行語料,45億語料,覆蓋576種語言對

      本文作者: camel 2020-02-07 16:33
      導(dǎo)語:或成為NMT評估標(biāo)準(zhǔn)

      Facebook開源最大規(guī)模并行語料,45億語料,覆蓋576種語言對

      雷鋒網(wǎng)AI科技評論按:當(dāng)前自然語言處理中的大多數(shù)方法都是數(shù)據(jù)驅(qū)動的,大多數(shù)多語言模型(特別是神經(jīng)機(jī)器翻譯系統(tǒng))都需要并行語料庫進(jìn)行訓(xùn)練。大多數(shù)的并行文本都只是適用于幾個主要語言(例如英語、漢語),且限制于特定的領(lǐng)域。

      為了解決這一問題,在去年七月份,F(xiàn)acebook曾發(fā)布了第一個系統(tǒng)處理Wikipedia上所有語言(包括資源貧乏的語言和方言)的數(shù)據(jù)集WikiMatrix,大約包含了億級的并行語料,覆蓋1620種語言對。

      據(jù)雷鋒網(wǎng)AI科技評論了解,最近Facebook基于新的方法和數(shù)據(jù)源,開發(fā)并開源了一個目前為止最大的并行語料數(shù)據(jù)集 CCMatrix。這個數(shù)據(jù)集包含 45 億并行語料(是WikiMatrix的近50倍),覆蓋576種語言對。

      Facebook開源最大規(guī)模并行語料,45億語料,覆蓋576種語言對

      論文:https://arxiv.org/abs/1911.04944

      數(shù)據(jù)集開源地址:https://github.com/facebookresearch/LASER/tree/master/tasks/CCMatrix


      1、語料庫構(gòu)建

       首先,從語料來源上講。目前有幾個公共的多語言并行語料庫,主要來自一些國際會議(如European Parliament 、the United Nations)的語料,這些都是專業(yè)的人工翻譯語料,使用語言較為正式,且僅限于政治主題。此外也有幾個依靠志愿者翻譯而形成的語料庫,例如news commentary 、Opensub- Titles 、the TED corpus等。2019年Facebook的Schwenk等人曾利用Wikipedia中的語料進(jìn)行挖掘,從而開發(fā)了WikiMatrix數(shù)據(jù)集。

      以上這些,從數(shù)據(jù)來源上講都有局限。為了使并行語料庫量大、覆蓋主題廣泛,F(xiàn)acebook在CCMatrix這項工作中,選擇使用了隨機(jī)抓取web中的數(shù)據(jù)作為并行語料的來源,他們每個月隨機(jī)發(fā)送url,從而獲得包含各種語言的網(wǎng)頁快照(TB級)。  

      Facebook開源最大規(guī)模并行語料,45億語料,覆蓋576種語言對

      十次快照語料中,不同語言的單句數(shù)量(其中一次快照只包含英語)

      然后通過預(yù)處理去除高達(dá)70%的重復(fù)數(shù)據(jù)(例如模板文件、導(dǎo)航菜單、cookie等),并使用fastText(語言識別器,可以識別176種語言)來識別文檔中的語言,最后使用一個在Wikipedia上訓(xùn)練的模型來過濾掉低質(zhì)量的內(nèi)容,只保留較低困惑度的文檔。如此處理獲得一個包含有327億個句子的CCNet數(shù)據(jù)集。

      在這項工作中,使用的挖掘方法的底層思想是,首先學(xué)習(xí)一種多語言的語義嵌入,即在一個嵌入空間中語義上相似的句子會有較近的距離,而與它們所使用的語言無關(guān)。這意味著空間中的距離可以作為兩個句子是否是相互翻譯的指標(biāo)。

      Facebook開源最大規(guī)模并行語料,45億語料,覆蓋576種語言對

      用于大規(guī)模訓(xùn)練多語言句嵌入的框架

      不過由于余弦距離的絕對閾值在全局上并不一致,所以Schwenk在這里所采用的是Margin criterion: 

      Facebook開源最大規(guī)模并行語料,45億語料,覆蓋576種語言對 

      2、語料庫分析

       在超過320億個句子中挖掘平行語料,計算上是非常昂貴的。在當(dāng)前版本的CCMatrix語料庫中,作者限制為38種語言。 

      Facebook開源最大規(guī)模并行語料,45億語料,覆蓋576種語言對

      CCMatrix:這里給出了單語文本的數(shù)量和提取的平行句子的數(shù)量(單位:百萬),margin閾值為1.06,以及在TED測試中的BLEU分?jǐn)?shù)。(編者注:這是11月份數(shù)據(jù),當(dāng)時數(shù)據(jù)集規(guī)模為35億并行語料,下同) 

      Facebook開源最大規(guī)模并行語料,45億語料,覆蓋576種語言對

      CCMatrix:每種語言對的并行語料數(shù)量(單位:百萬),Margin閾值為1.06。舉例來說,希臘語/漢語對的語料數(shù)量為470萬。 

      3、定性評估

      為了評估這個數(shù)據(jù)集的質(zhì)量,Schwenk等人還利用這個數(shù)據(jù)集進(jìn)行了神經(jīng)機(jī)器翻譯系統(tǒng)的測試,并與幾個公共測試集進(jìn)行了對比。

      1、在TED數(shù)據(jù)集上進(jìn)行測試

      Schwenk等人首先用CCMatrix對神經(jīng)翻譯系統(tǒng)(NMT)進(jìn)行訓(xùn)練,然后在TED數(shù)據(jù)集上進(jìn)行測試,結(jié)果如下:

      Facebook開源最大規(guī)模并行語料,45億語料,覆蓋576種語言對

      這里只選擇了其中的27種語言。以上所有BLEU值的平均值為14.3,英語對的平均BLEU值為26.7,最高的BLEU值為42.9。

      當(dāng)然,在TED上的SOTA遠(yuǎn)比這些高;但需要注意,這里測試所用的NMT系統(tǒng)沒有使用Transformer框架等最新技術(shù)。

      2、在WMT'19 上評估 

      Facebook開源最大規(guī)模并行語料,45億語料,覆蓋576種語言對

       上圖是在Newstest'18(NT'18)和Newtest'19(NT‘19)測試集上的BLEU分?jǐn)?shù)。可以看到,使用CCMatrix,可以提供非常有競爭力的BLEU分?jǐn)?shù)。

      3、在 WAT'19 上評估

      Facebook開源最大規(guī)模并行語料,45億語料,覆蓋576種語言對

      利用CCMatrix在亞洲翻譯研討會的俄語/日語翻譯任務(wù)上進(jìn)行的測試如上圖所示。這里所使用的模型與前面一樣,沒有Transformer,沒有l(wèi)ayer dropout。盡管相比SOTA略差,但仍然在同一層次。 

      4、總結(jié)

       CCMatrix使NMT研究社區(qū)能夠利用比以前僅幾十種語言對更大的雙語料數(shù)據(jù)集。這可以加速創(chuàng)建更有效的NMT模型,這些模型可以使用更多的語言,尤其是語料庫相對有限的資源較少的模型。

      由于規(guī)模龐大且使用了大量公共文本,或許CCMatrix將成為NMT領(lǐng)域中用于構(gòu)建和評估系統(tǒng)的最常用資源之一。

      當(dāng)然,F(xiàn)acebook在構(gòu)建CCMatrix過程中所提出的數(shù)據(jù)集構(gòu)建方法更值得推廣,或許能夠幫助更多人來創(chuàng)建大規(guī)模數(shù)據(jù)集。

      參考資料:

      facebook開源官宣:https://ai.facebook.com/blog/ccmatrix-a-billion-scale-bitext-data-set-for-training-translation-models/CCMatrix

      論文:https://arxiv.org/abs/1911.04944CCMatrix

      開源鏈接:https://github.com/facebookresearch/LASER/tree/master/tasks/CCMatrix

      雷鋒網(wǎng)報道。

      雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

      Facebook開源最大規(guī)模并行語料,45億語料,覆蓋576種語言對

      分享:
      相關(guān)文章
      當(dāng)月熱門文章
      最新文章
      請?zhí)顚懮暾埲速Y料
      姓名
      電話
      郵箱
      微信號
      作品鏈接
      個人簡介
      為了您的賬戶安全,請驗證郵箱
      您的郵箱還未驗證,完成可獲20積分喲!
      請驗證您的郵箱
      立即驗證
      完善賬號信息
      您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
      立即設(shè)置 以后再說
      主站蜘蛛池模板: 天天色天天操综合网| 人妻人久久精品中文字幕| 色噜噜亚洲男人的天堂| 国产免费无码一区二区三区| 南召县| 国产偷国产偷亚洲清高动态图| 男人天堂手机在线| 未满十八18勿进黄网站| 日韩全网av在线| 亚洲第一成人网站| 日韩高清无码一卡二卡| 欧美日韩中文字幕久久伊人| 无码成年性午夜免费网站蜜蜂| 亚洲精品一区二区三区四区乱码| 日韩人妻ol丝袜av一二区| 天天躁日日躁狠狠躁av麻豆男男| 久艹在线| 免费无码毛片一区二三区| 欧美成人动态图| 欧洲亚洲av| 婷婷综合亚洲| 久久99国产精品久久99小说| 无码专区视频精品老司机 | 亚州精品一二区| 天天爽夜夜爱| 日本大尺度吃奶呻吟视频| 狠狠色综合久久狠狠色综合| 99精品国产电影| 久久精品亚洲日本波多野结衣| 久久久噜噜噜久久中文字幕色伊伊| 精品人妻系列无码人妻漫画| 亚洲精品成人自拍视频| 亚洲精品美女久久久久99| 99免费精品| 国产日韩精品欧美一区灰| 国产精品成人aaaaa网站| 国产一区韩国主播| 日韩免费毛片变态另| 亚洲成人性爱| 日夜啪啪一区二区三区| 日韩亚洲欧美中文高清|