<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
      此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
      人工智能 正文
      發(fā)私信給小牛翻譯
      發(fā)送

      0

      面向神經(jīng)機(jī)器翻譯的篇章級單語修正模型

      本文作者: 小牛翻譯 編輯:賈偉 2019-10-25 15:06
      導(dǎo)語:一種基于目標(biāo)端單語的篇章級修正模型(DocRepair),用來修正傳統(tǒng)的句子級翻譯結(jié)果~

      面向神經(jīng)機(jī)器翻譯的篇章級單語修正模型

      作者 | 劉輝

      單位 | 東北大學(xué)

      劉輝,東北大學(xué)自然語言處理實(shí)驗(yàn)室2018級研究生,研究方向?yàn)闄C(jī)器翻譯。   

      東北大學(xué)自然語言處理實(shí)驗(yàn)室由姚天順教授創(chuàng)建于 1980 年,現(xiàn)由朱靖波教授、肖桐博士領(lǐng)導(dǎo),長期從事計算語言學(xué)的相關(guān)研究工作,主要包括機(jī)器翻譯、語言分析、文本挖掘等。團(tuán)隊(duì)研發(fā)的支持140種語言互譯的小牛翻譯系統(tǒng)已經(jīng)得到廣泛應(yīng)用。


      《面向神經(jīng)機(jī)器翻譯的篇章級單語修正模型》[1]是EMNLP2019上一篇關(guān)于篇章級神經(jīng)機(jī)器翻譯的工作。針對篇章級雙語數(shù)據(jù)稀缺的問題,這篇文章探討了如何利用篇章級單語數(shù)據(jù)來提升最終性能,提出了一種基于目標(biāo)端單語的篇章級修正模型(DocRepair),用來修正傳統(tǒng)的句子級翻譯結(jié)果。

      面向神經(jīng)機(jī)器翻譯的篇章級單語修正模型

      1、背景

      近幾年來,神經(jīng)機(jī)器翻譯迅速發(fā)展,google在2017年提出的Transformer模型[2]更是使得翻譯質(zhì)量大幅提升,在某些領(lǐng)域已經(jīng)可以達(dá)到和人類媲美的水平[3]。然而,如今的大部分機(jī)器翻譯系統(tǒng)仍是基于句子級的,無法利用篇章級的上下文信息,如何在機(jī)器翻譯過程中有效利用篇章級信息是當(dāng)今的研究熱點(diǎn)之一。

      隨著基于自注意力機(jī)制的Transformer模型在機(jī)器翻譯任務(wù)中廣泛應(yīng)用,許多之前基于循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)機(jī)器翻譯模型的篇章級方法不再適用。最近,許多研究人員嘗試對Transformer進(jìn)行改進(jìn),在編碼或解碼階段引入上下文信息。Voita等人[4]首先提出了一種基于Transformer的模型(圖1)的篇章級翻譯模型,在傳統(tǒng)的模型之外,額外增加了一個上下文編碼器(context encoder)用來編碼上下文信息,然后和當(dāng)前句子的編碼結(jié)果進(jìn)行融合,送到解碼器。張嘉誠等人[5]采用了另外一種做法,分別在編碼器和解碼器中增加了一個上下文注意力(context attention)子層(圖2)用來引入上下文信息。還有一些研究人員嘗試使用二階段(two-pass)模型的方式[6][7],首先進(jìn)行句子級解碼,然后使用一個篇章級解碼器結(jié)合句子級解碼結(jié)果和源語上下文編碼來進(jìn)行篇章級解碼。此外,一些工作對篇章級翻譯需要引入那些上下文信息進(jìn)行了探究。

      上述工作在機(jī)器翻譯的過程中引入上下文信息,將篇章級翻譯作為一個整體過程。這種方式建模更加自然,但是需要足夠的篇章級雙語數(shù)據(jù)進(jìn)行訓(xùn)練。然而,實(shí)際中篇章級雙語數(shù)據(jù)很難獲取,作者就是針對篇章級雙語數(shù)據(jù)稀缺的問題提出了DocRepair模型。

      面向神經(jīng)機(jī)器翻譯的篇章級單語修正模型

      2、DocRepair模型

      和二階段的方法類似,DocRepair模型也是對句子級結(jié)果的修正,但是不同點(diǎn)在于,DocRepair模型僅僅需要使用單語數(shù)據(jù)。作為一個單語的序列到序列模型(seq2seq)模型,DocRepair模型需要將上下文不一致的句子組映射到一個一致的結(jié)果,來解決上下文的不一致性,過程如圖2。

      面向神經(jīng)機(jī)器翻譯的篇章級單語修正模型

      模型的訓(xùn)練語料來自于容易獲取的篇章級單語語料。單語數(shù)據(jù)中上下文一致的句子組作為模型輸出,而通過round-trip的方式構(gòu)建的上下文不一致的句子組作為模型輸入。round-trip分為兩個階段,需要正向和反向兩個翻譯系統(tǒng)。首先使用反向的翻譯模型將目標(biāo)端的篇章級單語數(shù)據(jù)翻譯到源語端,得到丟失了句子間上下文信息的源語結(jié)果,然后通過正向的翻譯模型將源語結(jié)果翻譯回目標(biāo)端,得到最終需要的上下文不一致的目標(biāo)端數(shù)據(jù),整體流程如圖3所示。

      面向神經(jīng)機(jī)器翻譯的篇章級單語修正模型

      DocRepair模型采用了標(biāo)準(zhǔn)的Transformer結(jié)構(gòu)(圖4),模型輸入為不包含上下文信息的句子序列,通過一個分隔令牌連接成一個長序列,模型輸出為修正后的上下文一致的序列,去掉分隔令牌得到最終結(jié)果。

      面向神經(jīng)機(jī)器翻譯的篇章級單語修正模型

      作者提出的這種結(jié)構(gòu)可以看作一個自動后編輯系統(tǒng),獨(dú)立于翻譯模型,最大的優(yōu)點(diǎn)就在于只需要使用目標(biāo)端單語數(shù)據(jù)就能構(gòu)造訓(xùn)練集。相對應(yīng)的,這種方法引入了額外的結(jié)構(gòu),增加了整體系統(tǒng)的復(fù)雜度,使得訓(xùn)練和推理代價變大。同時,由于僅僅在目標(biāo)端根據(jù)翻譯結(jié)果進(jìn)行修正,完全沒有引入源語端的信息,DocRepair模型可能沒有充分考慮到上下文信息。之前的一些工作也證實(shí)了源語端上下文信息在篇章級機(jī)器翻譯中的作用,如何利用源語端的單語數(shù)據(jù)來更好地提取上下文信息也是未來一個值得研究的方向。

      3、實(shí)驗(yàn)

      為了驗(yàn)證方法的有效性,作者從BLEU、篇章級專用測試集和人工評價三個角度進(jìn)行了對比實(shí)驗(yàn)。實(shí)驗(yàn)在英俄任務(wù)上進(jìn)行,數(shù)據(jù)集使用了開放數(shù)據(jù)集OpenSubtitles2018。

      面向神經(jīng)機(jī)器翻譯的篇章級單語修正模型

      表1是DcoRepair的對比實(shí)驗(yàn)結(jié)果。其中,baseline采用了Transformer base模型,CADec[7]為一個兩階段的篇章級翻譯模型。同時,為了驗(yàn)證DocRepair模型在篇章級翻譯上有效性,而不僅僅是因?yàn)閷渥舆M(jìn)行后編輯使得翻譯質(zhì)量提升,同樣訓(xùn)練了一個基于句子級的repair模型。可以看到,DocRepair在篇章級機(jī)器翻譯上是有效的,比sentence-level repair模型高出0.5 BLEU,同時對比baseline和CADec有0.7 BLEU的提升。

      面向神經(jīng)機(jī)器翻譯的篇章級單語修正模型

      人工評價使用了來自通用測試集的700個樣例,不包含DocrePair模型完全復(fù)制輸入的情況。如表2所示,52%的樣例被人工標(biāo)注成具有相同的質(zhì)量,剩余的樣例中,73%被認(rèn)為DocrePair輸出更有優(yōu)勢,同樣證實(shí)了模型的有效性。

      為了分析DocRepair對篇章級翻譯中特定問題的有效性,作者在專為英俄篇章級翻譯現(xiàn)象構(gòu)造的數(shù)據(jù)集[9]上進(jìn)行了驗(yàn)證,結(jié)果如表3。deixis代表了句子間的指代問題,lex.c表示篇章中實(shí)體翻譯的一致性問題,ell.infl和ell.VP分別對應(yīng)了源語端中包含而目標(biāo)語端不存在的名詞形態(tài)和動詞省略現(xiàn)象。

       面向神經(jīng)機(jī)器翻譯的篇章級單語修正模型

      在指代、詞匯選擇和名詞形態(tài)省略問題中,DocRepair具有明顯優(yōu)勢,而在動詞省略問題中,DocRepair模型對比CADec低了5百分點(diǎn)。可能的原因是DocRepair模型僅僅依賴于目標(biāo)端單語,而采用round-trip方式構(gòu)造的訓(xùn)練集中很少包含動詞缺失的樣本,使得模型很難做出正確預(yù)測。

      面向神經(jīng)機(jī)器翻譯的篇章級單語修正模型

      為了驗(yàn)證單語數(shù)據(jù)的局限性,作者在DocRepair模型上進(jìn)行了不同數(shù)據(jù)構(gòu)造方式的對比實(shí)驗(yàn),結(jié)果如表4。one-way表示拿雙語數(shù)據(jù)中的源語替換round-trip的第一步反向過程。可以看出,one-way的方式要整體高于round-trip方式,而其中對于round-trip方式最難的問題就是動詞省略。


      4、總結(jié)

      這篇工作提出了完全基于目標(biāo)端單語的DocRepair模型,用來修正機(jī)器翻譯結(jié)果,解決篇章級不一致性。同時對DcoRepair在具體篇章級問題中的性能進(jìn)行了分析,指出了僅僅依賴于單語數(shù)據(jù)和round-trip的構(gòu)造方式的局限性。

      以往的工作大多關(guān)注于在解碼過程中如何融合上下文信息,但是性能往往受限于篇章級雙語數(shù)據(jù)的稀缺。這篇工作為我們提供了一個新思路,可以避免雙語數(shù)據(jù)稀缺的問題,但是也引出了一個新的問題。篇章級翻譯的目標(biāo)是解決傳統(tǒng)句子級翻譯中丟失句子間上下文信息的問題,而在這種后編輯的方法中,僅僅使用了目標(biāo)端的一組沒有上下文一致性的翻譯結(jié)果就可以通過單語修正模型獲得一致性的結(jié)果,缺乏對源語的關(guān)注。筆者認(rèn)為,在雙語稀缺的情況下,如何更好的引入源語上下文信息也是一個有趣的問題。


      參考文獻(xiàn)

      [1] Voita, Elena, Rico Sennrich, and Ivan Titov. "Context-Aware Monolingual Repair for Neural Machine Translation." arXiv preprint arXiv:1909.01383 (2019).

      [2] Vaswani, Ashish, et al. "Attention is all you need." Advances in neural information processing systems. 2017.

      [3] Hassan, Hany, et al. "Achieving human parity on automatic chinese to english news translation." arXiv preprint arXiv:1803.05567 (2018).

      [4] Voita, E., Serdyukov, P., Sennrich, R., & Titov, I. (2018). Context-aware neural machine translation learns anaphora resolution. arXiv preprint arXiv:1805.10163.

      [5] Zhang, J., Luan, H., Sun, M., Zhai, F., Xu, J., Zhang, M., & Liu, Y. (2018). Improving the transformer translation model with document-level context. arXiv preprint arXiv:1810.03581.

      [6] Xiong, H., He, Z., Wu, H., & Wang, H. (2019, July). Modeling coherence for discourse neural machine translation. In Proceedings of the AAAI Conference on Artificial Intelligence (Vol. 33, pp. 7338-7345).

      [7] Voita, E., Sennrich, R., & Titov, I. (2019). When a Good Translation is Wrong in Context: Context-Aware Machine Translation Improves on Deixis, Ellipsis, and Lexical Cohesion. arXiv preprint arXiv:1905.05979.

      雷鋒網(wǎng)編輯

      相關(guān)文章:

      神經(jīng)結(jié)構(gòu)搜索在機(jī)器翻譯中的應(yīng)用

      基于序列模型的隨機(jī)采樣

      雷峰網(wǎng)特約稿件,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

      面向神經(jīng)機(jī)器翻譯的篇章級單語修正模型

      分享:
      相關(guān)文章
      當(dāng)月熱門文章
      最新文章
      請?zhí)顚懮暾埲速Y料
      姓名
      電話
      郵箱
      微信號
      作品鏈接
      個人簡介
      為了您的賬戶安全,請驗(yàn)證郵箱
      您的郵箱還未驗(yàn)證,完成可獲20積分喲!
      請驗(yàn)證您的郵箱
      立即驗(yàn)證
      完善賬號信息
      您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
      立即設(shè)置 以后再說
      主站蜘蛛池模板: 久久精品av国产一区二区| 欧美《熟妇做爰》HD| 91成人无码| 国产又色| 亚洲精品久久一区二区无卡 | 男女做爰真人视频直播| 日韩av影院在线观看| 国产亚洲欧美精品永久| 啊灬啊灬啊灬快灬高潮了电影片段| 久久国产精品波多野结衣| 久久久婷| 国产成人一区二区三区在线| 久久精品人成免费| 中文无码人妻| 好男人在在线社区www在线影院| 日本亚洲一区二区精品久久| 亚洲AV无码久久精品色欲| 在线看片免费人成视频在线影院| 欧美成人在线视频| 亚洲毛片不卡av在线播放一区| 国产精品亚韩精品无码a在线| 92成人午夜福利一区二区| 国产无套乱子伦精彩是白视频| 亚洲精品欧美综合二区| 中文字幕人妻系列| 南皮县| 二区三区国产在线观看| 欧洲亚洲AV| 欧美性猛交99久久久久99按摩| 国产亚洲精品aaaa片小说| 看亚洲黄色不在线网占| 中文字幕少妇人妻| 人妻另类 专区 欧美 制服| 精品久久欧美熟妇www| 国产av无码国产av毛片| 国产综合久久久久久鬼色| 精品国模| 亚洲啪AV永久无码精品放毛片| 国产亚洲人成在线播放| 国产精品久久久一区二区| 国产精品天干天干|