<label id="jgr5k"></label>

<legend id="jgr5k"><track id="jgr5k"></track></legend>

^{<sub id="jgr5k"></sub>}

<u id="jgr5k"></u>

久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线

<cite id="f0obq"><rp id="f0obq"><form id="f0obq"></form></rp></cite>

<s id="f0obq"></s>

您正在使用IE低版瀏覽器，為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn)，強(qiáng)烈建議使用更快更安全的瀏覽器

此為臨時(shí)鏈接，僅用于文章預(yù)覽，將在時(shí)失效

人工智能學(xué)術(shù) 正文

發(fā)私信給camel

發(fā)送

0

AAAI 2020 | 計(jì)算所&微信AI：改進(jìn)訓(xùn)練目標(biāo)，提升非自回歸模型翻譯質(zhì)量（已開源）

本文作者： camel

2020-01-19 16:30

導(dǎo)語：AAAI 論文解讀~

本文為計(jì)算所邵晨澤向雷鋒網(wǎng)AI科技評論投稿，未經(jīng)允許禁止轉(zhuǎn)載。

本文是對計(jì)算所馮洋組和騰訊微信AI團(tuán)隊(duì)共同完成，被 AAAI2020 錄用的論文《Minimizing the Bag-of-Ngrams Difference for Non-Autoregressive Neural Machine Translation》進(jìn)行解讀，相關(guān)工作已開源。

AAAI 2020 | 計(jì)算所&微信AI：改進(jìn)訓(xùn)練目標(biāo)，提升非自回歸模型翻譯質(zhì)量（已開源）

論文：https://arxiv.org/pdf/1911.09320.pdf
代碼：https://github.com/ictnlp/BoN-NAT

研究背景：非自回歸模型

目前主流的神經(jīng)機(jī)器翻譯模型為自回歸模型，每一步的譯文單詞的生成都依賴于之前的翻譯結(jié)果，因此模型只能逐詞生成譯文，翻譯速度較慢。Gu等人[1]提出的非自回歸神經(jīng)機(jī)器翻譯模型(NAT)對目標(biāo)詞的生成進(jìn)行獨(dú)立的建模，因此能夠并行解碼出整句譯文，顯著地提升了模型的翻譯速度。

然而，非自回歸模型在翻譯質(zhì)量上與自回歸模型有較大差距，主要表現(xiàn)為模型在長句上的翻譯效果較差，譯文中包含較多的重復(fù)詞和漏譯錯(cuò)誤等，如圖一所示：

AAAI 2020 | 計(jì)算所&微信AI：改進(jìn)訓(xùn)練目標(biāo)，提升非自回歸模型翻譯質(zhì)量（已開源）

圖一：NAT譯文中的重復(fù)詞和漏譯錯(cuò)誤。NAT:非自回歸模型，AR：自回歸模型

造成非自回歸模型翻譯效果較差的一個(gè)主要原因?yàn)槠溆?xùn)練時(shí)所用的交叉熵?fù)p失函數(shù)不準(zhǔn)確。一方面，詞級別的交叉熵?fù)p失對每個(gè)位置的預(yù)測結(jié)果進(jìn)行獨(dú)立評估，難以建模序列依賴關(guān)系；另一方面，交叉熵?fù)p失要求模型的預(yù)測結(jié)果與參考譯文嚴(yán)格對齊，否則就難以評估模型的翻譯質(zhì)量。如圖二所示，

AAAI 2020 | 計(jì)算所&微信AI：改進(jìn)訓(xùn)練目標(biāo)，提升非自回歸模型翻譯質(zhì)量（已開源）

圖二：不對齊時(shí)，交叉熵?fù)p失無法給出準(zhǔn)確的指導(dǎo)

當(dāng)預(yù)測結(jié)果未與參考譯文對齊時(shí)，盡管兩者語義很相近，交叉熵?fù)p失還是會變得非常大，對模型給出錯(cuò)誤的指導(dǎo)。

相關(guān)工作

針對上述的交叉熵?fù)p失函數(shù)不準(zhǔn)確的問題，Gu等人[1]將其歸因?yàn)樽g文的“多峰性”，即一個(gè)句子可能有多種正確的譯文，并提出引入隱變量來減小譯文的不確定性。隨后，離散隱變量[2,3]、變分自編碼器[4,5]、基于位置信息的隱變量[6,7]被引入到非自回歸模型中，均取得了明顯的效果提升。

隱變量的方法也有一定缺陷，即對隱變量的建模會降低非自回歸模型的翻譯速度，且隱變量難以完全消除譯文的不確定性，交叉熵?fù)p失不準(zhǔn)確的問題仍然存在。

另一個(gè)思路為對非自回歸模型的訓(xùn)練目標(biāo)做改進(jìn)，本文也是基于這個(gè)思路。Wang等人[8]直接在訓(xùn)練目標(biāo)中加入正則化項(xiàng)，以此來抑制模型的重復(fù)翻譯和漏譯錯(cuò)誤。Shao等人[9]在模型中融入序列信息，改進(jìn)強(qiáng)化學(xué)習(xí)算法來進(jìn)行序列級訓(xùn)練，用更準(zhǔn)確的序列級指標(biāo)來訓(xùn)練模型。

上述方法的好處是能在不影響翻譯速度的前提下提升模型的翻譯質(zhì)量。然而，[8]僅針對在譯文中觀察到的問題做優(yōu)化，并未從根本上解決問題。由于序列級指標(biāo)的離散性，[9]無法準(zhǔn)確求得損失函數(shù)的梯度，需要使用強(qiáng)化學(xué)習(xí)算法來做梯度估計(jì)。另外，[9]所用的強(qiáng)化學(xué)習(xí)算法速度較慢，僅能用于模型的微調(diào)階段。

方法

針對交叉熵?fù)p失不準(zhǔn)確的問題，本文為非自回歸模型提出了一種基于n元組袋（Bag-of-Ngrams, BoN）的訓(xùn)練目標(biāo)，希望能最小化模型與參考譯文間n元組袋的差異。該訓(xùn)練目標(biāo)在n元組的層面上評估預(yù)測結(jié)果，因此能夠建模序列依賴關(guān)系；直接對n元組袋做優(yōu)化，對絕對位置不敏感，不受對齊約束的限制。如圖三所示，在預(yù)測結(jié)果未與參考譯文對齊時(shí)，該訓(xùn)練目標(biāo)也能準(zhǔn)確地評估翻譯質(zhì)量。

AAAI 2020 | 計(jì)算所&微信AI：改進(jìn)訓(xùn)練目標(biāo)，提升非自回歸模型翻譯質(zhì)量（已開源）

圖三：基于n元組袋的訓(xùn)練目標(biāo)

本文提出的BoN訓(xùn)練目標(biāo)對模型與參考譯文間的n元組袋差異做定量評估，從而鼓勵模型生成更接近參考譯文的翻譯結(jié)果，下面對其做具體描述，主要分為三個(gè)步驟：BoN的定義和計(jì)算、BoN距離的定義和計(jì)算和訓(xùn)練方法。

BoN的定義和計(jì)算假設(shè)詞表大小為V，對于一個(gè)長度為T的句子Y=(y1,……,yn)，一般都將它的n元組袋定義為一個(gè)長度為V^n的向量，記為BoNY，它的每一維代表某一n元組g=(g1,……,gn)的出現(xiàn)次數(shù)，如下所示：

AAAI 2020 | 計(jì)算所&微信AI：改進(jìn)訓(xùn)練目標(biāo)，提升非自回歸模型翻譯質(zhì)量（已開源）

其中，1{}為指示函數(shù)，若條件成立則取值為1，否則為0。對神經(jīng)機(jī)器翻譯模型來說，由于其建模了譯文在整個(gè)譯文空間上的概率分布，上面的定義并不直接適用。因此，我們考慮所有可能的譯文，將每個(gè)譯文的BoN按概率加權(quán)，用BoN的期望值來定義模型的BoN。假設(shè)模型參數(shù)為θ，從原文X到譯文Y的翻譯概率為P(Y|X, θ)，則模型的BoNθ定義如下：

AAAI 2020 | 計(jì)算所&微信AI：改進(jìn)訓(xùn)練目標(biāo)，提升非自回歸模型翻譯質(zhì)量（已開源）

(2)式中對模型BoN的定義方法非常自然，但它也存在一個(gè)很大的問題：搜索空間是指數(shù)大小的，難以對其進(jìn)行計(jì)算。我們利用非自回歸模型獨(dú)立預(yù)測各位置翻譯概率的特性，對(2)式做如下變換：

AAAI 2020 | 計(jì)算所&微信AI：改進(jìn)訓(xùn)練目標(biāo)，提升非自回歸模型翻譯質(zhì)量（已開源）

注意到，(3)式中2到3行的變換利用到了非自回歸模型獨(dú)立建模概率的特性，因此(3)式的推導(dǎo)僅對非自回歸模型有效。通過(3)式的變換，我們就不再需要遍歷所有可能譯文，匯總所有位置上n元組g的概率就能求得g的期望出現(xiàn)次數(shù)BoNθ(g)。下圖以二元組g=(‘get’,‘up’)為例，展示了模型BoNθ的計(jì)算方法。

AAAI 2020 | 計(jì)算所&微信AI：改進(jìn)訓(xùn)練目標(biāo)，提升非自回歸模型翻譯質(zhì)量（已開源）

圖四：對2元組(‘get’, ‘up’) 的期望出現(xiàn)次數(shù)的計(jì)算

BoN距離的定義和計(jì)算在完成對參考譯文和模型的BoN定義后，我們可以選擇一種距離指標(biāo)來衡量兩者BoN的差距，常用的距離指標(biāo)有L1距離、L2距離、余弦距離等。注意到，n元組袋的長度為V^n，盡管我們在上文中對其每一維BoNθ(g)的計(jì)算做了簡化，但若要進(jìn)行V^n次的計(jì)算來求得整個(gè)BoN向量，所需的計(jì)算量和存儲空間也是非常巨大的。因此，我們希望選擇一種合適的距離指標(biāo)，使我們不需要計(jì)算整個(gè)BoNθ向量，進(jìn)一步簡化計(jì)算。從上文(1)、(2)式的定義看，模型的BoNθ向量是稠密的，每個(gè)位置均為非零值；句子的BoNY向量是稀疏的，僅有幾個(gè)位置為非零值。利用這個(gè)性質(zhì)，我們可以對兩個(gè)向量間L1距離的計(jì)算做簡化。首先，假設(shè)譯文長度為T，則兩個(gè)BoN向量的L1模長均為T-n+1:

AAAI 2020 | 計(jì)算所&微信AI：改進(jìn)訓(xùn)練目標(biāo)，提升非自回歸模型翻譯質(zhì)量（已開源）

AAAI 2020 | 計(jì)算所&微信AI：改進(jìn)訓(xùn)練目標(biāo)，提升非自回歸模型翻譯質(zhì)量（已開源）

基于此，兩個(gè)BoN向量間的L1距離如下所示：

AAAI 2020 | 計(jì)算所&微信AI：改進(jìn)訓(xùn)練目標(biāo)，提升非自回歸模型翻譯質(zhì)量（已開源）

直觀上看，(6)式中的min部分代表了模型與參考譯文在n元組層面上的匹配數(shù)，匹配數(shù)越大，則兩者BoN向量間的L1距離越小。利用BoNY向量的稀疏性，min函數(shù)的大部分取值均為0，我們只需考慮BoNY非零的幾處位置，計(jì)算模型與參考譯文中n元組的匹配總數(shù)，從而計(jì)算出兩者n元組袋的距離BoN-L1。訓(xùn)練方法上文中，我們給出了BoN的定義和快速計(jì)算BoN間L1距離的方法。在本節(jié)，我們將對用BoN距離訓(xùn)練非自回歸模型的方法做具體介紹。首先，為了保證訓(xùn)練過程的穩(wěn)定性，我們將BoN距離歸一化后作為損失函數(shù)：

AAAI 2020 | 計(jì)算所&微信AI：改進(jìn)訓(xùn)練目標(biāo)，提升非自回歸模型翻譯質(zhì)量（已開源）

與基于強(qiáng)化學(xué)習(xí)的序列級訓(xùn)練方法[9]類似，我們可以先用交叉熵?fù)p失預(yù)訓(xùn)練非自回歸模型，再用BoN損失對模型進(jìn)行微調(diào)，我們將這種方法命名為BoN-FT。

另外，由于本文提出的BoN損失在計(jì)算上非常快速且直接可導(dǎo)，我們也可以將BoN損失與交叉熵?fù)p失加權(quán)來聯(lián)合訓(xùn)練非自回歸模型，這種方法被命名為BoN-Joint。

AAAI 2020 | 計(jì)算所&微信AI：改進(jìn)訓(xùn)練目標(biāo)，提升非自回歸模型翻譯質(zhì)量（已開源）

結(jié)合上面兩種方法，我們可以先對模型進(jìn)行聯(lián)合訓(xùn)練，再單獨(dú)用BoN損失微調(diào)模型，這種方法被命名為BoN-Joint+FT。

實(shí) 驗(yàn)

本文在WMT14 En-de、WMT16 En-Ro、IWSLT16 En-de三個(gè)數(shù)據(jù)集、五個(gè)翻譯方向上進(jìn)行了實(shí)驗(yàn)，結(jié)果如圖五所示。

AAAI 2020 | 計(jì)算所&微信AI：改進(jìn)訓(xùn)練目標(biāo)，提升非自回歸模型翻譯質(zhì)量（已開源）

圖五：三個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)，所提方法相對基線模型和強(qiáng)化學(xué)習(xí)方法均有明顯提升

對比BoN-FT與Reinforce-NAT[9]，可以看到本文提出的BoN損失在序列級訓(xùn)練上效果更好、速度更快。BoN-Joint方法相對BoN-FT也有明顯提升，表明讓BoN損失全程參與訓(xùn)練的必要性，這也是BoN損失相對強(qiáng)化學(xué)習(xí)方法的優(yōu)勢：強(qiáng)化學(xué)習(xí)方法訓(xùn)練速度過慢，一般只能用于微調(diào)模型。效果最好的為BoN-Joint+FT，該方法通過在最后階段的微調(diào)，相對BoN-Joint也有微小提升，在WMT14 En-de數(shù)據(jù)集上達(dá)到了約5個(gè)BLEU值的提升。

本文還對BoN損失和交叉熵?fù)p失與翻譯質(zhì)量的相關(guān)性做了實(shí)驗(yàn)驗(yàn)證。我們在WMT14 En->De的開發(fā)集上進(jìn)行實(shí)驗(yàn)，將開發(fā)集的3000個(gè)句子隨機(jī)分為100組，每組30句。我們粗略地認(rèn)為BLEU值能夠表示模型的翻譯質(zhì)量，計(jì)算模型在各組上的BoN損失、交叉熵?fù)p失和翻譯結(jié)果的BLEU值，并分別求出BoN損失、交叉熵?fù)p失與BLEU值的相關(guān)系數(shù)，如表一所示。

AAAI 2020 | 計(jì)算所&微信AI：改進(jìn)訓(xùn)練目標(biāo)，提升非自回歸模型翻譯質(zhì)量（已開源）

表一：交叉熵?fù)p失和BoN損失與翻譯質(zhì)量的相關(guān)系數(shù)

表一顯示，在n=2的情況下，BoN損失與翻譯質(zhì)量的相關(guān)性最好，且顯著強(qiáng)于交叉熵?fù)p失。因此，BoN損失能更準(zhǔn)確地評估模型的輸出結(jié)果，適用于非自回歸模型的訓(xùn)練。我們也在不同句長情況下對相關(guān)性進(jìn)行了分析，將開發(fā)集按句長分為兩組，每組包含1500個(gè)句子，并按上述方法計(jì)算BoN損失、交叉熵?fù)p失在長句組和短句組上的相關(guān)性，如表二所示。

AAAI 2020 | 計(jì)算所&微信AI：改進(jìn)訓(xùn)練目標(biāo)，提升非自回歸模型翻譯質(zhì)量（已開源）

表二：在不同句長下，交叉熵?fù)p失和BoN損失與翻譯質(zhì)量的相關(guān)系數(shù)

表二顯示，交叉熵?fù)p失在句長增大時(shí)，與翻譯質(zhì)量的相關(guān)性迅速下降，而BoN損失在長句下仍能保持較高的相關(guān)性。這種現(xiàn)象與我們的預(yù)期完全相符，在長句情況下，類似圖二的不對齊現(xiàn)象更加容易發(fā)生，因此交叉熵?fù)p失的準(zhǔn)確性會進(jìn)一步下降。BoN損失基于n元組袋來評估模型輸出，因此不受不對齊現(xiàn)象的影響。

結(jié) 論

本文針對非自回歸模型中交叉熵?fù)p失不準(zhǔn)確的問題，提出了基于n元組袋的BoN損失。實(shí)驗(yàn)顯示，BoN損失與翻譯質(zhì)量的相關(guān)性更強(qiáng)，用其對非自回歸模型進(jìn)行訓(xùn)練，能顯著提升模型的翻譯效果。在未來的工作中，一方面，我們希望能更進(jìn)一步地對非自回歸模型的訓(xùn)練方法進(jìn)行探究；另一方面，我們希望能不局限于非自回歸模型，將本文所提的BoN損失應(yīng)用到自然語言處理的更多任務(wù)中。

雷鋒網(wǎng)報(bào)道。

更多AAAI 2020解讀論文請參閱雷鋒網(wǎng)其他文章：http://m.35crmo.cc/special/custom/meetingVideo.html?from=SY

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

2人收藏

分享：

相關(guān)文章

camel

編輯

持身秉正

掃描關(guān)注作者微信

發(fā)私信

當(dāng)月熱門文章

最新文章

熱門搜索

電動汽車 Google Glass Siri Waymo 美國醫(yī)療AI Kindle Fire 技術(shù) Galaxy S6 雷鋒早報(bào) 黑產(chǎn)

為了您的賬戶安全，請驗(yàn)證郵箱

您的郵箱還未驗(yàn)證,完成可獲20積分喲！

重發(fā)郵箱修改郵箱

請驗(yàn)證您的郵箱

立即驗(yàn)證

完善賬號信息

您的賬號已經(jīng)綁定，現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄

立即設(shè)置 以后再說

主站蜘蛛池模板： 99在线免费视频| 成人亚洲欧美成αⅴ人在线观看| 久久久久久综合岛国免费观看| 欧美视频亚洲| 久久伊人蜜桃av一区二区| 亚洲v欧美v国产v在线观看 | 一边添奶一边添p好爽视频| 日本一区二区三区黄色网| 亚洲成AV人片在线观看麦芽| 欧美怡春院| 亚洲熟妇无码另类久久久| 一个人看的www免费视频在线观看| 精品久久久久久久久久久aⅴ| 色亚洲日韩国产综合| 国内精品伊人久久久久av| 亚洲天堂中文字幕| 忻州市| 午夜性色福利在线视频风险| 精品一卡2卡三卡4卡乱码精品视频| 日韩亚洲国产中文字幕欧美| 隔壁人妻偷人bd中字| 91精品国产成人观看| 工布江达县| 天天躁狠狠躁狠狠躁性色av| 尤物网址| 99精品国产一区二区三区| 国产午夜在线观看视频播放| 亚洲天堂高清| 乱色国内精品视频在线| 狠狠色丁婷婷综合久久| 亚洲成人中出| 开心五月色婷婷综合开心网| 国产无码av| 无码狠狠躁久久久久久久91| 十八禁成人网站| 国内自拍无码区在线播放| 男女视频在线一区二区| 色综合欧美在线视频区| 色欲AV无码久久精品有码| 丰满少妇高潮在线播放不卡| 亚洲国内自拍|

<bdo id="m7qjp"><rp id="m7qjp"></rp></bdo>

<style id="m7qjp"><rp id="m7qjp"></rp></style>
<blockquote id="m7qjp"><i id="m7qjp"><noscript id="m7qjp"></noscript></i></blockquote>