3
| 本文作者: 張馳 | 2016-09-30 09:01 |

本周三,Google發布新版神經機器翻譯(GNMT)系統,并表示使用了最先進的訓練技術,翻譯質量會有較大提升。
雖然Google一直都在將神經網絡技術用于自己的人工智能產品,但好像自Alphago以后,“神經”二字特別敏感,新的翻譯系統也引起了不少爭論。現在流傳比較廣的評價來自從事翻譯職業的網友:
作為翻譯,看到這個新聞的時候,我理解了18世紀紡織工人看到蒸汽機時的憂慮與恐懼。
這種兼具歷史感與行業認知的評價特別感染人。不過凡事要客觀看待,雷鋒網親測后發現,翻譯質量比傳統的機翻體驗好上不少,但仍不到實用的地步。
如果你想知道“如何評價”這件事,或許可以看看加拿大國家研究委員會NRC多語言處理研究組陳博興研究員的點評。他1998年本科畢業于北京大學,2003年博士畢業于中國科學院聲學研究所,主要研究興趣是自然語言處理、機器翻譯和機器學習。
以下是點評內容:
這兩天,“受邀”在幾個微信群里點評刷遍微博和微信朋友圈的關于Google神經網絡機器翻譯的文章和報道。我的點評如下:
首先,Google所做的事情是將這兩年學術界神經網絡機器翻譯的多種最新技術做了一個整合集成,利用他們強大的工程能力和計算能力,搭了一個很好的系統。他們最好的單系統比我利用Open source訓練的系統,在同一個數據集上要好了大概3個多BLEU。3個多BLEU的差距,如果由人來判斷,仔細看的話,是能感覺到的,但是也就是一個小的進步,談不上突破什么的。
對于他們的文章,我覺得有兩個遺憾的地方:
1. 所采用的技術都是之前發表過的,沒有全新的技術(對Google的要求自然要高一點)
2. 如果我們有那么大的計算和工程能力,以及那么多人力可以投入,即使只是整合已有技術,我覺得我們可以做得更好,比如我會加上清華大學劉洋他們首先采用的最小風險訓練方法來進行訓練,等等。
其次,媒體往往是無知的,為了博人眼球而什么話都敢說的。甚至有媒體想當然地說Google是把AlphaGo神經網絡應用到Google翻譯。拜托,這是完全不同的神經網絡。什么都不懂就敢胡亂開牙是媒體,尤其是國內媒體的通病,懶得去糾正他們了。
那么Google翻譯達到了人類翻譯的水準嗎?那要看在什么語言,什么領域,什么任務上。舉個極端的例子,如果只是翻譯單個單詞,我們99.99%的人都比不過電子詞典。如果只是翻譯比較短的句子,訓練語料里覆蓋得全而且次數多的句子,機器翻譯自然有優勢。但要是一個全面的比較,機器翻譯跟專業譯員的距離相差還是很大的。其實所有的人工智能都是同樣的,什么人臉識別超過人類,語義理解超過人類等等,下次再碰到這么說的公司或者媒體,別理他!活不好好干,就知道忽悠人。
最后的問題,來源于一個這次刷屏的標題,“作為一個翻譯,我理解18世紀紡織工人看到蒸汽機的憂慮和恐懼”。且不說這個類比不恰當,就算恰當,沒看見19、20世紀的紡織工人數量比18世紀高了不止一個數量級嗎。作為一個18世紀的紡織工人你擔心什么啊。
翻譯也是這樣,機器翻譯在可以預見的未來取代不了人工翻譯。尤其是現在的人工翻譯的市場跟機器翻譯的市場基本上不重合,人工翻譯對準的是高端市場,要求很精準的翻譯需求,而機器翻譯則是:
1. 要求不那么精準的翻譯情景,比如旅游,比如網頁瀏覽,比如信息監控等等。
2. 機器翻譯幫助專業翻譯人員提高效率。
如果中國對外交流的程度達到歐美現在的程度,那么中國的高端翻譯市場將會是無比巨大的。有志于從事翻譯的同學,放心大膽地進來吧。當然了,作為一個翻譯,如果你到現在還裝作看不見機器翻譯的進步,還在完全排斥機器翻譯,那么被市場淘汰就怨不得別人了。
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。