![](/attachment.php?aid=337967)
在過(guò)去的十年里,谷歌翻譯(Google Translate)從最初僅支持幾種語(yǔ)言發(fā)展到今天的 103 種,每天翻譯的字詞超過(guò) 1400 億個(gè)。為了做到這一點(diǎn),在任意兩種語(yǔ)言之間,谷歌翻譯都要運(yùn)行多個(gè)翻譯系統(tǒng),這帶來(lái)巨大的計(jì)算成本。如今,許多領(lǐng)域都正在被神經(jīng)網(wǎng)絡(luò)技術(shù)顛覆。谷歌確信他們可以利用神經(jīng)網(wǎng)絡(luò)進(jìn)一步提升翻譯質(zhì)量。這要求谷歌重新思考谷歌翻譯的算法架構(gòu)。
今年九月,谷歌發(fā)表聲明,基于神經(jīng)機(jī)器翻譯的谷歌翻譯全新上線。(GNMT,Google Neural Machine Translation)。神經(jīng)機(jī)器翻譯是端到端的學(xué)習(xí)架構(gòu),它能從數(shù)百萬(wàn)的實(shí)例中學(xué)習(xí),提供大幅提升的翻譯效果。雖然功能得到了改善,但是讓谷歌翻譯把當(dāng)下支持的 103 種語(yǔ)言全部采用神經(jīng)機(jī)器翻譯技術(shù),卻是一項(xiàng)巨大的挑戰(zhàn)。
一周前,谷歌的工程師門(mén)發(fā)表了一篇論文 “谷歌的多語(yǔ)言神經(jīng)機(jī)器翻譯系統(tǒng):使 Zero-Shot 翻譯成為可能”(“Google’s Multilingual Neural Machine Translation System: Enabling Zero-Shot Translation”),雷鋒網(wǎng)在論文發(fā)表后第一時(shí)間做了覆蓋。其中,Zero-Shot 翻譯是指在完成語(yǔ)言 A 到語(yǔ)言 B 的翻譯訓(xùn)練之后,語(yǔ)言 A 到語(yǔ)言 C 的翻譯不需要再經(jīng)過(guò)任何學(xué)習(xí)。 它能自動(dòng)把之前的學(xué)習(xí)成果轉(zhuǎn)化到翻譯任意一門(mén)語(yǔ)言,即便工程師們從來(lái)沒(méi)有進(jìn)行過(guò)相關(guān)訓(xùn)練。
通過(guò) Zero-Shot,谷歌解決了把神經(jīng)機(jī)器翻譯系統(tǒng)擴(kuò)展到全部語(yǔ)言的難題。有了它,一套系統(tǒng)就可以完成所有語(yǔ)言的互翻。從前兩種語(yǔ)言之間都需要多個(gè)翻譯系統(tǒng)的情況,從此成為了歷史。這套架構(gòu)在翻譯其他語(yǔ)言時(shí),不需要在底層 GNMT 系統(tǒng)做任何改變。只需在輸入語(yǔ)句的開(kāi)頭插入一個(gè)輸出語(yǔ)種標(biāo)記,就可以把結(jié)果翻譯為任意語(yǔ)言。
下面這幅動(dòng)圖對(duì)該 Zero-Shot 系統(tǒng)的運(yùn)作做了示意。
![](/attachment.php?aid=337968)
假設(shè)谷歌訓(xùn)練該系統(tǒng)做日語(yǔ)英語(yǔ)、韓語(yǔ)英語(yǔ)的互譯,圖中用藍(lán)色實(shí)線來(lái)代表。 GNMT 系統(tǒng)就可以分享這四組翻譯(日英,英日,韓英,英韓)的參數(shù)。這允許它把任意一組語(yǔ)言的翻譯經(jīng)驗(yàn)轉(zhuǎn)到其他語(yǔ)言上去。學(xué)習(xí)成果轉(zhuǎn)移和多語(yǔ)言翻譯的要求,迫使該系統(tǒng)更好地使用建模的能力。
這啟發(fā)了工程師們?cè)O(shè)想:我們能否讓系統(tǒng)翻譯一組它從來(lái)沒(méi)有翻譯過(guò)的語(yǔ)言?這可以用韓語(yǔ)日語(yǔ)互譯的例子來(lái)說(shuō)明。雖然該系統(tǒng)從未處理過(guò)韓日互譯,但它利用之前的韓英、日英翻譯學(xué)習(xí)成果,能進(jìn)行水平不錯(cuò)的韓日互譯。谷歌把這個(gè)過(guò)程稱(chēng)為 “zero-shot” 翻譯,圖中用黃虛線表示。谷歌宣稱(chēng),這是世界上首例應(yīng)用在機(jī)器翻譯上的學(xué)習(xí)成果轉(zhuǎn)移。
Zero-shot 翻譯的成功帶來(lái)了另外一個(gè)重要問(wèn)題:這個(gè)系統(tǒng)是否在學(xué)習(xí)語(yǔ)言的通用表達(dá)(不管是翻譯成什么語(yǔ)種,相同含義的語(yǔ)句都被系統(tǒng)使用相似的表達(dá)方式)?——類(lèi)似于“國(guó)際語(yǔ)”或者中介語(yǔ)言?工程師們使用了 3D 圖像展示系統(tǒng)的內(nèi)部網(wǎng)絡(luò)數(shù)據(jù),以了解它在處理日、韓、英的任意互譯組合時(shí)是如何運(yùn)作的。
上方圖片a部分(左)展示了這些翻譯的幾何結(jié)構(gòu)。意義一致的語(yǔ)句用顏色相同的點(diǎn)代表。比方說(shuō),英譯韓和日譯英的兩句話如果意思一致,就會(huì)是圖上顏色相同的兩個(gè)點(diǎn)。通過(guò)這種方式,我們可以很容易地區(qū)分不同顏色(含義)的點(diǎn)。b 部分放大了紅色區(qū)的點(diǎn),c 部分則對(duì)源語(yǔ)言進(jìn)行區(qū)分。在同一組顏色的點(diǎn)里,我們看到含義相同但從屬不同語(yǔ)種的句子。這意味著該系統(tǒng)必然對(duì)句子的語(yǔ)義進(jìn)行了編碼,而不是記憶一個(gè)短語(yǔ)到另一個(gè)短語(yǔ)的翻譯。谷歌的工程師把這看作是系統(tǒng)中存在中介語(yǔ)言的標(biāo)志。
谷歌在論文里面展示了更多的分析結(jié)果。他們希望這些發(fā)現(xiàn)不但對(duì)機(jī)器學(xué)習(xí)和機(jī)器翻譯的研究人員們有用處,也能對(duì)語(yǔ)言學(xué)家和對(duì)單一系統(tǒng)怎么處理多語(yǔ)言學(xué)習(xí)感興趣的人有價(jià)值。
今日 (美國(guó)時(shí)間 11 月 22 日),基于 Zero-Shot 的多語(yǔ)言神經(jīng)機(jī)器學(xué)習(xí)系統(tǒng)正式登陸谷歌翻譯。它目前被應(yīng)用于新增加的 16 個(gè)語(yǔ)言組中的 10個(gè),帶來(lái)更高的翻譯質(zhì)量和簡(jiǎn)化的系統(tǒng)架構(gòu)。我們可以期待在不久的將來(lái),該系統(tǒng)會(huì)逐步支持更多的谷歌翻譯語(yǔ)種。(三川)
掃碼關(guān)注5G通信官方公眾號(hào),免費(fèi)領(lǐng)取以下5G精品資料
1、回復(fù)“YD5GAI”免費(fèi)領(lǐng)取《中國(guó)移動(dòng):5G網(wǎng)絡(luò)AI應(yīng)用典型場(chǎng)景技術(shù)解決方案白皮書(shū)》
2、回復(fù)“5G6G”免費(fèi)領(lǐng)取《5G_6G毫米波測(cè)試技術(shù)白皮書(shū)-2022_03-21》
3、回復(fù)“YD6G”免費(fèi)領(lǐng)取《中國(guó)移動(dòng):6G至簡(jiǎn)無(wú)線接入網(wǎng)白皮書(shū)》
4、回復(fù)“LTBPS”免費(fèi)領(lǐng)取《《中國(guó)聯(lián)通5G終端白皮書(shū)》》
5、回復(fù)“ZGDX”免費(fèi)領(lǐng)取《中國(guó)電信5G NTN技術(shù)白皮書(shū)》
6、回復(fù)“TXSB”免費(fèi)領(lǐng)取《通信設(shè)備安裝工程施工工藝圖解》
7、回復(fù)“YDSL”免費(fèi)領(lǐng)取《中國(guó)移動(dòng)算力并網(wǎng)白皮書(shū)》
8、回復(fù)“5GX3”免費(fèi)領(lǐng)取《 R16 23501-g60 5G的系統(tǒng)架構(gòu)1》