查看完整版本: 微軟宣布機器翻譯有新突破,中英新聞翻譯達人類水準
頁: [1]

cancy 發表於 2018-3-15 03:47 PM

微軟宣布機器翻譯有新突破,中英新聞翻譯達人類水準

http://img.technews.tw/wp-content/uploads/2018/01/05152203/artificial-intelligence-503592_1280-624x418.jpg
14 日晚上,微軟亞洲研究院與雷德蒙德研究院的研究人員宣布,研發的機器翻譯系統在通用新聞報導測試集 newstest2017 的中─英測試集,達到可與人工翻譯媲美的水準;這是首個新聞報導的翻譯品質和準確率可比肩人工翻譯的翻譯系統。newstest2017 測試集由產業界和學術界的團隊共同開發完成,並於 2017 年在 WMT17 大會發表。而新聞(news)測試集則是三類翻譯測試集中的一個,其他兩類為生物醫學(biomedical)和多模式(multimodal)。四大技術我們知道,同一個意思人類可用不同句子來表達,因此翻譯並沒有標準答案,即使是兩位專業的翻譯人員對完全相同的句子也會有略微不同的翻譯,且兩個人的翻譯都不錯。微軟亞洲研究院副院長、自然語言計算組負責人周明表示:「這也是為什麼機器翻譯比純粹的模式辨識任務複雜得多,人們可能用不同詞語來表達完全相同的意思,但未必能準確判斷哪個更好。」這也是為什麼科研人員在機器翻譯攻堅了數十年,甚至曾經很多人都認為機器翻譯永遠不可能達到人類翻譯的水準。近兩年隨著引入深度神經網路,機器翻譯的表現有顯著提升,翻譯結果相較以往統計機器翻譯結果,更自然流暢。據了解,這次工作中微軟亞洲研究院和雷德蒙德研究院的 3 個研究組透過多次交流合作,將他們的研究工作相結合,更進一步提高機器翻譯的品質,用到的技術包括對偶學習(Dual Learning)、推敲網路(Deliberation Networks)、聯合訓練(Joint Training)和一致性規範(Agreement Regularization)等。https://img.technews.tw/wp-content/uploads/2018/03/15102548/msra-newstest2017-translation-1-e1521080835684.jpg▲ 對偶無監督學習框架。對偶學習,即利用任務的對偶結構來學習。例如,在翻譯領域,我們關心從英文翻譯到中文,也同樣關心從中文翻譯回英文。由於有這樣的對偶結構,兩個任務可以互相提供反饋訊息,而這些反饋訊息可用來訓練深度學習模型。也就是說,即便沒有人為標註的數據,有了對偶結構也可以做深度學習。另一方面,兩個對偶任務可以互相充當對方的環境,這樣就不必與真實的環境互動,兩個對偶任務之間的互動就可以產生有效的反饋信號。因此,充分利用對偶結構,就有望解決深度學習和增強學習的瓶頸──訓練數據從哪裡來、與環境的互動怎麼持續進行等問題。https://img.technews.tw/wp-content/uploads/2018/03/15102550/msra-newstest2017-translation-2-e1521080831558.jpg▲ 推敲網路的解碼過程。推敲網路的「推敲」兩字可認為是來源於人類閱讀、寫文章以及做其他任務時候的一種行為方式,即任務完成之後,並不立即終止,而是會反覆推敲。微軟亞洲研究院機器學習組將這個過程沿用到機器學習中。推敲網路具有兩段解碼器,其中第一階段解碼器用於解碼生成原始序列,第二階段解碼器透過推敲的過程打磨和潤色原始語句。後者了解全局訊息,在機器翻譯看來,可基於第一階段生成的語句,產生更好的翻譯結果。https://img.technews.tw/wp-content/uploads/2018/03/15102552/msra-newstest2017-translation-3-e1521080819476.jpg▲ 聯合訓練:從源語言到目標語言翻譯(Source to Target)P(y|x) 與從目標語言到源語言翻譯(Target to Source)P(x|y)。聯合訓練可以認為是從源語言到目標語言翻譯(Source to Target)的學習,與從目標語言到源語言翻譯(Target to Source)的學習的結合。中英翻譯和英中翻譯都使用初始並行數據來訓練,在每次訓練的迭代過程中,中英翻譯系統將中文句子翻譯成英文句子,進而獲得新的句對,而該句對又可以反過來補充到英中翻譯系統的數據集。同理,這個過程也可以反向進行。這樣雙向融合不僅使兩個系統的訓練資料集大大增加,準確率也大幅提高。https://img.technews.tw/wp-content/uploads/2018/03/15102553/msra-newstest2017-translation-4-e1521080814336.jpg▲ 一致性規範:從左到右 P(y|x,theta->...<div class='locked'><em>瀏覽完整內容,請先 <a href='member.php?mod=register'>註冊</a> 或 <a href='javascript:;' onclick="lsSubmit()">登入會員</a></em></div><div></div>

19891220 發表於 2018-3-15 10:00 PM

我要的不多
Cortana的簡中翻成繁中就好了
都幾年了還不出

luyenchingctv 發表於 2018-3-16 09:01 AM

看來電腦取代人工翻譯的時代快要來臨了。
以後閱讀外語文件變容易了

deanthinker 發表於 2018-3-17 01:09 AM

用演算法讓機器翻譯學習,真的是一大突破,翻譯功能讓語言不再是隔閡。

tab1708 發表於 2018-3-17 09:23 AM

真是語言無國界了,對AI領域來說,也許會有相當的幫助吧!<br><br><br><br><br><div></div>

peter919274 發表於 2018-3-17 01:41 PM

以後看其他的網站就方便多了...
對於英文看不大懂得人找尋資料更方便

鬼次郎 發表於 2018-3-22 04:15 PM

我有個朋友去某家店實習,老闆給他一份資料,要他隔天翻譯給他.
他很聰明的找了機翻,結果被老闆罵的狗血淋頭.

chjoo 發表於 2018-3-25 07:39 AM

只是理論上離現實還很遠
頁: [1]