人工智能能否助人類重建“巴比倫塔”

2016-12-20 科技日報佚名5760

核心提示：　　在猶太人的古老傳說中，人類曾試圖修建一座通向天堂的巴比倫塔。為阻止這個瘋狂的計劃，上帝想出一個絕招賦予不同族群不同語

　　在猶太人的古老傳說中，人類曾試圖修建一座通向天堂的“巴比倫塔”。為阻止這個瘋狂的計劃，上帝想出一個絕招——賦予不同族群不同語言，讓人們難以溝通。假如上帝真的存在，他最近可能有些心事。

　　最終，語言的隔閡讓“巴比倫塔”計劃擱淺。直到今天，即便信息和交通技術把世界變成了“地球村”，語系之間的交流，依然只能依靠對彼此語言的專業學習。

　　但是現在，人工智能在語言翻譯領域的突飛猛進，又讓人們重新看到了“巴比倫塔”竣工的希望。

　　人工智能能否助人類重建“巴比倫塔”

　　九成六級考生不如“它”

　　這段時間，機器翻譯技術可謂高調。

　　微軟剛剛在12月13日放出“大招”——推出實時語音翻譯應用Microsoft Translator，支持多人、多語言、跨設備交流。國內企業并未示弱。上個月底科大訊飛在其年度發布會上也展示了類似的技術，可以將中文會議演講實時翻譯成英、日、韓、維吾爾等多種語言顯示在大屏幕上。發布會上推出的語音翻譯機“曉譯”還瞄準了更廣闊的應用場景——出國游玩。

　　平時不顯山不露水的在線翻譯應用也已華麗升級。今年9月，谷歌翻譯啟用了谷歌神經機器翻譯（GNMT）系統，在人工智能界引起騷動。而追溯至去年5月，則是百度翻譯發布基于神經網絡的機器翻譯（NMT）系統的時間。

　　機器翻譯的高調，依賴于人工智能技術在這一領域的顯著進展。

　　百度主任架構師何中軍介紹，自上世紀40年代起，基于規則、實例以及統計的機器翻譯方法漸次登場。2014年起，人工神經網絡開始在機器翻譯領域引領風騷。

　　“最終的翻譯效果就是更加流暢了。”科大訊飛機器翻譯研究主管劉俊華告訴科技日報記者，科大訊飛所展示的會議實時翻譯系統和“曉譯”翻譯機便應用了基于神經網絡的機器翻譯方法。

　　若問人工智能的到來把機器翻譯“提”到了什么水平，何中軍舉出一道大學英語六級翻譯真題。這道題需要把一句中文翻譯成英文，而百度翻譯應用給出的答案，從詞匯和語法來看都挑不出什么毛病。

　　無獨有偶，科大訊飛在推介其“曉譯”翻譯機時也曾表示它可以達到大學英語六級水平。“大學英語六級的翻譯題目滿分為15分，目前機器翻譯答題可以達到11分。”劉俊華解釋說，這意味著機器翻譯技術大概可以超過90%的英語六級考生。

　　人工智能能否助人類重建“巴比倫塔”

　　“煉丹爐”取代了“流水線”

　　就在兩三年前，“流暢”和“自然”還是讓機器翻譯研究人員感到頭痛的字眼。那時，基于統計的機器翻譯方法是大熱門。

　　短短兩年多時間內，基于神經網絡的機器翻譯系統，就在多個公開測試集上超越了基于統計的機器翻譯系統。

　　單從翻譯步驟來看，劉俊華的體會是，基于神經網絡的機器翻譯比其前任“簡潔了非常多”。比如，要把一句中文翻譯成英文，基于統計的機器翻譯方法首先要對句子的詞匯、短語進行切分，然后分別對每個單元進行翻譯，再把翻譯結果組合起來，最后還要進行調序等等。每個步驟都對應著十分復雜的模型。

　　形象地說，如果基于統計的方法是一條長長的流水線，基于神經網絡之后只需一個“煉丹爐”。

　　新方法被稱為“從端到端”的翻譯。“基本的神經機器翻譯模型包含兩個部分，編碼器和解碼器。”何中軍解釋說，編碼器將源語言句子表示為一個向量，解碼器根據此向量逐詞產生目標譯文。也就是說，一個句子經過一次“加工”就能夠直接輸出目標語言。

　　不僅翻譯效率得到了極大提高，結果也更加流暢自然。這是因為，神經機器翻譯方法是對整個句子進行編碼處理，可以照顧到詞匯的上下文信息，因此翻譯出的答案不像統計機器翻譯方法那樣生硬。

　　正是“流暢”和“自然”將機器翻譯技術推向更加實際的應用。而且在與其他人工智能技術相結合后，機器翻譯可以真正觸到人們語言不通的“痛點”，從而深度切入商務、旅行、學習等多個場景。

　　例如，無論是微軟的Microsoft Translator，還是科大訊飛的會議實時翻譯系統以及“曉譯”翻譯機，都結合了語音識別技術來為語言交談架起橋梁。而融入了光學字符識別（OCR）技術的百度翻譯APP，則可以在國外購物或旅游的場景下，幫助人們翻譯看不懂的英文路牌、菜單和說明書等。

　　等待打破“嘆息”之墻

　　可以看到，人工智能正在一點一點“捅破”人與人之間的語言隔閡。有網友戲言，或許不久后的一天，揣著裝了高效語言翻譯APP的手機，鄰居大媽也能來一場說走就走的世界旅行。所有國家的學生將徹底掙脫外語課的“黑暗統治”。

　　不過，要把重建“巴比倫塔”的美夢寄托給當前、乃至未來一段時間內的機器翻譯技術，還是有點不太現實。

　　“基于神經網絡的翻譯技術雖然帶來了機器翻譯質量的較大提高，但是本身還存在諸多技術挑戰。”何中軍說。他把神經網絡比作一個“黑盒子”，中文句子進去，英文句子出來，但是這個“黑盒子”為何要這么翻譯，技術人員還難以對其進行合理的解釋。

　　更重要的是，復雜、多變，我們自己都掌握不住的“人性”，仍然是所有人工智能發展的嘆息之墻。

　　雖然對單個句子的翻譯可以實現流暢和自然，但是在整個篇章的上下文理解方面，機器翻譯并不給力。一旦涉及歇后語、詩句、雙關語甚至口語化的表達，機器翻譯更會毫不掩飾地掉鏈子。而對于如何將知識融合到機器翻譯系統中，讓機器真正“理解”人類的語言，目前還沒有較好的解決方案。

　　從另一個角度來看，無論是基于統計的機器翻譯，還是基于神經網絡的機器翻譯，都以龐大的語料庫為基礎。然而劉俊華告訴科技日報記者，雖然中、英等主要語種的語料相對充足，一些小語種的翻譯，比如科大訊飛目前關注的國內少數民族語言的翻譯，依然會面臨語料短缺的問題。

　　“目前的成果可以證明，神經網絡在語言翻譯領域的應用效果不錯，但它的潛力還沒有完全發揮出來。”劉俊華給出的方案是，可以考慮將其他技術路線與基于神經網絡的機器翻譯方法融合起來，使其各施所長，實現更好的翻譯效果。

　　人工智能會不會取代專業的同聲傳譯？這個簡單的問題竟讓機器翻譯領域的專家們感到為難。何中軍用“任重道遠”作為回答，而在劉俊華看來，對照傳統的翻譯規則——“信、達、雅”，人工智能目前僅能實現“信”，離后二者尚有距離。

　　這么說來，上帝或可放寬心：就算人工智能要幫助人類重建“巴比倫塔”，也不過剛剛撿起幾塊磚瓦而已。

　　只是，未來呢？

點贊 0舉報收藏 0打賞 0評論 0

上一篇：國務院發布“十三五”國家戰略性

下一篇：安防行業變革之路：機器人的崛起

更多>同類中模頭條

推薦圖文

斯坦德機器人：移動機	崛起的中國之星，配天
人機協作時代，激光導	斯坦德：大型汽配生產

推薦中模頭條

點擊排行

• 2024世界機器人大會將于8月份在北京召開	• 工業機器人的驅動系統分類及特點
• 6種工業機器人主體結構的基本形式，你認識幾種	• 機器人控制系統功能及構成詳解
• 工業機器人最重要的7個參數	• 中國“制造之美”頒獎，仙工智能（SEER）再獲兩
• 移動機器人定位技術—激光SLAM	• 最新兩項關于機器人行業國家推薦標準公布
• 龐大的中國汽車工業，正在培育哪些本土工業機器	• 斯坦德機器人：移動機器人的異同

人工智能 能否助人類重建“巴比倫塔”

人工智能能否助人類重建“巴比倫塔”