客觀日本

日本的同步口譯AI達到專家級水平,目標是實施講話同時即時處理

2021年01月20日 資訊通訊

日本正在推進利用人工智慧(AI)技術實施日語同聲傳譯的研究,計劃2025年實施。目前話音辨識精度已經足夠高,今後打算提高翻譯精度和速度。全球有很多與日語有相同特徵的語言,實施日語的同聲傳譯有望在國際上廣泛發揮作用。

演講者用英語做了約1分鐘的演講,他身後的畫面上顯示了AI進行的日語同聲傳譯。這是日本資訊通訊研究機構(NICT)2020年11月舉行的發佈會上的一個場景。雖然從演講者講完到生成譯文用了約10秒鐘的時間,但幾乎沒出現翻譯錯誤。

同聲傳譯一般是對發言者所說的内容進行話音辨識,然後利用基於AI等的翻譯軟體將其轉換成其他語言。現有的服務大多是在發言者講話結束後開始翻譯。快節奏的對話很難翻譯,傳達相同的内容需要的時間是母語人士之間交流時的2倍,因此很難用於商業用途,需要開發新技術來解決這個問題。

title

現在的同聲傳譯翻譯精度已經提高,但存在時差問題(圖片由NICT提供)

NICT透過截至2019年度的國家研究專案,實施了足夠高的話音辨識性能。從2020年度開始打算同時提高翻譯精度和速度。雖然在發佈會上存在10秒的時差,但最終有望縮短到與同聲傳譯人員相當的2~3秒。

NICT要開發的是在講話程序中也能進行翻譯的AI,其關鍵是對會話句子進行分段的初步處理技術。

翻譯軟體由對會話句子進行分段的初步處理和翻譯分段句子的翻譯引擎兩部分組成。現有技術只有整句分段才能準確地進行翻譯,因此速度比較慢。如果能在一句話說完之前就開始翻譯,則可以縮短時差。

NICT在初步處理中使用了名爲「分塊(Chunk)」的方法,即把意思分成幾塊,由此進行比以句子爲單位時更加精細的翻譯。同聲傳譯人員也是利用這種方法,可以保持翻譯精度並縮短時差。

開發要利用大量的資料。NICT將在2021年度末之前透過同聲傳譯人員等收集會話意思的分塊位置及其譯文資料。預定2022年度開發按意思進行分塊翻譯的AI。

與把英語翻譯成日語相比,把日語翻譯成英語的同聲傳譯難度更高。因爲對會話句子進行分段的初步處理比較難。

在日語中,動詞和表示否定等意思的重要詞彙出現在句子的末尾,因此翻譯時需要進行預讀。而在英語等語言中,這些詞彙一般出現在句子的前半句,所以更容易翻譯。日語還經常省略主語,AI翻譯時要補充主語,因此容易出現錯誤。

爲了防止誤譯,需要採用糾錯技術。比如,如果提前讓AI學習關於演講内容的資料,就可以預讀會話内容,從而更準確地進行同聲傳譯。

翻譯引擎也在不斷改良。不僅是日英和英日,無論哪種翻譯,採用的技術都會影響翻譯精度。如果翻譯引擎的性能不高,那麼初步處理速度再快、修正功能再好也沒有用。

NICT的翻譯引擎除市售的攜帶型翻譯機外,還被松下、NTT DoCoMo和NEC等的語音翻譯服務採用。NICT的隅田英一郎研究員信心十足地表示:「英日翻譯精度按英語能力考試(多益)換算的話大約爲900分。」

提高精度方面備受期待的是在美國特士拉執行長(CEO)伊隆·馬斯克等人的支援下開展研究的企業——Open AI於2020年6月發佈的語言AI「GPT-3」。GPT-3可以輸出近似於人類的自然文章。

GPT-3透過巨大的「大腦」學習了大量檔案,獲得了非常高的能力。開發使用的資料相當於數千億個單詞。如果能在翻譯引擎中應用GPT-3的機制,則有望大幅提高性能。

全球的IT巨頭圍繞同聲傳譯展開了激烈的競爭,但NICT也有勝算。隅田研究員指出:「美國微軟、中國百度和美國谷歌也是以句子爲單位進行分段,分塊的方法還沒有取得成果。彼此之間沒有差距」。各公司大力開發的美中同聲傳譯也與NICT一樣,存在10秒左右的延時。

如果能實施將日語翻譯爲主要語言的同聲傳譯,將在國際上佔優勢。

英語、中文和法語等使用人數較多的語言都是名詞後面緊跟動詞的類型,約佔全球語言的40%。實際上,全球的語言有一半都跟日語一樣,是動詞在句末的類型。相同類型的語言之間容易進行同聲傳譯。如果能開發出連接不同類型語言的優秀同聲傳譯技術,則有望應用於90%的語言。

日文:大越優樹,《日本經濟新聞》,2021年1月11日
中文:JST客觀日本編輯部