科學研究 - 大阪大學開發出供失聲者使用的AI應用程序，可根據嘴脣運動推測發聲内容

大阪大學三浦典之教授等組成的研究團隊開發出了一款人工智慧（AI）應用程序，能根據攝像頭拍攝的口部影片來推測並擷取所說内容。這款程序以因喉癌等疾病手術而失去聲音的人為對象群體而設計，還可根據預先錄製的本人的聲音進行模擬發音。

大阪大學開發的應用程序可根據說話的口型推測並播放所說内容

喉頭對發聲起重要作用，接受了喉頭切除手術的患者會失聲。為了交流，雖然他們可以通過佩戴頸部設備或通過在頸部的開孔發聲的「替代聲音」方式，或在智慧型手機上輸出合成聲音。然而，這些方法存在給患者身體帶來負擔或讓人感到不便的問題。

英語有20個左右元音，因此便於通過口型分辨發聲内容，目前已有根據口部影片高精度推測英語發音内容的應用程序。而日語只有5個元音，類似技術的實現困難較高。

2009年，神奈川工業大學等機構著眼於日語元音前後文字結構，開發了一種對口部形狀進行詳細分類的「口型碼」。此次，研究團隊利用AI結合了根據口周影片推測口型碼，並通過另一種AI將這些碼轉換為文字，開發了可推測發音内容的應用程序。

研究團隊整合了市面上銷售的可以自由合成個人聲音的系統。客戶隻需錄製5分鐘左右的音頻，程序便能合成以本人的聲音逐次播放所說的内容。

研究團隊稱，要實現這項技術的實際應用，仍需要提升AI性能以擴充詞彙量等改進工作。大阪大學的三浦教授表示：「我們希望盡快開展實證實驗，力爭在數年内實現應用。」

原文：《日本經濟新聞》、2024/10/29
翻譯：JST客觀日本編輯部

大阪大學開發出供失聲者使用的AI應用程序，可根據嘴脣運動推測發聲内容