大阪大學三浦典之教授等組成的研究團隊開發出了一款人工智慧(AI)應用程式,能根據攝影頭拍攝的口部影片來推測並擷取所說内容。這款程式以因喉癌等疾病手術而失去聲音的人爲物件群體而設計,還可根據預先錄製的本人的聲音進行類比發音。
大阪大學開發的應用程式可根據說話的口型推測並播放所說内容
喉頭對發聲起重要作用,接受了喉頭切除手術的患者會失聲。爲了交流,雖然他們可以透過佩戴頸部設備或透過在頸部的開孔發聲的「替代聲音」方式,或在智慧型手機上輸出合成聲音。然而,這些方法存在給患者身體帶來負擔或讓人感到不便的問題。
英語有20個左右元音,因此便於透過口型分辨發聲内容,目前已有根據口部影片高精度推測英語發音内容的應用程式。而日語只有5個元音,類似技術的實施困難較高。
2009年,神奈川工業大學等機構着眼於日語元音前後文字結構,開發了一種對口部形狀進行詳細分類的「口型碼」。此次,研究團隊利用AI結合了根據口周影片推測口型碼,並透過另一種AI將這些碼轉換爲文字,開發了可推測發音内容的應用程式。
研究團隊整合了市面上銷售的可以自由合成個人聲音的系統。客戶只需錄製5分鐘左右的音頻,程式便能合成以本人的聲音逐次播放所說的内容。
研究團隊稱,要實施這項技術的實際應用,仍需要提升AI性能以擴充詞彙量等改進工作。大阪大學的三浦教授表示:「我們希望儘快開展實證實驗,力爭在數年内實施應用。」
原文:《日本經濟新聞》、2024/10/29
翻譯:JST客觀日本編輯部