透過AI工具,可以恢復因喉癌或下嚥癌等疾病失去的聲音。大阪大學研究生院資訊科學研究科的御堂義博特任副教授(全職)、三浦典之教授,以及該校研究生院醫學系研究科的豬原秀典教授組成的研究團隊開發出了「基於AI讀脣的日語發聲系統Lip2ja」,並將其製成了智慧型手機的應用程式。該程式使用可透過短時間的發聲錄音實施個性化話音合成的發聲平台「CoeFont」,使其能夠模仿本人的聲音發聲。研究團隊已經在第75屆日本氣道食道科學會上發表了相關成果。
透過手機相機拍攝說話人的口型合成聲音
因喉癌等失去聲音的人可以使用替代音聲發聲,但需要在脖子上佩戴特殊設備,或透過頸部開口發聲,對身體負擔大,且聲音與本人原來的聲音相去甚遠。
透過攝影頭拍攝口部影片來推測發聲内容的機器讀脣軟體,在母音數量較多(約24個)的英語中已實施高精度應用。然而,在母音只有5個的日語中,如「ka」和「a」的口部形狀上幾乎相同,因此被認爲難以實施讀脣。
2009年,神奈川工科大學資訊學部的宮崎剛助教等人提出了「口型碼」。並發現了日語發聲時口部形狀變化中,不僅僅是發聲字符的母音,還要考慮到前後文字關係的規律性,併成功將這一關係編碼爲口型碼。口型碼有16種,比日語的5個母音更詳細地將口部形狀與發聲字符關聯到一起。
研究小組將根據口部影片推測口型碼的AI以及根據推測得到的口型碼轉換爲日語文字的AI組合到了一起,開發出了兩段式AI讀脣應用程式。透過將自然語言處理AI應用於高精度推測的口型碼,成功地將普通日本人無法辨識的口型碼翻譯成了自然的日語。
此外,透過利用記錄簡短語音來合成個性化聲音發聲平台「CoeFont」,還實施了用本人的聲音「讀出」内容的功能。
可能會因手術等失去聲音的患者可以事先錄入自己的聲音,這樣手術後便可僅透過口部動作重現失去的聲音。這種聲音再現不僅對患者本人,還可幫助與其共同生活的家人提高生活品質。
CoeFont公司向研究小組無償提供了該軟體,使其成功開發出此次的系統。
御堂副教授表示:「此次大阪大學的醫工合作研發的系統,透過語音實施無障礙溝通,即使不幸無法自然發聲,也能以儘可能接近發聲狀態進行交流。當回憶起與家人朋友的往事時,伴隨着影像喚起生動的聲音的情景並不罕見。我們成功開發出了技術方面存在困難的日語讀脣發聲系統,希望該系統不僅能提升日常生活品質,還能爲珍貴的記憶添上聲音的色彩。在2024年5月舉行的第125屆日本耳鼻咽喉科頭頸部外科學會總會及學術講演會的專題討論會上,CoeFont的AI聲音的高品質給我留下了深刻印象。該公司快速支援了我們的研究,大幅改進了透過讀脣實施用本人聲音發聲的系統。」
原文:《科學新聞》
翻譯:JST客觀日本編輯部