日本國立開發法人產業技術綜合研究所(AIST,以下簡稱「產綜研」)公開了一套用於開發話音辨識、情感識別的人工智慧(AI)基礎模型。該模型針對日語設計,使用該模型後,僅需少量數據即可開發出高性能語音AI。預計該模型有望應用於老年人的語音、方言等AI學習數據較少的領域。

AI模型的構建使用了產綜研的超級計算機「ABCI2.0」(供圖:產綜研)
開發能夠從語音中提取文本數據、判別情感的AI,需要語音與原始文件配對的數據。提升AI性能的通常需要海量數據。與英語等語言相比,使用人數較少的日語在數據準備上存在難度。
此次研究團隊利用6萬小時的日語語音數據,構建了專門針對日語語音的基礎模型。開發的基礎模型分為特性不同的兩類,因有望成為日語語音AI的「孕育母體」,故根據日本神話中登場的女神名字,分別命名為「伊邪那美」和「櫛名田」。
使用該基礎模型開發語音AI並評估其對喜悅、憤怒、悲傷、平靜四種情感的識別性能後發現,結果正確率超過80%。而未使用基礎模型開發的語音AI正確率約為70%。若要實現同等性能,使用基礎模型僅需100小時的語音與文件配對的數據,而從零開始開發則需要約2000小時的數據。
開發出來的基礎模型可在日語語音AI製作中發揮作用。產綜研研究團隊負責人深山覺表示:「開發新型語音AI時,必須準備相當數量的語音與文字轉錄配對數據。使用本模型能夠減少所需的數據量。」
研究團隊認為,即便在老年人語音這類聲音與文件配對數據較少或方言這類使用者較少的領域,該模型也能推動高性能語音AI的開發。
原文:《日本經濟新聞》、2025/4/15
翻譯:JST客觀日本編輯部