客觀日本

防止以虛假語音和影片冒充他人身份,同時實現安全應用與隱私保護

2025年04月10日 資訊通信
title


山岸 順一
國立資訊學研究所 內容科學研究系 教授
2018年~2024年擔任CREST研究代表
2024年起擔任AIP加速課題研究代表

近年來,足以以假亂真的偽造音頻、圖像和影片等「深度偽造」(Deepfake)內容被用於網路犯罪的情況開始出現。為了防止此類冒充他人的行為,推動數字技術的健康發展,隸屬於日本大學共同利用機關法人資訊與系統研究機構和國立資訊學研究所內容科學研究系的山岸順一教授從話音合成領域開始入手,開展並領導著多項旨在實現安全及個人隱私保護的研究開發工作。

話音合成技術取得飛躍性進步的同時其被濫用於犯罪的案例也開始出現

使用計算機將文本合成為語音的技術伴隨著時代的發展取得了巨大進步。如今,這項技術已被廣泛應用於機器設備等各類應用場景。特別是能夠再現「個人特色」的話音合成技術,得益於計算機性能的提升與AI(人工智慧)機器學習的進步更是取得了迅猛發展。現在,通過少量語音數據就能生成與本人高度相似的語音。近年來,通過自己的聲音或已有音頻率據生成AI語音選殖的面向一般公眾的服務也開始被廣泛使用。

另一方面,對於高精度再現人聲技術被惡意利用的擔憂也日益加劇。比如通過冒充本人以欺騙語音認證系統或進行特殊詐騙的犯罪案例也陸續出現。2023年,美國聯邦貿易委員會(FTC)曾發出警告稱:「在冒充親屬的電話詐騙案件中,有部分案件有極大的可能涉嫌使用了人工合成語音。」事實上,近年來不僅是語音,選殖的圖像和影片也能通過AI大量生成,帶有惡意的深度偽造正逐漸成為社會問題(圖1)。

title

圖1:深度偽造正在演變為社會問題

此外,隨著話音合成技術的進步,從網際網路上公開的音頻率據中識別出特定個人也已成為可能。針對這種情況,我們需要使用在語音公開之前預先對說話人資訊進行處理的「 說話人匿名化」技術來保護個人隱私。國立資訊學研究所內容科學研究系的山岸順一教授正在致力於解決這些與「聲音」相關的各種問題,同時拓展話音合成技術的可能性。

採用「對抗競爭型研究」
利用相互對立的技術加速研發

學生時代兼顧學業與樂隊活動的山岸教授,通過音樂演奏加深了對「聲音」的興趣。從此他立志從事以聲音和資訊處理為主題的研究,在東京工業大學(現東京科學大學)完成博士課程後,於2006年前往在語音技術研究方面有著悠久歷史和卓越成就的英國愛丁堡大學繼續研究。他回顧道:「在那裡,我不僅進行了話音合成方面的研發,還與眾多國外的研究人員建立起了人脈網路。」

回到日本後,山岸教授繼續從事話音合成相關的研究。2018年,美國一家IT企業發佈了一種基於神經網路的文本話音合成方法,合成出的語音與真人聲音幾乎沒有差別。山岸教授的團隊也發佈了一種將神經網路與信號處理相結合的話音合成方法——「神經網路源-濾波器模型(NSF法)」予以抗衡。山岸教授表示:「至此,合成語音與真人聲音的差異已經微乎其微,確立了能夠實用的方法。

也就是在這個時候,儘管話音合成技術迎來了一個里程碑似的節點,但研究團隊也處於決定下一階段研究方向的岔路口。「在不斷探索的過程中,我認識到隨著話音合成技術的不斷演化,未來它被‘惡意利用的風險’也隨之增大」。於是,為了開發強化語音安全和隱私保護的新技術,山岸教授開啟了JST CREST項目的研究。「一邊消除有關聲音的身份識別領域間的學科壁壘,一邊通過提升說話人特徵建模技術的精度,推進了提升語音生物認證安全性和可靠性的多項研發課題。」

JST CREST項目的獨特之處在於實現了一種「對抗競爭型研究」框架(圖2)。

由日本國立資訊學研究所、法國阿維尼翁大學以及法國研究中心EURECOM組成的日法聯合研究團隊,通過採用對立的技術 (against methods)來相互對抗,從而加速各自的研發進度。具體而言,當山岸教授的團隊開發出新的話音合成模型時,他們將同步驗證該模型是否能夠突破生物識別認證,而與此同時EURECOM則會開發出更高級的生物識別認證技術來進行防禦。此外,阿維尼翁大學還會開發出即便是這種高級生物識別認證技術也無法被識別出來的說話人匿名化技術——由此形成多重「矛與盾」的框架。

title

圖2:項目體制
在該項目中,日本和法國的研究團隊通過分別開發相互對立的技術,推進了能夠相互提升彼此技術水平的「對抗競爭型研究」

山岸教授解釋了該項目的目的:「我們認為,通過各團隊使用各自開發的話音合成相關技術進行相互‘對抗’,不僅能提升研究成果的質量,還能進一步擴大其應用範圍。」該項目分為四個課題展開研發,目前已取得了一系列的成果。

語音增強和匿名化技術
在車站和電視節目中實際應用

第一個研究課題是為了再現聲音身份而進行的生成建模技術融合與高精度化。除了能夠同時執行話音合成和音質轉換這兩項不同任務的生成模型外,山岸教授的研究團隊還提出了利用語音清晰度指標,在噪音中自動轉換語音以使其聽起來更為清晰的「語音增強」技術。進一步應用該技術,研究團隊還開發出了在噪音中也能使聽眾清晰地聽到合成語音的系統。該技術已被提供話音合成系統的日本IT企業採用,目前正運用於東海道新幹線的車站月台廣播中,實現了社會化應用。

第二個研究課題是提高基於語音的深度偽造檢測技術。研究團隊開發出了減輕安全風險的技術,並在防禦技術的研發中取得了多項成果。其中一個成果是,構建了可用於訓練深度偽造語音檢測模型的大規模語音數據庫。山岸教授表示:「該數據庫自2019年發佈以來,到目前為止已被下載約80萬次,被廣泛地用作標準數據庫。」

第三個研究課題是通過 說話人匿名化技術來保護語音隱私。現在,從公開的語音中識別個人身份或生成深度偽造語音變得越來越容易。為此,山岸教授團隊開發了通過處理說話人資訊來保護隱私的「 說話人匿名化技術」(圖3)。該技術已在日本廣播協會(NHK)的節目中被用於對受訪者的語音進行匿名化處理。既往的匿名化技術通常會將語音轉變為類似於犯罪嫌疑人那樣低沉且模糊的聲音,而新技術成功實現了在保持語音清晰度的同時進行匿名化處理。

title

圖3: 說話人匿名化技術方塊圖
將語音分解為音高、發聲內容、說話人身份這三個要素。在這些要素中,為了對真人聲音的身份進行匿名化處理,使用了一種被稱為「K匿名化」的方法。K匿名化是將個人被識別出來的概率轉變為「K分之一」,其數值可以任意設定。聲碼器指的是用於分析和合成語音的技術或裝置

第四個研究課題是應用於圖像、文本等其他媒介的深度偽造檢測方法。目前,深度偽造的對象也在向圖像、影片等領域擴展,「我們正在針對各種媒介,開發能夠識破深度偽造的工具。」為此,研究團隊開發出了實現深度偽造人臉的識別檢測技術。此外,還開發出了能讓用戶輕鬆使用的深度偽造檢測程序「SYNTHETIQ VISION」,並向多家公司提供了使用許可用於檢測名人的深度偽造影片(圖4)。

title

圖4:SYNTHETIQ VISION的判定示意圖
左側綠框為真實圖像,右側紅框是由深度偽造技術生成的偽造圖像。肉眼無法區分其真偽

開發更先進的檢測方法
挑戰檢測未知的深度偽造

目前,在JST的AIP加速課題項目中,研究團隊正在以加速和推廣虛假媒體檢測技術的社會應用為目標積極開展進一步的研發工作(圖5)。山岸教授解釋說:「作為此前CREST項目的強化與發展,在AIP加速課題項目中,我們不僅致力於將深度偽造檢測技術應用於融合語音和影片的多媒體領域,還在開發能夠應對未來可能出現的新型未知深度偽造的機器學習方法。」

title

圖5:以實現社會應用為目標的AIP加速課題項目的研究設想
山岸教授在AIP加速課題項目中設定的目標。以實現更多的社會應用為目標,開發各種技術和實現機制

成果之一是開發出了一種能夠應對新型深度偽造內容的機器學習演算法。以往,要實現檢測深度偽造的AI,需要向AI提供大量數據並讓其進行學習。然而,即便在學習完成之後,要高精度地檢測出新出現的未知深度偽造內容並非易事,還需要定期手動操作讓檢測模型進行重新學習。

對此,山岸教授的研究團隊開發的演算法能夠讓AI自身判斷為檢測新型深度偽造內容所需的訓練數據,並自動擴展數據庫。山岸教授談到新演算法的意義時表示:「通過這一演算法,我們在實現能夠追蹤未知深度偽造內容的機制方面取得了重大進展。」此外,研究團隊在檢測虛假媒體的基礎模型方面也取得了研究成果——他們構建了一個使用長達5萬6000小時的人類真實語音和約1億4200萬張圖像數據的基礎模型並在此基礎上推出了深度偽造檢測模型。

「通過該模型,基於真實人類所獨有的特徵,我們實現了能夠識破深度偽造語音和圖像的技術。在圖像檢測方面,我們將誤認率降低到了5%,實現了高精度檢測。」除此之外,研究團隊還在致力於開發驗證圖像及語音是否為原始內容的技術,以及還原深度偽造所使用的原始圖像和語音的技術。

不固執於當前的研究領域
著眼於社會應用的廣闊視野

在話音辨識和合成領域,山岸教授一直勇於挑戰符合時代需求的前緣研究,並取得了眾多成果。自2018年入選CREST項目至今,他已發表了約160篇同行評審論文。其中,2018年發表的關於深度偽造影片檢測模型「MesoNet」的論文,迄今為止已被引用超過了1600次。另一篇提出可同時實現深度偽造影片檢測與篡改區域定位的「Capsule-Forensics」論文,更是在近五年內兩次被評選為生物識別領域中最具影響力的論文。

儘管山岸教授的研究正按計劃推進,但他坦言自己並非總是能提前規劃好未來的研究活動。「大學時期,我曾憧憬成為一名音響工程師,甚至考慮過在錄音棚工作。」即便後來走上了運用聲音和資訊處理方面知識的科研道路,2018年因話音合成技術達到一定水準,研究也曾一度陷入瓶頸。

然而,正是在那時找到了檢測和防禦深度偽造這一新目標,才成就了現在的眾多成果。基於這段經歷,他希望年輕研究者不要固執於當前的研究領域或研究風格,要時常思考「自己未來的方向在哪裡」,並積極投入到日常的研究活動中。「我希望大家不僅專注於基礎研究,更要為技術的社會應用付諸努力。」這是山岸教授對肩負著新一代科研重任的研究人員的寄語。(TEXT:佐宗秀海、PHOTO:石原秀樹)

原文:JSTnews 2025年3月號
翻譯:JST客觀日本編輯部

日語原文