客觀日本

追求更好的人機關係,不斷開發多項AI技術的前緣應用

2023年10月26日 資訊通訊
title

五十嵐 健夫 Igarashi Takeo
東京大學 研究生院資訊理工學系研究科 教授
2017年度~2022年度 CREST研究代表

當下正處於人工智慧(AI)和機器學習變革期,更易於使用的計算機系統的用戶介面(UI)技術和人機交互技術變得越發重要。東京大學研究生院資訊理工學系研究科五十嵐健夫教授接連開發出了將我們腦中的所想快速轉換爲三維圖形技術(3DCG)、動畫生成技術、虛擬試衣技術以及防止AI進行誤判的「共現偏差」消除技術等AI技術的前緣應用,不斷追求實施人與機器之間更良好的關係。

客戶客製化3D模式生成
震驚全球的影像創作者的交互技術

在屏幕上轉列的二維(2D)角色草圖能夠瞬間轉化爲具有毛絨玩具逼真感覺的三維(3D)電腦圖形技術(CG)。這個系統的設計思路是東京大學研究生院資訊理工學系研究科的五十嵐健夫教授早在24年前就已經考慮了。1996年,當時還是東京大學博士生的五十嵐教授作爲實習生訪問了美國布朗大學,當看到用多面體表示的3D模式建立手繪風格插圖的CG技術時,受到了極大的震撼。

「我原本就對3DCG很感興趣,一直在尋找一種將筆繪草圖能夠變得立體化的機制。當看到布朗大學的CG技術時,就激發了‘反其道而行之’的靈感」。當時,正是全球首部長篇3DCG動畫電影《玩具總動員》上映的第二年,也是全世界開始關注3DCG的時期。五十嵐教授將研究重點放在了基於二維草圖的3D模式的研究課題上,並於1999年在全球電腦圖形學盛會SIGGRAPH 99上發表了名爲「Teddy」的基於2D草圖的3D建模技術的論文(圖1)。

title

圖1 Teddy的3DCG創作示意圖
根據畫面上轉列的2D草圖(左)來自動生成3D模式(右)。可以從任何角度轉列並即時編輯三維模式(著色使用了其他軟體)。

該技術一經發布就引起了轟動,震驚了全世界的研究人員和影像創作者。在人們的普遍認知中,傳統的3DCG是由具有專業技能的工程師和創作者來創作的,普通用的戶只能使用其創作結果。而Teddy將3DCG創作從專業人士交到了非專業人士的手中,創造了一個無需任何特殊培訓即可輕鬆建立和編輯3D模式的世界。

基於這一成果,五十嵐教授還成功開發出了「空間關鍵幀法」。這是一種只需在屏幕上進行少量操作,就能使由草繪創意實施的3D角色具有流暢動作從而生成即時動畫的技術。這些技術帶來了連五十嵐教授本人都始料未及的巨大社會反響,其中部分技術已應用於建立3D模式的標準PC軟體「Shade」中並實施了商業化。Microsoft的「Paint 3D」和Adobe的影像軟體等類似產品也隨之面世。

根據不同體型和姿勢的具象化
費時3年開發出「虛擬試衣法」

然而,五十嵐教授的研究目的並不僅限於提高三維模式和CG圖形制作效率。「爲了讓計算機系統更容易讓人使用,還需要考慮人和系統應該如何交互。客戶應該如何將頭腦中所想的影像傳達給系統,系統輸出的結果又應該如何讓客戶來使用?這是一直以來都在研究的課題」。

研究生期間,五十嵐教授曾在美國施樂帕洛阿爾託研究中心、微軟研究院、卡内基梅隆大學有過實習經歷,也曾在日本電報電話術公司(NTT)、理光等公司實習。然而民營企業需要爲開發的技術申請專利,商品化也多侷限於自己的公司。相比之下,大學的研究自由度更高,更有可能擴大技術的應用和實用化範圍,於是五十嵐教授選擇了在大學開展研究工作。作爲專業研究者在對UI和交互技術的研究程序中,AI、機器學習和人機關係也逐漸成爲重要的研究課題。

2017年,五十嵐教授入選了JST(日本科學技術振興機構)的 CREST(戰略性創造研究推進事業)「理解和控制資料驅動型智慧資訊系統的人機交互」專案。在CREST專案中,除了研究資料生成和訓練程序等AI技術的共通課題外,還發表了利用訓練後的結果來讓系統内部視覺化、透過客戶的適當干預來獲得期望的結果等若干應用技術。

下面將介紹其中三項重要的研究成果。第一項成果是可支援各種體型和姿勢的先進「虛擬試衣法」。儘管可以在電腦屏幕上可以虛擬試穿服裝的系統已經走進實際應用,但對於應用單純的3DCG或常用深度學習模式的系統來說,還很難即時生成逼真的試穿效果影像。爲此,五十嵐教授帶領的研究團隊從開始準備一個可以自由改變異體型和姿勢的模特機器人開始這項研究。

研究團隊爲模特機器人穿上衣服,模仿不同體型的客戶的各種姿勢,拍攝了數萬張照片。透過基於這些照片資料的深度學習演算法,團隊成功實施了不同體型和姿勢下衣服的皺褶效果,以及在身體不同部位的衣服空間效果等詳細影像生成。該系統除了應用於線上店鋪的虛擬試衣外,還被用於線上會議影片中服裝變換的試驗中(圖2)。

title

圖2 虛擬試衣系統使用示意圖。
各種衣服的試穿結果。根據從模特機器人獲取的資料合成逼真的試衣影像。

AI和機器學習往往被認爲是資料和演算法的世界,但具體的内容生成也需要「匠人」因素和耐心來建立學習資料。五十嵐教授在回顧開發程序中的艱辛時表示:「雖然程式可以在短時間内完成,但訓練資料需要很長時間。拍攝圖片僅需要2小時左右就可以完成,但訓練卻花費了2晚。一旦失敗又要重新開始訓練,再需要2晚。這是機器學習的常見問題,就虛擬試衣法而言,從構思到完成大約花了3年時間」。

看着車的「眼睛」過馬路
降低自動駕駛的交通風險

UI和交互技術的研究不一定只是電腦端的技術。爲了在人類和機器之間建立更好的互動,五十嵐教授的團隊探索了一種以人類可以理解的方式視覺化AI決策的機制。這就是第二項成果——具有「眼睛」的自動駕駛汽車。這款自動駕駛汽車透過車頭「眼睛」的角度來表示AI艙面部門甲級船員正在注意的方向,實驗中用它來測量看到汽車「眼睛」的行人過馬路的狀況。

過馬路實驗的結果表明,行人傾向於認爲如果自動駕駛汽車的「眼睛」對着自己的方向,則表示車輛「正看着自己」,因此判斷過馬路是沒有問題的。而如果眼睛對着其他方向,則表示「汽車沒有在注意自己」,因此判斷過馬路是危險的。如此,透過用汽車「眼睛」所示方向來表示AI的注意方向,行人大多數情況下可以採取適當的風險規避行為,驗證了此設計有助於降低交通風險。此外,研究還發現,實驗者的風險規避行為中存在顯著的性別差異(圖3)。

title

圖3 實驗調查行人對具有「眼睛」的自動駕駛汽車的反應。
如果汽車的眼睛看的方向、也即AI注意的方向剛好爲行人的方向,則判斷爲「安全」,否則判斷爲「危險」,由此調查了行人對是否橫穿馬路的判斷。實驗中,汽車和「眼睛」均爲手動操作,扮演行人角色的客戶在VR環境中進行實驗(上)。圖表顯示了有「眼睛」和沒有「眼睛」場合行人做出判斷的差異。男性和女性實驗者之間存在顯著差異(下)。

五十嵐教授總結道:「這是一項將自動駕駛汽車AI系統與汽車眼睛的運動聯繫,假說汽車眼睛的視線直接表現AI所處狀態的研究」。不久的將來,自動駕駛汽車將在公共道路上行駛,如何將自動駕駛汽車的判斷傳達給行人,從而使行人能夠正確地規避危險,將成爲一個越來越重要的課題。和客戶交互的研究是必不可少。

防止AI的錯誤訓練結果
一鍵誘導正確標註位置

第三項成果是防止AI錯誤資料訓練的技術。在機器學習領域,爲了防止最終訓練結果出現判斷錯誤,有時需要在訓練的程序中進行適當的人爲干預。例如,要從漂浮在海上的船的圖片中學習船的形狀,學習物件必須放在船上,而不是圖片中的「波浪」或「濱海帶」等元素。此外,爲了從大量人臉圖片中學習「口紅」元素,就必須關注在嘴脣上。然而,在實際的學習資料中由於「比較注重眼妝的人通常會塗口紅」,因此AI可能會錯把眼部區域作爲學習物件。

這樣資料訓練的結果就是,機器學習做出錯誤判斷。這種問題被稱爲「共現偏差」,防止共現偏差的發生是機器學習面臨的重大課題之一。爲了消除共現偏差的影響,需要對原始數據進行適當的修改和重新收集,或者客戶直接明確特定區域,並提供應該用於訓練的部分。然而,重新收集資料集,或者讓客戶做畫素等級的區域標註等都需要大量的人力和資金成本。

爲了縮減所花費的時間和精力,五十嵐教授的團隊開發了一種只需對顯示螢幕幕上的圖片單擊滑鼠就能使AI識別特定區域的技術。以前面的船爲例,如果左鍵單擊船影像的部分,則人眼可見地船部分將會成爲識別目標。反之,如果右鍵單擊船周圍水的部分,則會將水的部分從識別目標中移除。由此,可以顯著減量機器學習的訓練時間和成本,以及資料標註程序中的人力投入(圖4)。

title

圖4 消除AI共現偏差的一鍵標註技術示意圖。
CelebA資料集中與「口紅」相關的資料,一鍵標註前深度學習網路識別的區域示例(上)和微調後的區域示例(下)。減輕了對眼睛、臉頰等非脣部妝容的考慮。

透過人爲調整來告訴AI需要關注部分的行為被稱爲「注意力引導」技術,該成果的關鍵在於極大地簡化了人類引導AI應關注部分時的操作。五十嵐教授解釋道:「透過結合我們同時設計的主動學習演算法,經驗證注意力引導所需的時間減量了27%,學習準確性也有了顯著提高」。

難關的是找出新想法
邊動手邊思考最重要

除了這些應用之外,爲實施多種想法,五十嵐教授還不斷開展如透過讓客戶從AI提供的各種圖片中進行選擇來生成接近客戶設想的影像生成技術,以及僅用一個滑件即可進行復雜多樣的影像調整技術等研究。據其稱,最困難的階段是想出誰也沒有想到的新想法。但是,一旦跨越了這一困難,就可以在活用和應用現有技術的同時直接進入應用程式的開發。

「爲了提出新的想法,大量閱讀論文,姑且動手嘗試並不斷思考是極爲重要的」。五十嵐教授推進科研的背景是UI和交互技術有潛力去幫助人類和電腦相互交流資訊以創造更好的結果,這與CREST的目標「建立人與資訊環境的共生交互技術的基礎」密切相關。

正如美國OpenAI公司於2022年11月發佈的大語言模式生成AI「ChatGPT」引發了全世界的關注所示,可以說目前正處於AI利用歷史長河的變革期。五十嵐教授在展望研究前景時表示:「儘管我們基於已經獲得的成果來探索還能實施什麼,但基本想法從未改變。那就是實施不需要專業知識,客戶能按照自己的意圖來控制計算機系統。未來我們將繼續操作挑戰這個課題」。(TEXT:土肥正弘、PFOTO:伊藤彰浩)

title

原文:JSTnews 2023年9月號
翻譯:JST客觀日本編輯部(協助:謝浩然(北陸先端科學技術大學院大學))

日語原文