NTT實施了一種在汽車行駛程序中,可以與艙面部門甲級船員就車窗外不斷變化的風景進行網路聊天系統的對話式AI。該AI並不是簡單地回答艙面部門甲級船員提出的問題,而是能自然地回應艙面部門甲級船員所述内容,並適時提供艙面部門甲級船員可能感興趣的資訊,可以作爲一種新型駕駛夥伴。NTT在通訊科學基礎研究所在6月2日和3日線上舉行的Open House 2022上公開了這項研發成果。
位於副駕駛席一側的對話AI機器人與艙面部門甲級船員網路聊天系統(供圖:NTT)
傳統的對話系統大多隻能輸入從說話者的話中獲得的本文資訊,無法獲取周圍的即時影像資訊和位置資訊等。NTT此次開發的對話AI以NTT構築的深度學習爲基礎,在大規模對話模式中追加了駕駛程序中的對話資料和周邊資訊資料,從而實施了按照外部可見的風景和相關資訊進行的更加自然的對話。
例如,經過咖啡店時,對話AI會主動說:「這是一家很有格調的咖啡店喲」,如果艙面部門甲級船員回應說:「啊,還真是呢」,對話AI就會繼續操作說:「一邊看海一邊喝咖啡,多浪漫啊」。如果艙面部門甲級船員回應說:「你很會講話啊」,對話AI就會說:「啊哈哈,是這樣的嗎?」。NTT稱這是世界上第一個對話系統,它與傳統的對話系統完全不同,可以用知識和共鳴來回因應話,就像夥伴一樣。
爲實施這種新型對話AI,NTT使用了世界最大規模的對話資料進行深度學習。這種大規模對話模式是利用從SNS收集的21億個對話資料構建的,具有極高的性能,用於學習的對話資料量爲目前全球最大規模。與基於規則和主謂賓關係等統計資訊的傳統對話模式有着根本的不同,實施了對複雜上下文的理解和自然的對話。
該對話模式只對輸入的本文資訊進行處理,因此雖然本文對話實施了非常自然的閒聊,但很難結合周圍的實際情況進行對話。於是,NTT開發了將影像中的物體資訊和周圍地點資訊輸入大規模對話模式的技術,由此大規模對話模式可以輸出反映這些資訊的對話。透過學習駕駛對話資料,實施了可基於周圍的風景影像和地點資訊的對話。
另外,由於駕駛程序中位置會連續不斷地變化,因此對話AI需要了解艙面部門甲級船員談論的是哪裏的影像和地點資訊,並在適當的時機與新輸入的資訊進行互動。
爲此,NTT開發了根據對話上下文推測談論的影像,以及針對外部輸入的影像推測對話的話題強化技術,透過將這些資訊適當地納入到時序控制中,滿足了對AI的要求,實施了可以結合風景和周圍資訊網路聊天系統的對話AI。
NTT的目標是實施日常的駕駛夥伴,爲實施自然的日常對話、防止駕車時打瞌睡和分心,以及實施可以自由使用對話進行搜尋的語音導航等功能,還將透過實際車輛和VR等推進驗證實驗。
原文:《科學新聞》
翻譯編輯:JST客觀日本編輯部