科學研究 - NTT實現全球首款可與艙面部門甲級船員自然交談路邊場景的對話AI

NTT實現了一種在汽車行駛過程中，可以與艙面部門甲級船員就車窗外不斷變化的風景進行網路聊天系統的對話式AI。該AI並不是簡單地回答艙面部門甲級船員提出的問題，而是能自然地回應艙面部門甲級船員所述内容，並適時提供艙面部門甲級船員可能感興趣的資訊，可以作為一種新型駕駛夥伴。NTT在通信科學基礎研究所在6月2日和3日線上舉行的Open House 2022上公開了這項研發成果。

位於副駕駛席一側的對話AI機器人與艙面部門甲級船員網路聊天系統（供圖：NTT）

傳統的對話系統大多只能輸入從說話者的話中獲得的本文資訊，無法獲取周圍的即時圖像資訊和位置資訊等。NTT此次開發的對話AI以NTT構築的深度學習為基礎，在大規模對話模型中追加了駕駛過程中的對話數據和周邊資訊數據，從而實現了按照外部可見的風景和相關資訊進行的更加自然的對話。

例如，經過咖啡店時，對話AI會主動說：「這是一家很有格調的咖啡店喲」，如果艙面部門甲級船員回應說：「啊，還真是呢」，對話AI就會繼續說：「一邊看海一邊喝咖啡，多浪漫啊」。如果艙面部門甲級船員回應說：「你很會講話啊」，對話AI就會說：「啊哈哈，是這樣的嗎？」。NTT稱這是世界上第一個對話系統，它與傳統的對話系統完全不同，可以用知識和共鳴來回應對話，就像夥伴一樣。

為實現這種新型對話AI，NTT使用了世界最大規模的對話數據進行深度學習。這種大規模對話模型是利用從SNS收集的21億個對話數據構建的，具有極高的性能，用於學習的對話數據量為目前全球最大規模。與基於規則和主謂賓關係等統計資訊的傳統對話模型有著根本的不同，實現了對複雜上下文的理解和自然的對話。

該對話模型隻對輸入的本文資訊進行處理，因此雖然本文對話實現了非常自然的閒聊，但很難結合周圍的實際情況進行對話。於是，NTT開發了將圖像中的物體資訊和周圍地點資訊輸入大規模對話模型的技術，由此大規模對話模型可以輸出反映這些資訊的對話。通過學習駕駛對話數據，實現了可基於周圍的風景圖像和地點資訊的對話。

另外，由於駕駛過程中位置會連續不斷地變化，因此對話AI需要了解艙面部門甲級船員談論的是哪裏的圖像和地點資訊，並在適當的時機與新輸入的資訊進行互動。

為此，NTT開發了根據對話上下文推測談論的圖像，以及針對外部輸入的圖像推測對話的話題增強技術，通過將這些資訊適當地納入到時序控制中，滿足了對AI的要求，實現了可以結合風景和周圍資訊網路聊天系統的對話AI。

NTT的目標是實現日常的駕駛夥伴，為實現自然的日常對話、防止駕車時打瞌睡和分心，以及實現可以自由使用對話進行搜尋的語音導航等功能，還將通過實際車輛和VR等推進驗證實驗。

原文：《科學新聞》
翻譯編輯：JST客觀日本編輯部