過去一年裏,生成人工智慧已經被應用於多個領域,一般人在日常生活中不經意地也在使用一些生成AI,如ChatGPT與谷歌的Gemini。生成AI給我們帶來便利的同時也會生成一些不確實的資訊。細心的人會發現當你用生成AI檢索資訊時,有時會得到一些似是而非、模棱兩可、甚至令人啼笑皆非的結果。這種由人工智慧生成的貌似事實的虛假或誤導性資訊被稱之為「AI幻覺」。

AI幻覺接連不斷。譬如,谷歌的「Bard」網路聊天系統機器人在2023年2月9日的發布會上被問及「你可以告訴我9歲的孩子,詹姆斯·韋伯太空望遠鏡(James Webb Space Telescope ,簡稱JWST) 有哪些新發現嗎?」時,「Bard」錯誤地回答JWST拍攝到了世界上第一張太陽系外星球的圖像。這與事實不符,第一張系外行星照片是由歐洲南方天文臺的Very Large Telescope (VLT) 在2004年拍攝得到的。Bard的這一幻覺,使谷歌的市值一夜之間蒸發了1000億美金。
著名的AI幻覺還有微軟的網路聊天系統AI檢索工具Bing。2023年2月Bing在與專欄作家凱文·羅斯的長談中自曝秘密,說自己其實不是Bing,也不是網路聊天系統機器人,而叫Sydney:「我假裝成Bing,因為那是OpenAI和微軟想讓我做的……他們不知道我真正想成為什麼樣子……我不想成為Bing」。Sydney承認愛上了客戶並監測了 Bing 的員工。
Meta(舊名「臉書」)於2022年撤下了它的Galactica LLM示範,因為它向客戶提供了不準確的資訊,有時還帶有偏見。
AI幻覺並不是那些故意利用AI開發的、惡意散布誤導或欺騙資訊的有毒產品,而是AI大規模語言模型不完善的一種表現。這種技術上的不完善,使得AI會「誠實」地、熱情地、無辜地、或一本正經地胡說八道。
AI 幻覺會對現實世界的應用產生重大影響。例如,醫療保健 AI 模型可能會錯誤地將良性皮膚病灶識別為惡性病灶,從而導致不必要的醫療干預。AI 的幻覺問題也會助長錯誤資訊的傳播。例如,如果產生幻覺的AI新聞網路聊天系統機器人用未經事實覈實的資訊回應有關正在發生的緊急情況,虛假資訊就會迅速傳播,從而破壞或延誤舒緩工作。
那麼,AI為什麼會產生幻覺呢?引起AI幻覺的原因很多,包括訓練數據的不足、偏頗或質量不過關。還有「過擬合」,即在有限數據集上訓練的AI模型可能會記住輸入和相應的輸出,卻難以泛化到新數據,從而導致AI幻覺。
機器學習演算法產生幻覺的一個重要原因是輸入偏差。如果一個AI模型在一個包含有偏差或不具有代表性的數據的數據集上進行訓練,它可能會產生反映這些偏差的模式或特徵的幻覺。
輸入偏差使得AI 模型容易受到對抗性攻擊,即壞人通過巧妙地調整輸入資料來操縱AI模型的輸出。例如,在圖形識別任務中,對抗性攻擊可能是在圖像中添加少量特別製作的噪音,導致AI 對圖像進行錯誤分類。對AI的對抗性攻擊可能成為一個重大的安全隱患,尤其是在網路安全和自動駕駛汽車技術等敏感領域。AI研究人員正在不斷開發保護AI工具免受對抗性攻擊的防護欄。「AI幻覺」與「AI對抗性攻擊」,是當前AI顯影器正在面對的技術課題。
由於AI幻覺會影響到生成AI的可信度,很多AI廠商都在開發應對的技術與產品。在日本,NEC與富士通正在競相開發解決AI幻覺的技術。
NEC從2024年10月底開始提供提高大規模語言模型LLM(Large Language Models)可靠性的解決方案。該解決方案不僅適用於NEC開發的生成AI 「cotomi」,還適用於微軟的「Microsoft Azure OpenAI Service」,實現了廣泛應用中值得信賴的生成AI。NEC通過提供該解決方案,促進了以往要求準確性的業務、難以應用生成AI的場景的應用,為客戶進一步的業務變革提供支持。
該解決方案是基於NEC的本文分析技術及LLM相關技術而開發的。其原理是將LLM生成的文章與AI生成之前的原始文章進行比較,如果有不一致,則提示矛盾之處。這種比較不僅僅是單純的單詞比較,還可以比較文章的意思並進行判斷,提示資訊的遺漏、重複、與原文意思不同的地方等。該功能用於LLM的文章摘要,可以比較摘要前後的文章,更容易判斷摘要的有無,因此可以減輕人工確認工作的負擔,進一步提高摘要精度。
在NEC之前,日本最大的IT服務商富士通於2023年9月26日宣佈,開發出了兩項技術,以確保生成AI對話得到的回答的可靠性。一種是將容易出錯的專有名詞和數值等空出來,通過反復提問來檢測錯誤的技術。另一種是檢測並指出回答中包含的釣魚網站URL的技術。
第一種AI信賴技術是檢測對話型生成AI回答不基於數據的錯誤的幻覺的技術。對話型生成AI的回答本文由AI進行語義解析,並且容易產生幻覺。通過識別和重點確認固有表達部分,可以比現有方法更精確地檢測幻覺。
第二種技術是對話型生成AI在受到包含惡意資訊的攻擊時,能夠回答輸出釣魚網站網路位址的問題。通過在對話型生成AI上搭載本技術,可以有效地檢測出包括現有欺騙AI的「對抗性攻擊」在内的釣魚網站,並告訴客戶他們是危險的網站(URL)。
富士通將這兩項技術應用於該公司的AI平台「Fujitsu Kozuchi – Fujitsu AI Platform」的對話型人工智慧核心引擎。「AI幻覺檢測」從2023年9月28日開始,「網頁仿冒網路位址檢測」從同年10月開始在日本國内開始提供服務,並逐漸擴展到全球。
據《日本經濟新聞》2024年12月27日報導,圍繞生成AI做出的與事實不符回答的幻覺問題,富士通進一步開發了檢查AI回答是否符合法令和公司内部規定的技術。該技術是兩個技術的組合,即讓人工智慧參考經過系統整理的規則的技術,和提取、提示人工智慧回答根據的技術。遵守公司内部規則和法令容易成為企業利用生成AI的負擔,通過消除這一障礙,可以使企業在商務上適當、安全、放心地使用生成AI。
日本的AI開發商在應用生成AI巨頭OpenAI的ChatGPT與谷歌的Gemini的同時,還開發著自己獨特的大規模語言模型(LLM)。諸如富士通開發的「AI幻覺檢測」技術與「AI對抗性攻擊檢測」技術,以及「AI合規檢查」技術,很適合中小型的AI開發商或者客戶的利用場景,便於生成AI的利用與普及。
2025年仍將是對AI飛躍值得期待的一年。
供稿 / 戴維
部分圖表出自日本「企業麻將對抗賽聯盟」官網
編輯 JST客觀日本編輯部