在博弈人工智慧(AI)領域,谷歌的AlphaGo是跨時代的作品。2016年3月AlphaGo以4:1擊敗世界頂尖職業棋手李世石,成爲第一個不借助讓子而擊敗圍棋職業九段棋手的電腦圍棋程式,爲AI研究立下了里程碑。此後,AlphaGo的改進版AlphaZero擁有更加強大的學習能力,透過自我學習,在21天達到勝過中國頂尖棋手柯潔的AlphaGo Master的水平。至此,AlphaGo已經沒有人類對手。於是,其顯影器傑米斯·哈薩比斯宣佈AlphaGo退役。
最近,索尼公司宣佈,其經過2年時間訓練的人工智慧代理者 ― 「GT索菲」,能擊敗《GT賽車》中全球最優秀的車手。《GT賽車》是一款由Polyphony Digital公司開發,在索尼PlayStation平台上非常受歡迎的類比賽車遊戲。
《GT賽車》影片截圖
據報導,這款名爲「GT蘇菲」的AI代理者,在2021年7月首次與《GT賽車》的四名頂尖車手展開了較量,當時,只有在賽道上沒有其他車輛的情況下,才能戰勝人類車手。但是在同年10月,在賽車擠滿賽道上的情況下,「GT蘇菲」也戰勝了《GT賽車》的車手。
「GT蘇菲」與AlphaGo一樣,都屬於博弈AI。但是,賽車駕駛技術的難點在於,其許多決定必須即時迅即做出,而圍棋、象棋等比賽則只要在規定時間内完成,侷限上要寬鬆許多。
常見的人工智慧系統,如人臉識別與甄別垃圾郵件等等,都是透過使用被稱爲「深度學習」的方法,用真實世界的資料進行訓練的。「GT蘇菲」則採用了與「深度學習」不同的「深度強化學習」技法。在該技術中,AI在未接受訓練、不知道該做什麼的狀態下開始訓練。「GT索菲」在賽道上反複比賽,透過工程師設計的獎勵系統,促使她取得更好的成績,慢慢地球科學會了駕車遊戲。
在「GT索菲」的學習程序中,特別困難的是要理解賽車中不成文的規則,比如避免碰撞,以及對其他車手不適當的插隊等。「GT索菲」將博弈AI帶到一個新的水平,透過掌握具有複雜動態的車輛即時控制來解決超現實模擬器的挑戰,所有這些都是在與對手距離幾英寸的情況下操作。
深度強化學習超越《GT賽車》的冠軍,被認爲是人工智慧的突破,該專案因此登上了《自然》雜誌2022年2月版的封面。(有趣的是AlphaGo是在2016年1月發表於《自然》雜誌上的)
AI的研究是需要挑戰的,只有不斷戰勝挑戰,才能改進AI模式,提高技術水平。博弈AI裏玩手與AI的博弈,就是不斷給人工智慧模式提供新的挑戰。業界巨人微軟公司也是一直在利用遊戲來改進人工智慧。可見,微軟與索尼是異曲同工。
當然,索尼的宣告說,其開發「GT索菲」,並不是爲了輸贏,而是爲了爲了與頂級的《GT賽車》車手競爭,提升他們的遊戲體驗。
與「GT索菲」對戰的澳洲選手 --- 「GT索菲」官網影片截圖
「GT索菲」由索尼AI、Polyphony Digital (PDI)和索尼互動娛樂(SIE)合作開發。其中,《GT賽車》的開發商Polyphony Digital提供真正的駕駛模擬器,SIE提供雲遊戲基礎設施,索尼AI則負責開發並訓練「GT索菲」。
集遊戲機、遊戲平台、人工智慧、多媒體技術於一身的索尼公司開發出劃時代的AI產品,似乎是順理成章之事。
供稿 / 戴維
編輯修改 / JST客觀日本編輯部