谷歌、OpenAI爭相讓旗下AI玩《精靈寶可夢(mèng)》游戲:衡量AI真正實(shí)力

電競體育01月25報道 據科技媒體 Tom's Hardware 今天報道,當今時(shí)代我們有無(wú)數種跑分測試和評測方法來(lái)衡量 AI 的聰明程度與能力,但最近一種相對小眾的測試方法也在 AI 圈內引發(fā)關(guān)注。
目前,谷歌、OpenAI 和 Anthropic 等 AI 巨頭正在讓自家模型游玩經(jīng)典的《精靈寶可夢(mèng)》系列游戲,以此來(lái)評估 AI 性能表現。
Anthropic 公司 AI 部門(mén)負責人 David Hershey 對此表示:“《精靈寶可夢(mèng)》之所以能吸引機器學(xué)習社區關(guān)注,是因為它不像《Pong》等簡(jiǎn)單游戲那樣受限。這種游戲對電腦程序來(lái)說(shuō)非常具有挑戰性”。
Hershey 從去年開(kāi)始在 Twitch 平臺進(jìn)行直播,每天的日常就是用公司自產(chǎn)模型 Claude 玩《精靈寶可夢(mèng)》。這名負責人平時(shí)的工作就是幫助客戶(hù)部署 AI,因此他開(kāi)直播本質(zhì)上也是在測試模型。
這名負責人給自家 AI 直播游戲的做法也啟發(fā)了不少自由開(kāi)發(fā)者,他們也陸續搞了“Gemini 玩《寶可夢(mèng)》”“GPT 玩《寶可夢(mèng)》”等類(lèi)似的直播節目。
后來(lái),這些直播甚至被谷歌和 OpenAI 注意到,開(kāi)發(fā)團隊有時(shí)還會(huì )客串直播間親自調整模型參數,在官方力量注入下,Gemini 和 GPT 已經(jīng)成功通關(guān)了 Gam Boy 時(shí)代的《寶可夢(mèng)藍》,目前已在挑戰續作;而 Claude 至今還沒(méi)打通任何一個(gè)版本。
至于為何要用《寶可夢(mèng)》評估 AI 性能?Hershey 對此解釋道:“因為它給我們提供了直觀(guān)的方法觀(guān)察模型表現,還能用量化指標評估性能”。
通常來(lái)講,玩家在《寶可夢(mèng)》系列游戲中需要升級、訓練已有 / 剛抓的寶可夢(mèng),還要打敗道館館主來(lái)捕捉新的寶可夢(mèng)。這種游戲流程并非線(xiàn)性,而是充滿(mǎn)著(zhù)判斷和取舍。
而且,玩家還要經(jīng)常在游戲中做出選擇:是先冒險挑戰強大的訓練家以獲取珍稀寶可夢(mèng),還是穩扎穩打造出一支實(shí)力均衡的隊伍。
顯然,人類(lèi)非常擅長(cháng)做此類(lèi)決策,這也是游戲的樂(lè )趣所在,但對于 AI 來(lái)說(shuō),這是一場(chǎng)關(guān)乎邏輯推理、風(fēng)險評估以及長(cháng)期規劃能力的綜合考驗。
因此研究人員會(huì )深入剖析 AI 在游戲里的決策方式,深入理解模型的能力邊界。
Hershey 還會(huì )將 AI 玩《寶可夢(mèng)》的結果分享給客戶(hù)以改進(jìn)控制框架(IT之家注:harness),幫助他們提升算力使用效率,讓模型更高效運轉。