大模型實(shí)時(shí)打《街霸》捉對(duì)PK,GPT-4居然不敵3.5,新型Benchmark火了
讓大模型直接操縱格斗游戲《街霸》里的角色,捉對(duì)PK,誰更能打?
GitHub上一種你沒有見過的船新Benchmark火了。

與llmsys大模型競技場中,兩個(gè)大模型分別輸出答案,再由人類評(píng)分不同——街霸Bench引入了兩個(gè)AI之間的交互,且由游戲引擎中確定的規(guī)則評(píng)判勝負(fù)。
這種新玩法吸引了不少網(wǎng)友來圍觀。

由于項(xiàng)目是在Mistral舉辦的黑客馬拉松活動(dòng)上開發(fā),所以開發(fā)者只使用OpenAI和Mistral系列模型進(jìn)行了測試。
排名結(jié)果也很出人意料。
經(jīng)過342場對(duì)戰(zhàn)后,根據(jù)棋類、電競常用的ELO算法得出的排行榜如下:
最新版gpt-3.5-turbo成績斷崖式領(lǐng)先,Mistral小杯排第二。更小的模型超過了更大的如GPT-4和Mistral中杯大杯。

開發(fā)者認(rèn)為,這種新型基準(zhǔn)測試評(píng)估的是大模型理解環(huán)境并根據(jù)特定情況采取行動(dòng)的能力。
與傳統(tǒng)的強(qiáng)化學(xué)習(xí)也有所不同,強(qiáng)化學(xué)習(xí)模型相當(dāng)于根據(jù)獎(jiǎng)勵(lì)函數(shù)“盲目地”采取不同行動(dòng),但大模型完全了解自身處境并有目的的采取行動(dòng)。
考驗(yàn)AI的動(dòng)態(tài)決策力
AI想在格斗游戲里稱王,需要哪些硬實(shí)力呢?開發(fā)者給出幾個(gè)標(biāo)準(zhǔn):
- 反應(yīng)要快:格斗游戲講究實(shí)時(shí)操作,猶豫就是敗北
- 腦子要靈:高手應(yīng)該預(yù)判對(duì)手幾十步,未雨綢繆
- 思路要野:常規(guī)套路人人會(huì),出奇制勝才是制勝法寶
- 適者生存:從失敗中吸取教訓(xùn)并調(diào)整策略
- 久經(jīng)考驗(yàn):一局定勝負(fù)不說明問題,真正的高手能保持穩(wěn)定的勝率

具體玩法如下:
每個(gè)大模型控制一個(gè)游戲角色,程序向大模型發(fā)送屏幕畫面的文本描述,大模型根據(jù)雙方血量、怒氣值、位置、上一個(gè)動(dòng)作、對(duì)手的上一個(gè)動(dòng)作等信息做出最優(yōu)決策。

第一個(gè)挑戰(zhàn)是定位人物在場景中的位置,通過檢測像素顏色來判斷。

由于目前大模型數(shù)學(xué)能力還都不太行,直接發(fā)送坐標(biāo)值效果不好,最終選擇了將位置信息改寫成自然語言描述。
所以對(duì)于AI來說,實(shí)際上他們在玩的是一種奇怪的文字冒險(xiǎn)游戲。

再把大模型生成的動(dòng)作招式映射成按鍵組合,就能發(fā)送給游戲模擬器執(zhí)行了。

在試驗(yàn)中發(fā)現(xiàn),大模型可以學(xué)會(huì)復(fù)雜的行為,比如僅在對(duì)手靠近時(shí)才攻擊,可能的情況下使用特殊招式,以及通過跳躍來拉開距離。

從結(jié)果上可以看出,與其他測試方法不同,在這個(gè)規(guī)則下似乎更大的模型表現(xiàn)越差。
開發(fā)者對(duì)此解釋到:
目標(biāo)是評(píng)估大模型的實(shí)時(shí)決策能力,規(guī)則上允許AI提前生成3-5個(gè)動(dòng)作,更大的模型能提前生成更多的動(dòng)作,但也需要更長的時(shí)間。
在推理上的延遲差距是有意保留的,但后續(xù)或許會(huì)加入其他選項(xiàng)。

后續(xù)也有用戶提交了流行開源模型的對(duì)戰(zhàn)結(jié)果,在7B及以下量級(jí)的戰(zhàn)斗中,還是7B模型排名更靠前。

從這個(gè)角度看,這種新型基準(zhǔn)測試為評(píng)估大模型的實(shí)用性提供了新思路。
現(xiàn)實(shí)世界的應(yīng)用往往比聊天機(jī)器人復(fù)雜得多,需要模型具備快速理解、動(dòng)態(tài)規(guī)劃的本領(lǐng)。

正如開發(fā)者所說,想要贏,要在速度和精度之間做好權(quán)衡。
GitHub項(xiàng)目:https://github.com/OpenGenerativeAI/llm-colosseum。
參考鏈接:
[1]https://x.com/nicolasoulianov/status/1772291483325878709。
[2]https://x.com/justinlin610/status/1774117947235324087。





































