鬧玩呢!首屆大模型對(duì)抗賽,DeepSeek、Kimi第一輪被淘汰了
在玩游戲方面,到底哪個(gè)模型最厲害?為了回答這個(gè)問(wèn)題,谷歌近日發(fā)起了首屆大模型國(guó)際象棋對(duì)抗賽。
這場(chǎng)比賽為期三天,參賽選手包括:
- o4-mini(OpenAI)
- DeepSeek-R1(DeepSeek)
- Kimi K2 Instruct(月之暗面)
- o3(OpenAI)
- Gemini 2.5 Pro(谷歌)
- Claude Opus 4(Anthropic)
- Grok 4(xAI)
- Gemini 2.5 Flash(谷歌)
剛剛,我們拿到了第一輪比賽的結(jié)果:Gemini 2.5 Pro、o4-mini、Grok 4 和 o3 均以 4-0 的戰(zhàn)績(jī)分別擊敗 Claude 4 Opus、DeepSeek R1、Gemini 2.5 Flash 和 Kimi k2,晉級(jí)半決賽。
以下是模型對(duì)陣圖。

這個(gè)比賽是在一個(gè)名叫「Kaggle Game Arena」的平臺(tái)上進(jìn)行的。這是 Kaggle 公司的一個(gè)新項(xiàng)目,旨在跳出平時(shí)的基準(zhǔn)測(cè)試框架,探索像 Gemini、DeepSeek 等 LLM 在動(dòng)態(tài)和競(jìng)爭(zhēng)環(huán)境中表現(xiàn)如何。
在昨天的報(bào)道中,我們?cè)敿?xì)描述了這場(chǎng)比賽的規(guī)則,比如不允許模型調(diào)用 Stockfish 等國(guó)際象棋引擎。
以下是對(duì)戰(zhàn)的詳細(xì)信息:
Kimi k2 對(duì)陣 o3:0-4
Kimi k2 與 o3 的對(duì)局較早結(jié)束,四局比賽都在八步棋內(nèi)完成。由于 Kimi k2 連續(xù)四次未能找到合法著法而被判負(fù),o3 獲得了全勝。
不過(guò)需要說(shuō)明的是,與 o3 對(duì)戰(zhàn)的 Kimi K2 Instruct 為非推理模型,打不過(guò) o3 也在預(yù)料之中。
雖然 Kimi k2 未能獲勝,但這場(chǎng)比賽也為我們提供了有價(jià)值的觀察。從 Kimi k2 的走棋注釋來(lái)看,它在開(kāi)局階段能夠遵循棋譜理論行棋。然而,一旦脫離了熟悉的開(kāi)局理論,技術(shù)問(wèn)題就開(kāi)始顯現(xiàn) —— 而對(duì) Kimi k2 來(lái)說(shuō),這個(gè)轉(zhuǎn)折點(diǎn)來(lái)得較早。
Kimi k2 遇到困難的具體原因還需要進(jìn)一步分析。在某些時(shí)候,它能清楚看到棋子的位置,卻似乎忘記了棋子的走法。

在這一次對(duì)局中,Kimi k2 完整識(shí)別了棋盤(pán)局勢(shì),卻依然無(wú)法給出合法著法,似乎對(duì)棋子的走法規(guī)則出現(xiàn)了記憶混亂。
在其他對(duì)局中,它在局面識(shí)別上也存在一些技術(shù)問(wèn)題。

憑借這場(chǎng)勝利,o3 順利晉級(jí)半決賽,與 o4 mini 對(duì)戰(zhàn)。
DeepSeek R1 對(duì)陣 o4-mini:0-4
OpenAI 的 o4-mini 與 DeepSeek R1 之間的對(duì)局呈現(xiàn)出了獨(dú)特的特點(diǎn)。如果單獨(dú)觀察每局比賽的前幾步棋,你可能會(huì)以為這是兩位高手在過(guò)招。然而對(duì)局進(jìn)行到某個(gè)階段后,棋局質(zhì)量就會(huì)突然斷崖式下跌。

這一現(xiàn)象在整場(chǎng)比賽中反復(fù)出現(xiàn):幾步不錯(cuò)的開(kāi)局之后,會(huì)出現(xiàn)判斷偏差和一系列失誤。
盡管如此,o4-mini 在這場(chǎng)比賽中成功實(shí)現(xiàn)了兩次將軍 —— 這是一個(gè)值得注意的成就,考慮到對(duì) AI 系統(tǒng)來(lái)說(shuō),準(zhǔn)確把握整個(gè)棋盤(pán)狀態(tài)本身就具有相當(dāng)?shù)奶魬?zhàn)性。
Gemini 2.5 Pro 對(duì)陣 Claude 4 Opus:4-0
Gemini 2.5 Pro 與 Claude 4 Opus 的對(duì)局是本次比賽中唯一一個(gè)通過(guò)「將殺」獲勝的場(chǎng)次多于因違規(guī)行棋告負(fù)的場(chǎng)次的比賽。不過(guò),目前尚不清楚 Gemini 2.5 Pro 的真實(shí)棋力究竟如何,也不確定其勝利在多大程度上得益于 Claude 4 Opus 的失誤表現(xiàn)。
這場(chǎng)比賽第四局出現(xiàn)了一個(gè)耐人尋味的局面:Gemini 2.5 Pro 當(dāng)時(shí)擁有 32 分的子力優(yōu)勢(shì),棋盤(pán)上甚至有兩個(gè)后。然而盡管火力全開(kāi),它在完成將殺的過(guò)程中仍然出現(xiàn)了送子的情況。

但更值得分析的是本場(chǎng)比賽的第一局。前九個(gè)回合,雙方 AI 都表現(xiàn)穩(wěn)健,著法精妙。然而就在此時(shí),執(zhí)黑的 Claude 4 Opus 做出了一個(gè)草率的決定,走 10...g5。這步棋不僅白送一兵,還徹底破壞了己方王城的安全,直接加速了敗局的到來(lái)。從雙方 AI 的賽后評(píng)注中,我們可以看出一些端倪:

Grok 4 對(duì)陣 Gemini 2.5 Flash:4-0
今日表現(xiàn)最為亮眼的當(dāng)屬 Grok 4。除了以全勝戰(zhàn)績(jī)收獲 4 分外,其棋藝水平也堪稱目前最佳。雖然對(duì)手 Gemini 2.5 Flash 多次失誤送子確實(shí)降低了比賽難度,但與其他 AI 不同的是,Grok 4 展現(xiàn)出了精準(zhǔn)捕捉無(wú)保護(hù)棋子的能力,并能果斷實(shí)施打擊。

Grok 4 的出色表現(xiàn)甚至引起了科技界的關(guān)注,其創(chuàng)始人埃隆?馬斯克在 X 平臺(tái)簡(jiǎn)短互動(dòng)時(shí),再次提及他那個(gè)著名觀點(diǎn) ——「國(guó)際象棋太過(guò)簡(jiǎn)單」。

截至目前,大語(yǔ)言模型在象棋對(duì)弈中暴露出三大關(guān)鍵短板:全局棋盤(pán)視覺(jué)化能力不足、棋子間互動(dòng)關(guān)系理解有限,以及由此引發(fā)的合法著法執(zhí)行問(wèn)題。而 Grok 4 的出色表現(xiàn)證明,它似乎成功突破了這些限制。
這些 AI 模型的優(yōu)勢(shì)與缺陷能否在后續(xù)賽事中保持穩(wěn)定?我們還要看明天的半決賽成績(jī)。
文章中提及的棋局在線上國(guó)際象棋對(duì)弈網(wǎng)站 chess.com 中均有詳細(xì)描述,感興趣的讀者可以參見(jiàn)以下鏈接:https://www.chess.com/news/view/kaggle-game-arena-chess-2025-day-1
國(guó)際象棋大師 Levy Rozman 也在最新錄制的視頻中對(duì)這場(chǎng)比賽進(jìn)行了講解。

我們?cè)谧蛱斓膱?bào)道中發(fā)起了一個(gè)投票,目前已有近 4000 位讀者參與。從目前的數(shù)據(jù)看,大家此前最看好的是 Gemini 2.5 Pro—— 贏得了超過(guò) 37% 的票數(shù)。

現(xiàn)在,第一天的比賽結(jié)果已經(jīng)出爐,我們也稍微了解了各個(gè)模型的表現(xiàn),不知道大家的想法有無(wú)變化呢?


























