鬧玩呢！首屆大模型對(duì)抗賽，DeepSeek、Kimi第一輪被淘汰了

2025-08-07 08:54:00

剛剛，我們拿到了第一輪比賽的結(jié)果：Gemini 2.5 Pro、o4-mini、Grok 4 和 o3 均以 4-0 的戰(zhàn)績(jī)分別擊敗 Claude 4 Opus、DeepSeek R1、Gemini 2.5 Flash 和 Kimi k2，晉級(jí)半決賽。

在玩游戲方面，到底哪個(gè)模型最厲害？為了回答這個(gè)問(wèn)題，谷歌近日發(fā)起了首屆大模型國(guó)際象棋對(duì)抗賽。

這場(chǎng)比賽為期三天，參賽選手包括：

o4-mini（OpenAI）
DeepSeek-R1（DeepSeek）
Kimi K2 Instruct（月之暗面）
o3（OpenAI）
Gemini 2.5 Pro（谷歌）
Claude Opus 4（Anthropic）
Grok 4（xAI）
Gemini 2.5 Flash（谷歌）

以下是模型對(duì)陣圖。

這個(gè)比賽是在一個(gè)名叫「Kaggle Game Arena」的平臺(tái)上進(jìn)行的。這是 Kaggle 公司的一個(gè)新項(xiàng)目，旨在跳出平時(shí)的基準(zhǔn)測(cè)試框架，探索像 Gemini、DeepSeek 等 LLM 在動(dòng)態(tài)和競(jìng)爭(zhēng)環(huán)境中表現(xiàn)如何。

在昨天的報(bào)道中，我們?cè)敿?xì)描述了這場(chǎng)比賽的規(guī)則，比如不允許模型調(diào)用 Stockfish 等國(guó)際象棋引擎。

以下是對(duì)戰(zhàn)的詳細(xì)信息：

Kimi k2 對(duì)陣 o3：0-4

Kimi k2 與 o3 的對(duì)局較早結(jié)束，四局比賽都在八步棋內(nèi)完成。由于 Kimi k2 連續(xù)四次未能找到合法著法而被判負(fù)，o3 獲得了全勝。

不過(guò)需要說(shuō)明的是，與 o3 對(duì)戰(zhàn)的 Kimi K2 Instruct 為非推理模型，打不過(guò) o3 也在預(yù)料之中。

雖然 Kimi k2 未能獲勝，但這場(chǎng)比賽也為我們提供了有價(jià)值的觀察。從 Kimi k2 的走棋注釋來(lái)看，它在開(kāi)局階段能夠遵循棋譜理論行棋。然而，一旦脫離了熟悉的開(kāi)局理論，技術(shù)問(wèn)題就開(kāi)始顯現(xiàn) —— 而對(duì) Kimi k2 來(lái)說(shuō)，這個(gè)轉(zhuǎn)折點(diǎn)來(lái)得較早。

Kimi k2 遇到困難的具體原因還需要進(jìn)一步分析。在某些時(shí)候，它能清楚看到棋子的位置，卻似乎忘記了棋子的走法。

在這一次對(duì)局中，Kimi k2 完整識(shí)別了棋盤(pán)局勢(shì)，卻依然無(wú)法給出合法著法，似乎對(duì)棋子的走法規(guī)則出現(xiàn)了記憶混亂。

在其他對(duì)局中，它在局面識(shí)別上也存在一些技術(shù)問(wèn)題。

憑借這場(chǎng)勝利，o3 順利晉級(jí)半決賽，與 o4 mini 對(duì)戰(zhàn)。

DeepSeek R1 對(duì)陣 o4-mini：0-4

OpenAI 的 o4-mini 與 DeepSeek R1 之間的對(duì)局呈現(xiàn)出了獨(dú)特的特點(diǎn)。如果單獨(dú)觀察每局比賽的前幾步棋，你可能會(huì)以為這是兩位高手在過(guò)招。然而對(duì)局進(jìn)行到某個(gè)階段后，棋局質(zhì)量就會(huì)突然斷崖式下跌。

這一現(xiàn)象在整場(chǎng)比賽中反復(fù)出現(xiàn)：幾步不錯(cuò)的開(kāi)局之后，會(huì)出現(xiàn)判斷偏差和一系列失誤。

盡管如此，o4-mini 在這場(chǎng)比賽中成功實(shí)現(xiàn)了兩次將軍 —— 這是一個(gè)值得注意的成就，考慮到對(duì) AI 系統(tǒng)來(lái)說(shuō)，準(zhǔn)確把握整個(gè)棋盤(pán)狀態(tài)本身就具有相當(dāng)?shù)奶魬?zhàn)性。

Gemini 2.5 Pro 對(duì)陣 Claude 4 Opus：4-0

Gemini 2.5 Pro 與 Claude 4 Opus 的對(duì)局是本次比賽中唯一一個(gè)通過(guò)「將殺」獲勝的場(chǎng)次多于因違規(guī)行棋告負(fù)的場(chǎng)次的比賽。不過(guò)，目前尚不清楚 Gemini 2.5 Pro 的真實(shí)棋力究竟如何，也不確定其勝利在多大程度上得益于 Claude 4 Opus 的失誤表現(xiàn)。

這場(chǎng)比賽第四局出現(xiàn)了一個(gè)耐人尋味的局面：Gemini 2.5 Pro 當(dāng)時(shí)擁有 32 分的子力優(yōu)勢(shì)，棋盤(pán)上甚至有兩個(gè)后。然而盡管火力全開(kāi)，它在完成將殺的過(guò)程中仍然出現(xiàn)了送子的情況。

但更值得分析的是本場(chǎng)比賽的第一局。前九個(gè)回合，雙方 AI 都表現(xiàn)穩(wěn)健，著法精妙。然而就在此時(shí)，執(zhí)黑的 Claude 4 Opus 做出了一個(gè)草率的決定，走 10...g5。這步棋不僅白送一兵，還徹底破壞了己方王城的安全，直接加速了敗局的到來(lái)。從雙方 AI 的賽后評(píng)注中，我們可以看出一些端倪：

Grok 4 對(duì)陣 Gemini 2.5 Flash：4-0

今日表現(xiàn)最為亮眼的當(dāng)屬 Grok 4。除了以全勝戰(zhàn)績(jī)收獲 4 分外，其棋藝水平也堪稱目前最佳。雖然對(duì)手 Gemini 2.5 Flash 多次失誤送子確實(shí)降低了比賽難度，但與其他 AI 不同的是，Grok 4 展現(xiàn)出了精準(zhǔn)捕捉無(wú)保護(hù)棋子的能力，并能果斷實(shí)施打擊。

Grok 4 的出色表現(xiàn)甚至引起了科技界的關(guān)注，其創(chuàng)始人埃隆?馬斯克在 X 平臺(tái)簡(jiǎn)短互動(dòng)時(shí)，再次提及他那個(gè)著名觀點(diǎn) ——「國(guó)際象棋太過(guò)簡(jiǎn)單」。

截至目前，大語(yǔ)言模型在象棋對(duì)弈中暴露出三大關(guān)鍵短板：全局棋盤(pán)視覺(jué)化能力不足、棋子間互動(dòng)關(guān)系理解有限，以及由此引發(fā)的合法著法執(zhí)行問(wèn)題。而 Grok 4 的出色表現(xiàn)證明，它似乎成功突破了這些限制。

這些 AI 模型的優(yōu)勢(shì)與缺陷能否在后續(xù)賽事中保持穩(wěn)定？我們還要看明天的半決賽成績(jī)。

文章中提及的棋局在線上國(guó)際象棋對(duì)弈網(wǎng)站 chess.com 中均有詳細(xì)描述，感興趣的讀者可以參見(jiàn)以下鏈接：https://www.chess.com/news/view/kaggle-game-arena-chess-2025-day-1

國(guó)際象棋大師 Levy Rozman 也在最新錄制的視頻中對(duì)這場(chǎng)比賽進(jìn)行了講解。

我們?cè)谧蛱斓膱?bào)道中發(fā)起了一個(gè)投票，目前已有近 4000 位讀者參與。從目前的數(shù)據(jù)看，大家此前最看好的是 Gemini 2.5 Pro—— 贏得了超過(guò) 37% 的票數(shù)。

現(xiàn)在，第一天的比賽結(jié)果已經(jīng)出爐，我們也稍微了解了各個(gè)模型的表現(xiàn)，不知道大家的想法有無(wú)變化呢？

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

AI 模型數(shù)據(jù)