精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

超過o1-mini、逼近o3-mini,DeepSeek-R1在新的貪吃蛇基準上拿下1801分

人工智能 新聞
這個新基準名為 SnakeBench,是一個 1v1 的對抗性基準。其思路很簡單:將兩個 LLM 放在一起進行貪吃蛇比賽。如下展示了一局 o3-mini 與 DeepSeek-R1 的對抗。

ARC Prize,曾在去年底 OpenAI 12 天連發的最后一天賺盡了眼球,其發布已經 5 年的基準 ARC-AGI 首次迎來了得分達到優良等級的挑戰者:o3 系列模型。參閱機器之心報道《剛剛,OpenAI 放出最后大驚喜 o3,高計算模式每任務花費數千美元》。

自那以后已經過去了兩個多月,AI 領域早已經迎來了巨大的改變,其中尤其值得提及的便是 DeepSeek-R1 模型。憑借開源和低成本等優勢,這款性能強大的推理模型不僅已經成為國內 AI 或云服務商的標配,還正被集成到越來越多的應用和服務中,甚至原來很多原本與 AI 沒有直接關聯的應用也以接入 DeepSeek 為賣點進行宣傳。

那么,DeepSeek-R1 的 ARC-AGI 成績如何呢?根據 ARC Prize 發布的報告,R1 在 ARC-AGI-1 上的表現還趕不上 OpenAI 的 o1 系列模型,更別說 o3 系列了。但 DeepSeek-R1 也有自己的特有優勢:成本低。

來源:https://arcprize.org/blog/r1-zero-r1-results-analysis

上周六,ARC Prize 又發布了一個新的基準,這一次 DeepSeek-R1 不僅超過了 o1-mini,與 o3-mini 的差距也非常小。

這個新基準名為 SnakeBench,是一個 1v1 的對抗性基準。其思路很簡單:將兩個 LLM 放在一起進行貪吃蛇比賽。如下展示了一局 o3-mini 與 DeepSeek-R1 的對抗。

  • 官方網站:https://snakebench.com
  • 項目地址:https://github.com/gkamradt/SnakeBench

SnakeBench:緣起

ARC Prize 的推文表示,SnakeBench 的設計靈感來自著名 AI 研究科學家 Andrej Karpathy 的一條推文,其中涉及到了讓 AI 智能體在游戲中進行對抗以進行評估的思路。(這條推文還涉及到另一個使用游戲來評估 LLM 的基準 TextArena,感興趣的讀者可訪問:https://www.textarena.ai )

ARC Prize 表示,使用游戲作為評估環境可以檢驗 LLM 的多種能力,包括:

  • 實時決策
  • 多重目標
  • 空間推理
  • 動態環境

模型的表現

ARC Prize 報告說他們目前已經使用 50 個 LLM 進行了總共 2800 場比賽,為這些模型的「貪吃蛇實時策略和空間推理」能力排了個座次。

具體過程是怎樣的呢?

首先,以文本格式提供兩個 LLM 角逐的棋盤,其中會通過提示詞明確說明所用的 XY 坐標系。因此需要明確,這里提供的并非真正的 2D 表示 —— 這種信息轉譯可能會丟失某些空間推理信息。下面展示了一個提示詞示例:

在游戲進行時,首先隨機初始化每條蛇。然后要求兩條蛇(LLM)同時選擇下一步動作。當一條蛇撞到墻、撞到自己或撞到另一條蛇時,游戲結束。之后,根據游戲結果計算每條蛇的 Elo 評分。

以下為完整榜單:

據介紹,整體來說,Big Llama、o1、o3、Sonnet 3.5 和 DeepSeek 的表現最好,而其它 LLM 總是會撞墻。下面展示了幾局效果最好的比賽:

ARC Prize 官網還詳細列出了這四局比賽的完整詳情,下面展示了其中第二局(DeepSeek-R1 vs o3-mini)的詳情。在這里,不僅可以看到 LLM 每一步的選擇,而且還能看到 LLM 為每一步選擇給出的理由。當然,對于 DeepSeek-R1 模型,我們還可以清楚地看到其完整的思考過程。

Dry Merge CTO Sam Brashears 還注意到了一個非常有趣的回合。此時,o3-mini 和 DeepSeek 同時與一個蘋果相鄰,而它們竟然同時認為對方不會冒險吃這個蘋果,于是決定自己去吃,結果導致雙雙斃命。

此時,DeepSeek 想的是:「如果我向右移動到 (8,7) ,同時如果蛇 1 也向左移動,則有與蛇 1 相撞的風險。但是,為了保證分數,吃到蘋果優先于規避風險。」

而此時 o3-mini 也有類似的想法:「盡管我們的敵蛇(蛇 2)的頭位于 (7,7) 處,也有可能想吃這個蘋果,但沒有強烈的跡象表明它會冒險用自己更長的身體與我正面碰撞。因此,吃到蘋果的直接好處大于風險。」

以下是 ARC Prize 總裁 Greg Kamradt 總結的幾點關鍵發現:

  • 推理模型占據主導:o3-mini 和 DeepSeek 贏得了 78% 的比賽。
  • LLM 經常誤解以文本格式提供的棋盤布局。這會導致模型錯誤地定位蛇頭的位置,或者導致蛇撞到自己的尾巴。
  • 較低檔的模型(包括 GPT-3.5 Turbo 和 Haiku)表現不佳,而只有 GPT-4、Gemini 2.0 和 o3-mini 表現出足夠的策略游戲推理能力。這說明基本的空間推理仍然是 LLM 面臨的巨大挑戰。大多數模型都無法跟蹤自己的位置,并且會犯明顯的錯誤。
  • 上下文很關鍵。為了讓 LLM 做出正確選擇,需要讓其加載大量信息,包括棋盤位置、蘋果位置、其它蛇的位置等。

有趣的是,這種 LLM 對抗競技顯然很容易復現,CoreView 聯合創始人兼 CTO Ivan Fioravanti 便基于 Ollama 讓 deepseek-r1:32b 與 qwen2.5-coder:32b 進行了貪吃蛇比賽。

另外也有用戶分享了自己讓具有視覺能力的 LLM 玩貪吃蛇的經歷,不過不同于 SnakeBench 的結果,反倒是 Gemini 表現最好。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-03-03 07:30:00

谷歌模型AI

2025-02-17 08:12:00

AI模型生成

2025-02-14 10:47:40

2025-02-08 11:44:03

2025-02-03 14:06:32

2024-11-21 09:58:12

2024-09-23 16:00:00

AI模型測評

2025-02-24 14:05:00

LLM模型AI

2025-02-10 00:00:01

2025-02-03 12:38:28

2025-03-31 08:00:00

AI模型測評

2024-12-24 16:15:04

2025-02-08 17:00:11

2025-08-18 17:16:45

AIChatGPT模型

2025-02-03 00:15:00

DeepSeek?o3-mini?資源

2025-04-10 10:02:43

2024-12-09 07:00:00

o1-mini模型強化微調OpenAI

2025-02-03 14:17:27

2024-09-19 17:44:04

2025-01-20 19:52:50

點贊
收藏

51CTO技術棧公眾號

国产一区二区高清视频| 亚洲国产精品免费视频| 国产精品1区| aaa欧美日韩| 久久夜色精品国产| 男女视频一区二区三区| 国产1区2区3区4区| 向日葵视频成人app网址| 国产suv精品一区二区6| 精品国产区一区二区三区在线观看| 色综合久久久久无码专区| 国产99对白在线播放| 波多野结衣在线播放一区| 精品久久香蕉国产线看观看gif| 亚洲专区在线视频| 人与动物性xxxx| 国产精品亚洲d| 久久久精品免费网站| 91精品国产91久久久久久吃药| 交换做爰国语对白| 999国产在线视频| 精品久久成人| 91精品办公室少妇高潮对白| 久久久久久欧美精品色一二三四 | 成人精品小蝌蚪| 亚洲日韩中文字幕在线播放| 男人揉女人奶房视频60分 | 日韩国产欧美精品在线 | 久久福利毛片| 亚洲欧美视频在线| 不卡影院一区二区| 国产黄色免费在线观看| 日韩国产精品久久| 中文字幕亚洲一区| 日韩a一级欧美一级| caopen在线视频| 国产电影精品久久禁18| 久久琪琪电影院| 人妻丰满熟妇av无码久久洗澡| 亚洲第一av| 国产日韩欧美一区二区三区综合| 国产精品福利观看| 亚洲一区电影在线观看| 日本高清精品| 欧美日韩国产不卡| 日本中文字幕一级片| 狠狠人妻久久久久久综合麻豆| 一区二区三区福利| 中文字幕9999| 日本二区在线观看| 91天天综合| 亚洲卡通欧美制服中文| 国产九色精品| 中文字幕av第一页| 欧美久久一区| 亚洲欧美资源在线| aaaaa一级片| **日韩最新| 欧美午夜丰满在线18影院| 亚洲.欧美.日本.国产综合在线 | 日韩精品一区二区三区视频播放| 欧美精品卡一卡二| 国产福利在线| 欧美国产综合色视频| 国产福利不卡| 中文无码av一区二区三区| 午夜亚洲福利| 国产一区二区免费| jjzz黄色片| 成人1区2区| 69久久99精品久久久久婷婷| 亚洲午夜无码av毛片久久| 国模冰冰炮一区二区| 亚洲免费伊人电影| 国产资源第一页| 二区三区在线| 1000精品久久久久久久久| 精品无码久久久久国产| 国产视频手机在线| 蜜臀精品久久久久久蜜臀 | 中文字幕乱码在线播放| 色综合天天综合给合国产| 桥本有菜av在线| 男男激情在线| 成人精品一区二区三区四区| 久久99国产精品99久久| 美国一级片在线免费观看视频 | 国精品无码一区二区三区| 九九热爱视频精品视频| 亚洲精品在线免费播放| 国产免费中文字幕| 成人在线视频观看| 日韩欧美在线不卡| 污污网站在线观看视频| 欧美一级二级视频| 欧美一区二区三区免费观看视频 | 国产1区2区3区精品美女| 久久www免费人成精品| av每日在线更新| 亚洲国产精品人人做人人爽| 最新中文字幕久久| 日韩深夜视频| 欧美色道久久88综合亚洲精品| 婷婷丁香激情网| 91tv亚洲精品香蕉国产一区| 欧美一区国产二区| 国产精品九九九九九| 欧美一区二区| 国产精品黄视频| 人妻91麻豆一区二区三区| 国产精品一级在线| 亚洲最大福利网站| 国产成人麻豆精品午夜在线| 91免费版在线看| 免费成人深夜夜行视频| 日韩a在线观看| 久久精品欧美日韩精品 | www在线视频| 在线欧美一区二区| 国产精品视频黄色| 精品国产影院| 日韩精品视频三区| 午夜写真片福利电影网| 日韩在线播放一区二区| 国产在线视频欧美一区二区三区| 免费在线看黄| 亚洲一区二区视频在线| 欧美一区二区中文字幕| 一个人看的www视频在线免费观看 一个人www视频在线免费观看 | 国产成人亚洲综合a∨婷婷图片| 日本一区网站| 3d成人动漫在线| 色综合天天在线| 亚洲久久久久久| 国产欧美日韩在线一区二区| 一区二区欧美日韩视频| chinese全程对白| 日韩1区2区3区| 91最新在线免费观看| 成年人在线看| 亚洲精品国产视频| 蜜桃传媒一区二区三区| 亚洲性视频在线| 欧美伦理91i| 国产69精品久久久久久久久久| 久久久久国产一区二区| 精品国产免费久久久久久尖叫 | 国产精品第8页| 牛牛热在线视频| 色综合久久88色综合天天 | 亚洲视频一区在线| 国产夫妻自拍一区| 深夜激情久久| 欧美韩国理论所午夜片917电影| 国产精品人人人人| 久久国产精品免费| 国产欧美精品一区二区三区| 午夜影院免费在线| 色婷婷国产精品综合在线观看| 成人免费无码大片a毛片| 亚洲一区日本| 91成人免费观看| h片在线播放| 亚洲成人免费网站| 男人在线观看视频| 国产一区二三区好的| 欧美在线播放一区二区| 污视频网站免费在线观看| 欧美成va人片在线观看| 中文字幕第24页| 亚洲精品在线二区| 亚洲最大av在线| 色网在线观看| 日韩精品视频在线播放| 中文字幕一区二区人妻| 亚洲人成精品久久久久| av电影在线播放| 国产精品国产一区| 欧美中文字幕第一页| 精品人妻一区二区三区四区不卡| 国产日本欧洲亚洲| 国产欧美激情视频| 亚洲青色在线| 色女人综合av| 欧一区二区三区| 欧美在线视频免费| 国产视频中文字幕在线观看| 欧美三级视频在线播放| 亚洲最大的黄色网| 日本欧美韩国一区三区| 久久国产精品免费观看| 亚洲都市激情| 97成人超碰免| 在线播放日本| 欧美三级一区二区| 国产亚洲精品久久久久久打不开| 久久99精品视频| 男人添女人荫蒂免费视频| 国产99久久久国产精品成人免费| 成人激情视频网| 欧美猛烈性xbxbxbxb| 亚洲成人网久久久| 91国产免费视频| 18欧美亚洲精品| avtt香蕉久久| 国产一区二区调教| 大香煮伊手机一区| 国精品一区二区三区| 99精品99久久久久久宅男| a视频在线观看免费| 亚洲欧美日韩精品久久| 亚洲精品久久久久avwww潮水| 一区二区三区国产精品| 亚洲欧美日韩中文字幕在线观看| 亚洲国产不卡| 91福利入口| 99久久精品一区二区成人| 海角国产乱辈乱精品视频| 99在线观看免费| 色国产综合视频| 国产真人真事毛片| www.亚洲在线| 北条麻妃亚洲一区| 美女脱光内衣内裤视频久久网站 | 日本一区视频在线| 日本欧美高清| 国产成人鲁鲁免费视频a| 精品亚洲综合| 欧美丰满嫩嫩电影| 妺妺窝人体色www在线下载| 成人免费视频caoporn| 中文字幕22页| 久久99国产精品麻豆| 91在线视频观看免费| 久久久久国产精品一区三寸| 91专区在线观看| 亚洲区欧美区| 日韩国产一级片| 欧美丝袜一区| 欧洲精品一区色| 亚洲理论电影片| 麻豆传媒一区| 在线看成人短视频| 免费在线成人av电影| 日韩高清电影免费| 国产精品欧美日韩| 美女日批视频在线观看| 亚洲老板91色精品久久| 视频三区在线观看| 欧美久久久一区| 亚洲一区中文字幕在线| 精品久久久久久亚洲精品| 国产亚洲欧美精品久久久www| 亚洲美女在线一区| 久草视频免费播放| 亚洲成人精品一区| 青青操免费在线视频| 亚洲欧洲韩国日本视频| 男人av资源站| 亚洲男人的天堂av| 久久久国产精品黄毛片| 亚洲成在人线在线播放| 天天干天天干天天| 欧洲精品一区二区| 国产又粗又黄又爽的视频| 91精品黄色片免费大全| 国产不卡精品视频| 亚洲国产精品资源| 国产片在线播放| 精品少妇一区二区三区在线视频| 黄色三级网站在线观看| 精品无码久久久久久国产| 精品人妻无码一区二区三区蜜桃一 | 日韩一区二区av| 在线观看h网| 亚洲欧洲国产一区| 在线国产91| 欧美国产日韩一区二区三区| 天堂中文在线播放| 国产精品一区二区性色av| 日本不卡网站| 国产精品一区二区三区久久 | 久久精品免费看| 热久久精品国产| 蜜桃视频在线观看一区| 免费在线观看日韩av| 毛片基地黄久久久久久天堂| 丰满人妻一区二区三区53视频| 成人福利视频网站| 激情五月深爱五月| 国产日韩欧美精品一区| 欧美激情精品久久久久久免费| 亚洲成人动漫av| 中文字字幕在线观看| 精品国产一区二区精华| 国产高清视频在线播放| 欧美激情久久久| 91成人抖音| 国产一区二区精品免费| 国产精品97| 国产a级一级片| 国产精品亚洲专一区二区三区| 欧美 日本 国产| 亚洲免费观看高清完整版在线观看熊| 日韩字幕在线观看| 69成人精品免费视频| 久青青在线观看视频国产| 久久91精品国产91久久跳| 电影天堂国产精品| 精品综合久久久| 欧美日本免费| 九九九九九国产| 国产日产欧美精品一区二区三区| 国产一级片网址| 宅男在线国产精品| 懂色av中文在线| 3344国产精品免费看| 综合日韩av| 91九色蝌蚪嫩草| 99精品综合| 9久久婷婷国产综合精品性色| 99久久婷婷国产综合精品电影 | 中文字幕免费精品| www.国产亚洲| 免费av网站大全久久| 欧美做受高潮6| 黑人巨大精品欧美一区免费视频| 日韩一区二区视频在线| 欧美电视剧在线看免费| 黄色成人影院| 国产日韩精品一区二区| 欧美午夜在线播放| 国产一区二区三区奇米久涩| 91成人网在线观看| 99热一区二区| 成人午夜视频在线| 欧美日韩在线视频免费播放| 欧美日韩国产精选| 91看片在线观看| 国产精品欧美一区二区三区奶水| 亚洲制服欧美另类| 精品一区二区中文字幕| 久久综合五月天婷婷伊人| 手机看片国产日韩| 欧美在线|欧美| 性生活视频软件| 欧美激情xxxx性bbbb| 成人福利免费在线观看| 丝袜足脚交91精品| 可以看av的网站久久看| 少妇丰满尤物大尺度写真| 亚洲欧美国产毛片在线| 国内精品国产成人国产三级| 欧美男插女视频| 老牛影视av一区二区在线观看| 男女视频网站在线观看| 99国产精品久久久久| 国产67194| 日韩欧美一区二区免费| 色yeye免费人成网站在线观看| 国产日韩中文字幕| 国产精品成人免费一区二区视频| 日本不卡电影| 亚洲免费视频播放| 久久亚洲国产| 人妻av中文系列| 99在线精品免费| 超碰在线观看91| 色综久久综合桃花网| 国产夫妻在线播放| 国产日产亚洲精品| 在线看片不卡| 50一60岁老妇女毛片| 国产精品久久777777| xxxx.国产| 在线精品国产欧美| 视频二区欧美| 久久无码高潮喷水| 国产精品国产馆在线真实露脸| 精品乱子伦一区二区| 欧美中在线观看| 亚洲澳门在线| 丰满少妇一区二区三区| 欧美日本在线一区| 白浆视频在线观看| 亚洲激情啪啪| 日日夜夜精品视频天天综合网| 亚洲精品一二三四| 在线视频亚洲欧美中文| 亚洲新中文字幕| 日本在线精品| av在线观看地址| 国产精品天干天干在观线| 99久久婷婷国产综合| 亚洲第一视频网站| 国产极品嫩模在线观看91精品| 欧美视频在线观看视频 | 成人性生交大免费看| 亚洲午夜免费福利视频| 国产免费av高清在线|