精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

高中生用「我的世界」評測SOTA模型!Claude暫時領先,DeepSeek緊隨其后

人工智能 新聞
AI頻頻刷新基準測試紀錄,卻算不清「strawberry」里到底有幾個字母r,在人類看來很簡單的問題卻頻頻出錯。這種反差促使創意測評興起,例如由一名高中生開發的MC-Bench,用Minecraft方塊「競技場」模式評價AI能力。這種新的測評范式,或許更貼合人類對AI直觀、創造性能力的實際期待。

「strawberry中有多少個r」和「在LSAT法學考試中獲得88分」哪個更難?

對于現如今的LMMs來說,通過各種人類「聽著就頭痛,看又看不懂」的基準測試似乎已是家常便飯。

比如DeepSeek-R1發布時在6大基準測試(包含AIME、MMLU、MATH-500等)中超過o1取得領先。

圖片

但是對于人類來說依靠直覺和下意識就能回答的問題,LLM們似乎集體有點「發懵」。

很難理解OpenAI的GPT-4能夠在LSAT考試中獲得第88百分位的成績,但卻無法數清楚「strawberry」中有多少r。

除了復雜的基準測試,另外一種評價模型好壞的方式就是「競技場模式」。

比如可以在Chatbot Arena進行上提問投票,選出面對相同問題時的「最佳模型」。

圖片

但是這種依靠Chat模式的評測依然不太直觀,于是各種各樣的創意評測就誕生了。

創意評測的魅力

圖片

Minecraft Benchmark(或 MC-Bench)像一個競技場,在一對一的挑戰中針對相同提示生成Minecraft作品。

「對決雙方」由用戶投票選擇哪個模型做得更好。

并且只有在投票后才能看到每個Minecraft建筑是由哪個AI制作的。

目前MC-Bench的榜單上,Claude3.7暫時領先,deepseek-r1位列第5,但是考慮到DeepSeek-R1的發布時間,Claude3.7、GPT-4.5和Gemini2.0都相當于是「新一代」的模型了,期待DeepSeek-R2出來后的榜單!

圖片

像MC-Bench這樣的創意評測,優勢非常明顯:普通人也能輕松參與,像「選美」一樣簡單直接。

創造MC-Bench項目的僅僅是一名高中生Adi Singh,在將Minecraft用于AI評測這件事情上,Adi Singh覺得Minecraft的價值不在游戲本身。

而是作為有史以來最暢銷的電子游戲,即使對于沒玩過Minecraft游戲的人來說,仍然可以選擇自己更喜歡的「方塊樣子」。

MC-Bench是合作開發的,除了Adi Singh外,貢獻者還有7位,包括了「提示詞創意官」、技術主管和開發者們。

圖片

并獲得了Anthropic、Google和阿里巴巴等公司的技術支持。

圖片

傳統LLM評測:嚴肅認真但未必管用

傳統的AI基準測試技術被證明不足,主要體現在以下幾個方面:

  • 主場優勢 (Overfitting to benchmarks):傳統的 AI 基準測試往往基于特定類型的任務設計,這些任務對 AI 模型來說相對固定且簡單,這種過擬合就像一名「只會背題」的學生。
  • 測試任務過于狹窄:傳統的測試任務多集中于單一維度的能力評估,如語言理解、邏輯推理、數學計算。
  • 缺乏真實環境與開放性:傳統的基準測試通常使用高度抽象化或理論化的環境,而這些環境往往不能反映現實世界中問題的開放性和不確定性。
  • 難以衡量通用性與泛化能力:傳統 AI 基準測試往往無法有效衡量模型的通用性或泛化能力。

因此AI構建者正在轉向更有創意的方法來評估Gen-AI模型的能力。

AI開發者們表示,我們也想玩點「新鮮的」。

圖片

MC-Bench的本質是在測試AI模型的文本理解和編碼能力。

通過類似Chatbot Arena的方式來進行模型評比。

圖片

對于為何選擇游戲,選擇Minecraft,Adi Singh覺得「游戲可能只是一種測試能動性推理的媒介,比現實生活更安全,也更適合測試目的,因此在我看來更為理想」。

從Adi Singh個人網站來看,他對于使用Minecraft方塊進行AI評測應該是「蓄謀已久」,Adi Singh展示很多利用大模型生成Minecraft方塊的精彩案例。

比如,gpt-4.5根據提示「構建一艘在云層中飛行的蒸汽朋克風格飛艇」。

圖片

再比如,claude-3.7-sonnet有一個令人印象非常深刻的Minecraft模型,根據提示「韓國友誼之鐘」生成。

圖片

并且,社區成員對MC-Bench的評價也很高。

圖片

比如目前就職于OpenAI的基礎研究員Aidan McLaughlin,對Minecraft Bench給予了很高的評價:你應該密切關注MC-Bench!

Aidan McLaughlin同時給出了他認為最佳的人工智能基準應具有: 

  • 審計數據的樂趣 (與其他所有基準測試都不同) 
  • 測試真正關心的功能 (代碼、美學、意識) 
  • 甚至可以辨別頂級型號之間的性能差異

圖片

游戲測評AI似乎依然是「主流創意」

在Claude 3.7 Sonnet發布時說過,模型降低了在數學、競賽和編程方面的特化程度,有「更好」的思考能力。

那么如何評測新模型的「思考」能力呢?

答案就是游戲《寶可夢》,這不是開玩笑。

Claude通過配備了透過程序來操控游戲的特定「按鈕」。

甚至還在Twitch上直播了Claude玩游戲的全過程,可以看到它如何學習、思考并采取行動。

圖片

不論是傳統的基準測試,還是類似MC-Bench的創意測試。

對于生成式AI的能力評測,目前依然沒有一個「一勞永逸」的標準。

傳統基準測試的評估結果多采用單一的客觀分數(如準確率),忽視了人類實際感受和主觀評價的維度。

在生成式AI中,美學感知、創造力、直觀性往往更加重要,但這些因素很難在傳統的標準化測試中體現出來。

也許類似MC-Bench這樣的創意評測會給未來的AI評測帶來新的「范式」。

而新的AI評測「范式」也許會加速推動AI的發展。

責任編輯:張燕妮 來源: 新智元
相關推薦

2019-07-04 15:57:16

數據安全互聯網

2009-09-29 17:42:56

2010-03-31 10:11:08

多核

2024-08-19 08:45:00

開源模型

2009-05-20 09:02:53

IT職業培訓就業高中生

2020-12-09 13:59:15

神經網絡AI算法

2025-03-21 13:05:18

模型評測基準

2023-06-20 18:33:00

DOM框架React

2011-04-19 09:40:31

2020-10-11 20:40:58

編程語言PythonJava

2025-06-09 15:26:53

ChatGPTGPT-4o4o-mini

2009-04-14 15:30:25

2009-08-10 17:08:52

計算機專業就業IT培訓

2025-03-07 12:04:07

2024-09-29 13:24:41

2021-03-24 10:15:18

人工智能機器學習技術

2010-01-29 10:24:17

2015-10-20 17:40:42

2021-01-14 16:25:18

iPhone 7服務器開發者
點贊
收藏

51CTO技術棧公眾號

一区二区三区四区视频精品免费 | 日韩午夜精品视频| 亚洲国产精品女人| 人人妻人人玩人人澡人人爽| 日韩不卡手机在线v区| 乱亲女秽乱长久久久| 日本黄色录像片| 亚洲香蕉久久| 欧美性少妇18aaaa视频| 一区二区三区视频在线播放| 空姐吹箫视频大全| 久久91精品国产91久久小草| 国内精品久久久久影院 日本资源| 久久婷婷五月综合| 国产成人福利av| 欧美在线free| 啊啊啊一区二区| 91香蕉在线观看| 国产欧美一区二区三区在线看蜜臀| 亚洲专区中文字幕| 波多野结衣在线观看一区| 欧美网站在线| www.色综合| 一级黄色性视频| 久久精品66| 日韩无一区二区| 亚洲综合婷婷久久| 你懂得影院夜精品a| 亚洲午夜免费电影| 黄色一级视频播放| 午夜视频在线| 久久久亚洲欧洲日产国码αv| 国产精品12| 99久久99久久久精品棕色圆| 日本va欧美va精品| 日韩一区二区在线免费观看| 成人免费视频观看视频| 中文字幕人妻色偷偷久久| 五月婷在线视频| 日韩高清电影一区| 欧美专区在线播放| 亚洲精品午夜久久久久久久| 欧美久久九九| 欧美精品一区三区| 欧美成人三级视频| 欧美福利视频| 欧美精品少妇videofree| 很污很黄的网站| 99久久综合| 日韩在线免费av| 超碰人人人人人人人| 大胆日韩av| 日韩中文字幕在线视频| 美女福利视频网| 天天做天天爱天天综合网2021| 这里只有精品丝袜| 免费黄色在线网址| 999视频精品| 久久深夜福利免费观看| 疯狂试爱三2浴室激情视频| 99久久影视| 欧美另类在线观看| 国产精品99精品| 性感少妇一区| 国产精品草莓在线免费观看| 人妻丰满熟妇av无码区| 日韩经典一区二区| 成人h猎奇视频网站| 国产成人精品a视频| 成人免费高清在线观看| 精品久久久久久综合日本| 青青青草原在线| 国产欧美精品一区二区三区四区| 西游记1978| 成人福利在线观看视频| 亚洲国产视频一区| 能在线观看的av| 免费在线成人激情电影| 91精品国产色综合久久| 久久久久久久人妻无码中文字幕爆| 精品福利一区| 夜夜嗨av一区二区三区免费区 | 国模精品一区二区三区色天香| 日本学生初尝黑人巨免费视频| 欧美专区一区二区三区| 国产日韩欧美视频| 黑人操亚洲女人| 国产亚洲欧美在线| 9191国产视频| 台湾佬中文娱乐久久久| 3d动漫精品啪啪| 久久一区二区电影| 国产在线一二| 成人精品aaaa网站| 国产又粗又长视频| 高清视频一区二区| 激情欧美一区二区三区中文字幕| 国产人妖一区二区三区| 久久99久久久久| 国产精品一级久久久| 免费动漫网站在线观看| 亚洲视频每日更新| 免费观看日韩毛片| 高清在线一区二区| 亚洲全黄一级网站| 久草资源在线视频| 日韩中文字幕不卡| 丁香婷婷久久久综合精品国产| 精品久久久久一区二区三区 | 亚洲综合99| 91久久久久久久久久| 你懂的在线播放| 亚洲综合av网| 无尽裸体动漫2d在线观看| 中文字幕第315页| 欧美综合影院| 精品国产露脸精彩对白| 性の欲びの女javhd| 午夜精品久久99蜜桃的功能介绍| 奇米4444一区二区三区 | 色婷婷色综合| 亚洲国产成人精品电影| 中文字幕在线观看二区| 亚洲国产99| 亚洲va国产va天堂va久久| 国产主播福利在线| 天天综合色天天综合色h| 日本网站在线看| 成人在线电影在线观看视频| 国产69久久精品成人| 午夜精品小视频| 亚洲少妇最新在线视频| 国产三级国产精品国产专区50| 亚州精品视频| 韩国19禁主播vip福利视频| 国产女主播福利| 国产精品久久久久久久久免费桃花 | 亚洲麻豆国产自偷在线| 国产成年人视频网站| 成人在线视频免费观看| 国产精品久久77777| 欧美精品少妇| 色哟哟国产精品免费观看| av无码一区二区三区| 亚洲人成免费| 国产一区视频观看| 91超碰在线免费| 亚洲国产99精品国自产| 亚洲另类欧美日韩| 久久综合九色综合97_久久久| 91视频 -- 69xx| 日韩激情毛片| 欧美一区二区视频97| 欧洲天堂在线观看| 91国偷自产一区二区开放时间| 性欧美13一14内谢| 老司机亚洲精品| 亚洲成人蜜桃| 9999在线精品视频| 欧美日韩国产成人在线观看| www三级免费| 偷偷要91色婷婷| 精品无码一区二区三区| 天堂在线一区二区| 一区二区三区四区五区精品| 四虎精品一区二区免费| 欧美另类极品videosbestfree| 亚洲av无码乱码在线观看性色 | 日韩在线免费高清视频| 97成人免费视频| 亚洲综合一区在线| 中文字幕丰满孑伦无码专区| 免费不卡在线视频| 国产四区在线观看| 久久精品论坛| 国产精品久久不能| www.久久ai| 日韩精品中文字幕久久臀| 国产主播第一页| 日韩一区在线免费观看| 手机免费看av片| 日韩精品午夜视频| 男人日女人的bb| 国产成人短视频在线观看| 成人激情av在线| 18aaaa精品欧美大片h| 亚洲午夜激情免费视频| 国产精品久久久久久久一区二区| 亚洲丶国产丶欧美一区二区三区| 久久久久久九九九九九| 国产一区二区免费视频| 欧美国产亚洲一区| 99久久国产综合精品成人影院| 成人在线免费网站| 福利视频亚洲| 国模视频一区二区三区| 最近高清中文在线字幕在线观看| 日韩视频免费直播| 国产成人亚洲精品自产在线| 国产精品免费丝袜| 亚洲制服丝袜在线播放| 国产在线精品国自产拍免费| 国产精品沙发午睡系列| 欧美精品国产| 视频一区二区精品| 久久97精品| 成人免费观看a| 91精品韩国| 97色在线观看| 深夜国产在线播放| 中文字幕自拍vr一区二区三区| 免费看av毛片| 日韩欧美成人一区| 中文字幕在线观看免费| 色综合天天视频在线观看| 男女免费视频网站| 中文字幕日韩欧美一区二区三区| 亚洲自拍偷拍一区二区| 东方欧美亚洲色图在线| 999在线精品视频| 免费欧美日韩国产三级电影| 欧美日韩国产精品激情在线播放| 午夜天堂精品久久久久| 亚洲一区二区三区免费看| 在线视频亚洲专区| 精品乱子伦一区二区三区| 精品亚洲二区| 成人在线视频网站| 欧美成人家庭影院| 国产精品久久久久久久久男| 性xxxxfreexxxxx欧美丶| 久久久久久久电影一区| av网站在线免费看推荐| 精品国产一区av| 1024国产在线| 中文字幕精品视频| yw193.com尤物在线| 国产小视频国产精品| 天堂视频中文在线| 日韩精品视频免费在线观看| 色丁香婷婷综合久久| 欧美精品一区二区在线播放| 亚洲国产999| 精品电影一区二区| 欧美亚洲精品在线观看| 精品久久久久一区| 三级网站在线看| 日韩精品小视频| 毛片在线免费| 国产亚洲一区二区精品| 日本中文在线| 久久综合久久美利坚合众国| 18av在线播放| 欧美激情视频给我| 一二三四视频在线中文| 国产99视频精品免视看7| 日韩一区二区三区免费视频| 国产精品美女久久久久久免费| 国产黄色精品| 91亚洲精品在线| jizz18欧美18| 久久久久久高清| 日韩精品一区二区久久| 一区二区三区在线视频111| 欧美激情aⅴ一区二区三区| 国产精品久久久久久久乖乖| 亚洲作爱视频| 天堂在线资源视频| 国产老肥熟一区二区三区| 中文字幕在线视频播放| 久久久久免费观看| 欧美肥妇bbwbbw| 亚洲高清中文字幕| 无码人妻精品一区二区50| 欧美日韩精品免费| 亚洲奶汁xxxx哺乳期| 日韩精品在线免费播放| 成人高清在线| 欧美老少配视频| 新片速递亚洲合集欧美合集| 91精品国产综合久久久久久蜜臀 | 黄色国产一级视频| 日韩av在线免费观看不卡| 伊人国产精品视频| 91在线视频网址| 欧美视频一区二区在线| 午夜成人免费视频| 一级特黄aaa| 亚洲第一视频在线观看| yw在线观看| 午夜精品久久久久久久久久久久 | 欧美v日韩v国产v| 牛牛澡牛牛爽一区二区| 久久躁狠狠躁夜夜爽| 345成人影院| 9a蜜桃久久久久久免费| 国产精品手机在线播放| 日本aa在线观看| 蜜臀久久久久久久| 日本少妇xxxx| 亚洲青青青在线视频| 成年人av网站| 亚洲国产精品va在线看黑人动漫| 在线视频自拍| 欧美最猛性xxxxx免费| 网站一区二区| 在线观看成人av| 美日韩精品视频| 伦理片一区二区| 亚洲另类在线一区| 国产精品51麻豆cm传媒| 国产视频欧美视频| 欧美亚洲系列| 成人免费福利在线| 日韩欧美中文| 欧美综合在线观看视频| 9色porny自拍视频一区二区| 黄色一级视频免费观看| 欧美日韩黄视频| 国产裸舞福利在线视频合集| 777777777亚洲妇女| 日本高清精品| 免费国产成人看片在线| 美腿丝袜亚洲综合| 内射中出日韩无国产剧情| 亚洲一区二区3| www.国产精品视频| 美乳少妇欧美精品| 91丨精品丨国产| 在线看视频不卡| 美女视频网站久久| www.日本高清视频| 91高清视频在线| 国产中文字幕在线视频| 欧美在线视频导航| 亚洲区小说区图片区qvod| 国产素人在线观看| 99热在这里有精品免费| 国产稀缺真实呦乱在线| 精品久久久久香蕉网| 第一中文字幕在线| 国产精品青青草| 一区视频在线看| 亚洲少妇18p| 欧美日韩亚洲系列| 欧美日韩视频精品二区| 欧美一区二区视频97| 国产欧美日韩影院| 天堂网在线免费观看| 中文字幕免费在线观看视频一区| 中文字幕av无码一区二区三区| 最新亚洲国产精品| 中文成人在线| 日本人妻伦在线中文字幕| 成人免费视频视频| 一级黄色大片视频| 搡老女人一区二区三区视频tv| 国产精品**亚洲精品| 国产91视频一区| aaa亚洲精品| 久久久久久亚洲av无码专区| 国产一区二区三区精品久久久| 成人精品国产亚洲| 欧美日韩视频免费在线观看| 国产**成人网毛片九色| 国产成人精品a视频一区| 亚洲免费高清视频| 国内欧美日韩| 无码人妻少妇伦在线电影| 91网站在线播放| 亚洲一区二区人妻| 欧美疯狂性受xxxxx另类| 久久亚洲道色| 欧美男女交配视频| 亚洲最大的成人av| 男人久久精品| 成人午夜两性视频| 99精品视频网| 99re6热在线精品视频| 亚洲第一精品夜夜躁人人躁| 欧美电影免费观看网站| 成人在线观看www| 99国产精品视频免费观看| 久久久999久久久| 欧美夫妻性视频| 精品国产一区二区三区久久久樱花| 亚洲天堂av一区二区三区| 黑人精品xxx一区一二区| 欧美成人二区| 九色综合婷婷综合| 老司机一区二区| 国产污污视频在线观看| 色噜噜狠狠狠综合曰曰曰| 精品国产18久久久久久洗澡| 手机在线成人免费视频| 亚洲成av人片| 黄色av电影在线播放| 欧美日韩三区四区| 粉嫩久久99精品久久久久久夜| 蜜臀尤物一区二区三区直播|