精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

GPT-4o舉步維艱、Claude 3.7險勝,《超級馬里奧》成為了檢驗大模型的新試金石?

人工智能 新聞
最近,加州的一家實驗室 Hao labs 推出了「GamingAgent」項目,這是一項測試 AI 性能的新方法,專為實時動作游戲而構建。

一直以來,AI 領域的研究者都喜歡讓模型去挑戰那些人類熱衷的經典游戲,以此來檢驗 AI 的「智能程度」。

例如,在 Atari 游戲、圍棋(如 AlphaGo)或《星際爭霸》等環境中,游戲規則明確,邊界清晰,研究者可以精確控制變量(如難度、初始狀態、隨機性等),確保實驗的可重復性。而 AlphaGo 的勝利能直接證明其策略能力,是因為游戲的勝負、得分或任務完成度也天然提供了直觀的評估標準(如勝率、通關時間、得分高低),無需設計復雜的評價指標。

此前,有開發者用 AI 挑戰過經典之作《神奇寶貝》。這個游戲的畫風雖然簡單,但是身為策略游戲,其中包含的角色、屬性、戰術、體系等,都讓人類玩家感到「入門容易精通難」。一開始,AI 沒有任何的知識和經驗,只能夠隨機按下按鈕。但在五年的模擬游戲時間里,它在經歷中習得了更多能力。最終,AI 能夠抓住寶可夢,進化它們,并擊敗了道館館主。

當我們以為這已經算是高難度的時候,《超級馬里奧兄弟》再次刷新了大模型性能測試基準的上限。

最近,加州的一家實驗室 Hao labs 推出了「GamingAgent」項目,這是一項測試 AI 性能的新方法,專為實時動作游戲而構建。

項目地址:https://github.com/lmgame-org/GamingAgent

團隊采用了《超級馬里奧兄弟》等平臺游戲與《2048》、《俄羅斯方塊》等益智游戲,作為不同 AI 模型的試驗場。

圖片

GPT-4o 表現

圖片

Claude-3.7 表現

這是 Claude 3.7 在《俄羅斯方塊》中的表現:

Claude 3.7 表現最好

GPT-4o 舉步維艱

這次的一系列實驗并不是通過 1985 年版的《超級馬里奧兄弟》完成的,而是通過包含 GamingAgent 的模擬器完成的。

實驗室發現,這種獨特的游戲環境迫使每個模型設計復雜的操作和游戲策略,從而能夠考驗出它們的適應能力和解決問題的能力。

GamingAgent 模擬器為 AI 提供基本指令和游戲截圖,指令類似于:「如果附近有障礙物或敵人,請向左移動 / 跳躍以躲避。」然后 AI 通過 Python 代碼生成輸入,從而控制馬里奧。

在下圖的演示中,是四個大模型挑戰超級馬里奧兄弟 1-1 級的結果。Anthropic 的 Claude 3.7 表現最好,其次是 Claude 3.5。遺憾的是,谷歌的 Gemini 1.5 Pro 和 OpenAI 的 GPT-4o 表現不佳。

圖片

有趣的是,盡管 OpenAI 的 GPT-4o 等推理模型在大多數基準測試中總體表現更好,但在這種實時游戲場景中的表現卻不佳。這是因為推理模型的決策過程較慢,通常需要幾秒鐘才能確定如何行動。

另一方面,非推理模型在超級馬里奧兄弟游戲中表現更佳,因為時機就是一切,可以決定成敗。一秒鐘也能導致安全跳過和墜落然后「Game Over」之間的差別。

使用《超級馬里奧兄弟》之類的游戲來對 AI 進行基準測試并不是一個新想法。但畢竟游戲具備一些抽象性質,而且與現實世界的挑戰相比來說相對簡單,領域內的很多專家對其能否確定技術發展程度的價值表示擔憂。

換言之,上述測試未必能說明 Claude 3.7 和 GPT-4o 哪個更強大。

Andrej Karpathy 最近就陷入了「評估危機」:「我真不知道現在應該關注什么(AI)指標。簡而言之,我的反應是,我真的不知道這些模型現在有多好。」

截屏2025-03-07 10.57.00.png

而對于不斷推出的前沿模型來說,如何判斷性能更是個難題。

截屏2025-03-07 11.08.05.png

AI 的「評估危機」

我們該如何衡量大模型的性能提升?

與此同時,有業內人士從另外一個維度提出了對大模型性能提升方向的質疑。

 Hugging Face 的聯合創始人兼首席科學官 Thomas Wolf 周四在 X 平臺發文,表達了對 AI 未來的深切憂慮。他擔心在缺乏根本性研究突破的情況下,人工智能將淪為「服務器上的好好先生」。在他看來,當前的人工智能發展路徑難以培養出真正具備創造性思維的系統 —— 那種能夠摘取諾貝爾桂冠的突破性思考能力。

image.png

「人們常犯的錯誤是把牛頓或愛因斯坦簡單地視為優等生的放大版,仿佛天才只是把成績靠前的學生線性延伸出來的結果,」Wolf 寫道,「在數據中心里打造一個愛因斯坦,我們需要的不是一個萬事通,而是一個敢于提出前人未曾想到或不敢發問的問題的系統。」

這一觀點與 OpenAI 首席執行官奧特曼(Sam Altman)的說法形成鮮明對比,后者在今年早些時候撰文稱「超級智能」能「極大加速科學發現」。同樣,Anthropic 公司首席執行官 Dario Amodei 也預測,AI 將助力大多數癌癥的治療方案研發。

Wolf 認為當下 AI 的問題在于:它不能通過連接原本不相關的事實來創造新知識。即使擁有互聯網上的海量信息,現今的 AI 主要只是在填補人類已有知識之間的空白。

包括前谷歌工程師弗朗索瓦?喬萊(Fran?ois Chollet)在內的一些人工智能專家也表達了類似的觀點,他們認為 AI 雖能記憶推理模式,但難以針對全新情境產生真正的「新推理」。

Wolf 認為,AI 實驗室目前打造的只是「極其聽話的學生」,而非科學革命的締造者。當今的 AI 不被鼓勵質疑或提出可能與訓練數據相悖的想法,這使其僅能回答已知范圍內的問題。

「在數據中心里打造一個愛因斯坦,關鍵在于培養一個能提出前人未曾想到的問題的系統,」沃爾夫強調,「一個當所有教科書、專家和常識都持相反觀點時,仍會問『如果大家都錯了呢?』的系統。」

Wolf 指出,AI 領域的「評估危機」是問題的癥結所在。目前評估 AI 進步的標準大多由具有明確、顯而易見的「封閉式」答案的問題構成。

作為解決之道,Wolf 建議行業轉向能夠評估 AI 是否具備「大膽的反常規思考」、基于「微弱線索」提出普適性建議,以及提出能開辟「研究新徑」的「非顯而易見問題」的能力標準。

他承認,確定這種評估標準的具體形式是個難題,但認為這值得投入精力。

「科學的精髓在于提出正確問題并挑戰既有知識的能力,」Wolf 總結道,「我們不需要一個靠常識拿 A+ 的學生,而需要一個能看到并質疑所有人都忽略之處的 B 等生。」

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-03-04 08:40:00

AI游戲訓練

2013-03-19 09:54:26

公有云遷移云遷移工具亞馬遜Web服務

2012-03-27 14:22:25

云計算云安全

2025-08-06 05:00:00

2025-01-14 13:20:56

2025-04-08 02:26:00

2011-10-24 15:51:12

英特爾移動ARM

2013-01-13 11:26:20

Ubuntu手機系統Ubuntu手機

2024-09-06 13:00:29

2024-06-21 09:58:38

2018-01-10 07:08:18

寬帶運營商民營資本

2017-04-16 18:28:25

人工智能

2025-08-07 14:05:40

OpenAI大模型開源

2024-05-20 08:20:00

OpenAI模型

2024-06-21 09:51:17

2024-06-05 13:09:26

2024-06-28 18:13:05

2018-11-20 09:57:01

谷歌云計算開發者

2013-12-10 13:27:09

云計算

2024-11-04 08:40:00

點贊
收藏

51CTO技術棧公眾號

国产亚洲精品自在久久| 欧美精品成人在线| 三级黄色片免费观看| 污视频网站在线免费| 成人av在线一区二区三区| 日本精品一区二区三区在线播放视频| 永久免费毛片在线观看| 麻豆精品一区| 色婷婷av一区二区三区软件| 国产又粗又大又爽的视频| 天堂网在线观看视频| 久久91精品久久久久久秒播| 午夜精品国产精品大乳美女| 肉色超薄丝袜脚交69xx图片| 99精品中文字幕在线不卡| 日本韩国欧美国产| 男人添女人下部视频免费| 国产福利在线看| 成人性生交大片免费看中文| 国产精品专区一| 欧美日韩精品区| 欧美激情日韩| 中文字幕久热精品在线视频| 95视频在线观看| 伊人久久一区| 在线免费视频一区二区| av在线播放亚洲| av网站免费在线观看| 国产精品网站在线观看| 久久av一区二区三区亚洲| 99免费在线视频| 免费av成人在线| 欧美最顶级的aⅴ艳星| 精品少妇一二三区| 亚洲精品二区三区| 日韩小视频网址| 中文字幕免费在线看线人动作大片| 国内精品国产成人国产三级粉色| 91精品国产综合久久小美女| 国产自偷自偷免费一区 | a在线播放不卡| 波多野结衣精品久久| 国产免费的av| 精品一二线国产| 亲子乱一区二区三区电影| 国产乡下妇女做爰视频| 国产精品v日韩精品v欧美精品网站| 综合av色偷偷网| 老头老太做爰xxx视频| 国产成人1区| 亚洲欧美日韩直播| 日韩乱码人妻无码中文字幕久久| 欧美天堂社区| 日韩电影中文字幕av| 99久久人妻无码中文字幕系列| 亚洲国产欧美在线观看| 日韩久久久久久| 日本黄色www| 88久久精品| 精品久久国产老人久久综合| 欧美xxxxx少妇| 成人福利一区| 日韩av在线免费观看| 青青草视频成人| 国产一区99| 色老头一区二区三区| a在线视频播放观看免费观看| 亚洲综合自拍| 久久久久久久久久久国产| 久久精品免费在线| 亚洲少妇诱惑| 国产精品视频1区| 国产又大又粗又硬| 国产传媒日韩欧美成人| 国产一区二区不卡视频| 久久久久久青草| 国产精品视频yy9299一区| 亚洲一区三区电影在线观看| 久操视频在线免费播放| 亚洲一区二区免费视频| 免费黄色福利视频| yw.尤物在线精品视频| 制服丝袜亚洲色图| 一区二区三区四区影院| 久久综合影院| 久久综合伊人77777尤物| 精品无码m3u8在线观看| 麻豆精品91| 国产日韩精品在线观看| 国产香蕉在线观看| 国产欧美日本一区二区三区| 成人黄色片免费| 欧美电影免费观看| 91精品国产综合久久婷婷香蕉| 一级黄色电影片| 精品视频免费在线观看| 欧美另类精品xxxx孕妇| 亚洲欧美一区二区三区在线观看| 精品一区免费av| 精品久久久久久综合日本| av一区在线观看| 午夜影院久久久| 九九九九九国产| 欧美亚洲国产日韩| 另类少妇人与禽zozz0性伦| 欧美精品二区三区| 国产精品一区二区免费不卡| 久久伊人一区二区| 97超碰资源站在线观看| 欧美在线免费视屏| 精品人妻二区中文字幕| 成人精品电影| 91精品国产免费久久久久久 | 午夜精品一区二区在线观看的| 色图在线观看| 欧美视频你懂的| 国产精品一区二区入口九绯色| 一区二区不卡| 国产精品十八以下禁看| 青青草手机在线| 亚洲高清免费在线| 国产福利精品一区二区三区| 国产欧美日韩精品高清二区综合区| 欧美国产高跟鞋裸体秀xxxhd| 中文字幕在线网址| 久久综合九色综合97婷婷| 妞干网在线播放| 欧美不卡在线观看| 日韩专区在线播放| 午夜视频网站在线观看| 久久久久久久久久久黄色| 免费超爽大片黄| 亚洲啊v在线免费视频| 日韩一区二区精品视频| 天天射天天干天天| 91一区一区三区| 妞干网在线视频观看| 少妇精品在线| 欧美不卡视频一区发布| 国产伦精品一区二区三区免.费| 国产欧美一区二区精品秋霞影院| 欧美日韩激情视频在线观看| 久久亚洲道色| 国语自产精品视频在线看一大j8 | 午夜视频网站在线观看| 国产日韩欧美一区二区三区乱码 | 一级毛片久久久| 日韩精品亚洲元码| 国产区在线观看视频| 99国产精品久久久| 国产二区视频在线播放| 色婷婷精品视频| 国产成人97精品免费看片| 久青青在线观看视频国产| 在线观看日韩毛片| 免费看黄色三级| 精品一区中文字幕| 大陆极品少妇内射aaaaaa| 91精品尤物| 亚州成人av在线| 久久国产精品高清一区二区三区| 色八戒一区二区三区| 高清国产在线观看| 久久99国产精品尤物| 99亚洲精品视频| 综合激情网...| 欧美在线亚洲一区| a黄色在线观看| 欧美一级午夜免费电影| 免费在线观看黄视频| 99re视频精品| 性欧美videossex精品| 羞羞色午夜精品一区二区三区| 亚洲a∨日韩av高清在线观看| 久久青青色综合| 亚洲美女www午夜| 中文字幕日本人妻久久久免费 | 国产精品.www| 久久九九久精品国产免费直播| 91国内在线播放| 亚洲午夜一区| 日本不卡一区二区三区视频| 四虎影视成人精品国库在线观看| 欧美多人乱p欧美4p久久| 欧洲亚洲精品视频| 欧美一卡在线观看| 看片网址国产福利av中文字幕| 国产女同互慰高潮91漫画| 毛片毛片毛片毛片毛| 亚洲综合二区| 中文字幕一区二区三区精彩视频| 国产精品15p| 国产精品久久在线观看| 国产丝袜在线播放| 伊人久久久久久久久久久久久| 国产福利第一页| 欧美视频专区一二在线观看| 国产精品久久久免费看| 播五月开心婷婷综合| 亚洲视频一二三四| 国产午夜久久| 中文字幕色呦呦| 久久99免费视频| 99视频在线播放| 成人国产精品入口免费视频| 久久久综合免费视频| 求av网址在线观看| 亚洲精品资源美女情侣酒店| 99国产精品久久久久99打野战| 日韩欧美黄色动漫| 国产无遮挡裸体免费视频| 中文字幕一区二区日韩精品绯色| 中文成人无字幕乱码精品区| 极品美女销魂一区二区三区免费| 国产aaa一级片| 影音先锋中文字幕一区| 97超碰免费观看| 欧美一区2区| 老牛影视免费一区二区| baoyu135国产精品免费| 成人国产精品久久久久久亚洲| 色豆豆成人网| 欧美一区二区三区四区在线| 欧美家庭影院| 久久夜色撩人精品| 伊人在线视频| 亚洲无亚洲人成网站77777| 五月婷婷六月激情| 精品国产乱码久久久久久免费| 999国产精品视频免费| 欧美日本免费一区二区三区| 亚洲 国产 日韩 欧美| 欧美日韩性视频| 亚洲精品77777| 亚洲h精品动漫在线观看| 久久久久亚洲AV成人| 亚洲人成网站影音先锋播放| 五月天婷婷丁香网| 国产精品丝袜久久久久久app| 中文字幕成人动漫| 久久九九全国免费| 国产jjizz一区二区三区视频| 久久久精品中文字幕麻豆发布| 中文字幕xxx| 久久综合国产精品| 国产福利短视频| 久久看人人爽人人| 国产女主播喷水高潮网红在线| 久久久久久久久久电影| 欧美做受高潮6| 欧美激情一区二区三区| 国产人与禽zoz0性伦| 国产精品毛片久久久久久久| 性生交大片免费全黄| 亚洲欧洲av在线| 日日骚一区二区三区| 一区二区三区在线观看欧美| 国产一级生活片| 午夜天堂影视香蕉久久| 日韩特级黄色片| 日本精品一区二区三区四区的功能| 国产91av在线播放| 欧美日韩mp4| 不卡视频在线播放| 亚洲国产精品成人精品| 五月婷在线视频| 亚洲天堂成人在线| 毛片激情在线观看| 久99久在线视频| 伊人成综合网站| 国产精品一区av| 日韩中文字幕视频网| 久久一区二区精品| 久久免费av| 国产妇女馒头高清泬20p多| 亚洲欧美视频一区二区三区| 欧美午夜性生活| 国产成人日日夜夜| 成年人在线观看av| 中文字幕第一区二区| 69av.com| 一本色道综合亚洲| 国产精品欧美激情在线| 亚洲国产精品美女| av在线电影播放| 欧美激情国产日韩精品一区18| 亚洲啊v在线| 91在线视频精品| 色吊丝一区二区| 欧美日韩视频免费在线观看| 99精品国产福利在线观看免费 | 国产精品一区一区| 一级性生活毛片| 亚洲少妇屁股交4| www成人在线| 日韩一卡二卡三卡四卡| 国产小视频福利在线| 欧美国产视频一区二区| 日本美女久久| 国产精品伊人日日| 成人在线电影在线观看视频| 免费cad大片在线观看| 日韩中文欧美在线| 亚洲视频 中文字幕| 亚洲欧洲一区二区三区| 6080午夜伦理| 精品久久久久久久人人人人传媒 | 91亚洲精品久久久蜜桃借种| 99视频在线精品| 亚洲综合网在线| 欧美在线观看视频一区二区 | 国产亚洲自拍一区| 精品亚洲永久免费| 欧美精品在线观看一区二区| 男女网站在线观看| 午夜精品久久久久久久99黑人 | 鲁鲁狠狠狠7777一区二区| 午夜视频精品| 四虎成人在线播放| 国产精品日日摸夜夜摸av| 波多野结衣50连登视频| 亚洲小少妇裸体bbw| 国产精品视频导航| 亚洲va久久| 青青草视频在线免费播放| 国产精品一区二区黑丝| 国产一区第一页| 欧美在线综合视频| 蜜桃视频在线观看视频| 91国在线精品国内播放 | 国产区一区二区| 午夜天堂精品久久久久| 亚洲高清视频免费| 中文字幕乱码亚洲精品一区| 一级片在线观看免费| 精品亚洲一区二区三区在线播放| tube8在线hd| 国产精品v欧美精品∨日韩| 这里只有精品在线| 久久精品久久99| 国产精品国产三级国产有无不卡| 国产天堂第一区| 中文字幕日韩在线播放| 成人在线高清| 在线观看欧美亚洲| 精品在线一区二区| 熟女av一区二区| 欧美一级免费大片| 三级福利片在线观看| 99www免费人成精品| 亚洲一本视频| jizz欧美性20| 日本高清免费不卡视频| 成人综合影院| 91精品国产自产在线老师啪| 国产大片一区| 一级片黄色免费| 一区二区三区在线视频观看58| 亚洲av无码国产精品永久一区| 欧美日韩福利电影| 女仆av观看一区| 亚洲成熟丰满熟妇高潮xxxxx| 国产人成一区二区三区影院| 亚洲中文字幕在线观看| 久久亚洲欧美日韩精品专区| 亚洲一区二区三区四区电影 | 久久99久久精品| 男人的天堂久久久| 亚洲精品国产福利| 日韩欧美精品电影| 一级日韩一区在线观看| 国产剧情av麻豆香蕉精品| 日本在线视频免费观看| 亚洲欧美日韩综合| 最新亚洲国产| 无码粉嫩虎白一线天在线观看 | 国产白丝网站精品污在线入口| 国产一级大片在线观看| 亚洲精品一区久久久久久| 亚洲电影有码| 香港三级日本三级a视频| 久久蜜桃av一区二区天堂| 91激情在线观看| 午夜精品免费视频| 日韩精品不卡一区二区| 无码人妻丰满熟妇区毛片蜜桃精品| 欧美日韩亚洲天堂| 麻豆视频在线播放| 国产精品久久久久久久天堂第1集| 久久精品观看| 国产1区2区3区4区| 亚洲欧洲国产精品| 日韩免费成人| 91色国产在线| 亚洲福利一区二区三区| 日本黄色片在线观看| 久久狠狠久久综合桃花| 精彩视频一区二区三区| 伦av综合一区| 欧美国产极速在线|