精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

大模型“天梯賽”來了,讓Agent在Kaggle真實任務中進化|佐治亞理工、斯坦福開源

人工智能 新聞
來自佐治亞理工學院和斯坦福大學的研究團隊正式推出了 MLE-Dojo,一個專為訓練和評測大模型智能體(LLM Agents)設計的“交互式武館”。

當前最強大的大語言模型(LLM)雖然代碼能力飛速發展,但在解決真實、復雜的機器學習工程(MLE)任務時,仍像是在進行一場“閉卷考試”。它們可以在單次嘗試中生成代碼,卻無法模擬人類工程師那樣,在反復的實驗、調試、反饋和優化中尋找最優解的真實工作流。

為了打破這一瓶頸,來自佐治亞理工學院和斯坦福大學的研究團隊正式推出了 MLE-Dojo,一個專為訓練和評測大模型智能體(LLM Agents)設計的“交互式武館”。它將LLM從靜態的“答題者”轉變為可以在一個包含200多個真實Kaggle競賽的環境中,不斷試錯、學習和進化的“機器學習工程師”。

圖片

MLE-Dojo是一個專為機器學習工程設計的綜合性Gym風格基準測試框架。與現有依賴靜態數據集或單次評估的基準不同,MLE-Dojo提供了一個完全可執行的交互式環境,讓AI智能體可以通過結構化的反饋循環,反復實驗、調試并優化解決方案 。

在MLE-Dojo的競技場上,團隊對當前八個頂尖的LLM進行了全面評測。

結果顯示,Gemini-2.5-Pro在綜合Elo評分中拔得頭籌,但即便是最強的模型,在自主生成長流程解決方案和高效解決復雜錯誤方面也仍然有提升空間 。

目前,團隊已將MLE-Dojo的框架、基準和排行榜完全開源,旨在推動社區共同創新,加速下一代自主機器學習智能體的到來 。

一起來看詳細內容。

現有問題與解決方法

團隊通過深入分析發現,盡管現在已有多個針對LLM代碼能力的基準,但它們普遍存在以下問題:

  • 評測真空:現有基準大多是“靜態”的,無法模擬真實世界中機器學習工程師需要反復迭代、調試、驗證的動態工作流 。它們缺乏對持續實驗、結構化反饋吸收和高效資源管理等關鍵能力的考察 。
  • 訓練缺失:大多數平臺缺乏交互式環境,不支持對智能體進行監督微調(SFT)或強化學習(RL)等高級訓練范式 。這極大地限制了開發更強大、更自主的AI智能體的可能性。
  • 場景片面:許多基準只關注孤立的任務(如數據分析或可視化),未能捕捉到端到端機器學習流程的復雜性和內在聯系 。

為了填補這一空白,MLE-Dojo應運而生。它不僅僅是一個“考卷”,更是一個能讓AI智能體學習、成長和對戰的“練功房”和“競技場”。如下表所示,MLE-Dojo在交互性、訓練支持和任務廣度上全面超越了以往的基準。

圖片

△表1:MLE-Dojo與其他MLE智能體基準的比較

MLE-Dojo:一個給AI Agent的真實“練功房”

MLE-Dojo的核心是一個連接AI智能體機器學習任務環境的標準化交互框架 。在這個框架中,智能體可以像人類工程師一樣,通過一系列動作來解決復雜的Kaggle競賽任務。

整個交互過程被建模為一個循環:智能體根據當前觀察(Observation)做出動作(Action),環境執行該動作后,返回新的觀察和相應的獎勵(Reward) 。

圖片

△圖4:MLE-Dojo框架概覽,展示了智能體與環境的交互循環

其主要貢獻和特點可以概括為:

  • 全面的基準和框架:MLE-Dojo由超過200個真實的Kaggle競賽構成,覆蓋表格數據、計算機視覺(CV)、自然語言處理(NLP)等多個領域,為評估AI智能體提供了前所未有的廣度和深度 。其中150個任務用作訓練集,50個用作評估集 。
  • 交互式可執行環境:它提供了一個Gym風格的交互環境,智能體可以調用一系列動作,如 request_info(請求任務信息)、validate_code(驗證和調試代碼)、execute_code(執行代碼并提交評估)等 。所有代碼都在一個安全的沙箱環境中執行 。
  • 先進功能和精細化反饋:框架不僅能返回代碼執行結果,還能提供豐富的觀察信息,包括詳細的錯誤報告、數據集信息、交互歷史以及一個創新的**HumanRank獎勵分數 。該分數通過計算智能體在人類選手排行榜上的相對位置( s=1?p/N),提供了一個跨任務、標準化的性能指標 。
  • 靈活性和可拓展性:MLE-Dojo提供了統一的數據格式,支持無縫拓展新的任務和比賽;同時提供了模塊化的接口,可以實現個性化的環境功能和交互方式。

八大頂尖LLM同臺競技,誰是Kaggle之王?

為了全面、公正地評估各大頂尖LLM的機器學習工程能力,研究團隊設計了一套多維度的綜合評測體系,而非依賴單一指標。

多維度綜合評測體系

  • HumanRank Score (%):此指標衡量模型解決方案在真實人類Kaggle玩家排行榜中的相對位置,直觀反映了模型超越人類競爭者的百分比,是衡量絕對性能的核心標準 。
  • Elo Rating:源自棋類比賽的評分系統,通過模型間的兩兩“對戰”結果來計算動態的相對實力排名。這清晰地揭示了模型之間的強弱關系和競爭格局 。
  • AUP (Area Under the Performance Profile):該指標通過評估模型在多少比例的任務中能夠達到“最佳性能”的一定比例內,來衡量模型的魯棒性與一致性。AUP分數越高,表明模型在各種不同難度的任務上表現越穩定。

綜合性能對決

在這套嚴格的評測體系下,八大前沿LLM在50個評估任務上展開了激烈角逐。

圖片

△圖6 & 圖1:八大前沿LLM在MLE-Dojo上的Elo綜合評分及排名

Gemini-2.5-Pro綜合實力登頂:在最關鍵的Elo綜合評分中,Gemini-2.5-Pro展現出最強的競爭力,拔得頭籌 。在衡量絕對性能的HumanRank分數上,它同樣表現優異,例如在MLE-Lite任務集上超越了61.95%的人類選手 。

頂尖模型各有千秋:緊隨其后的是DeepSeek-R1和o3-mini等模型,它們同樣展現了作為機器學習智能體的強大實力和適應性,在各項指標中均名列前茅 。

深度分析:解碼冠軍策略

除了最終排名,MLE-Dojo的精細化數據還讓我們得以深入剖析每個模型的行為模式和“性格”。

行動策略與模型“性格”:

分析發現,不同模型展現出迥異的解題策略。

例如,表現優異的o3-mini策略非常“激進”,超過90%的動作都是直接執行代碼,展現出極高的自信 。

gpt-4o則相當“保守”,僅有約20%的動作是直接執行,花費了大量時間在初步驗證上 。這種策略差異直接影響了它們的解題效率和最終表現。

失敗率與穩健性分析:如下圖所示,Gemini-2.5-Pro不僅性能領先,其在代碼驗證和執行中的總體失敗率也是最低的 ,這表明其生成的代碼不僅效果好,而且更加穩健可靠。相比之下,一些性能同樣不俗的模型卻伴隨著更高的失敗率 。

圖片

△圖12:各模型在任務中的平均失敗率,Gemini-2.5-Pro的總體失敗率最低

  • 解題深度與復雜性:研究還發現,表現更強的模型(尤其是推理模型)通常能生成更長、更復雜的解決方案,并且其完整的交互歷史也更長 。這表明它們能夠進行更深入的思考和更復雜的多步推理,而不僅僅是給出簡單的代碼片段 。
  • 性能與成本的權衡:強大的性能往往伴隨著高昂的計算成本。分析顯示,頂尖的推理模型通常需要更多的token消耗,成本也更高 。但有趣的是,也存在像DeepSeek-r1這樣,在實現有競爭力的性能的同時,展現出更高成本效益的潛力,這為未來模型的優化指明了方向 。

此項研究為評估和提升AI智能體的機器學習工程能力提供了一個強大的開源平臺。通過模擬真實世界的挑戰,并提供一個可以不斷學習和進化的環境,MLE-Dojo將推動AI從一個“解題工具”向一個真正的“自主工程師”邁進,并最終對整個科學研究和工程領域產生深遠影響。

項目主頁:https://mle-dojo.github.io/MLE-Dojo-page/
排行榜:https://huggingface.co/spaces/MLE-Dojo/Leaderboard
論文:https://arxiv.org/abs/2505.07782
Github:https://github.com/MLE-Dojo/MLE-Dojo

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-11-07 16:04:25

AI模型智能體

2023-03-22 15:14:00

數據模型

2023-09-06 13:34:31

2025-07-21 11:51:12

模型AI工具

2025-01-14 12:22:10

2023-03-14 13:45:14

模型AI

2025-04-08 13:16:34

2023-10-20 12:17:57

AI數據

2023-03-15 10:26:00

模型開源

2022-10-08 12:38:23

模型開源

2024-05-07 13:24:54

2022-07-14 15:08:23

AI模型

2023-12-08 13:22:00

數據模型

2024-05-13 12:58:30

2021-03-31 10:28:11

GitHub 技術開源

2025-08-27 01:00:00

DSPyAI開發

2023-07-03 13:23:47

OpenChatOpenLLMChatGPT

2023-12-05 13:38:11

架構模型

2023-10-17 13:33:00

AI數據
點贊
收藏

51CTO技術棧公眾號

亚洲国产精品91| 暖暖日本在线观看| 中文一区在线| 尤物九九久久国产精品的特点| 不卡av免费在线| 黄网站在线免费| 高潮无码精品色欲av午夜福利| 经典三级一区二区| 亚洲视频在线一区二区| 国内一区二区在线视频观看| 国产真人无遮挡作爱免费视频| 久久精品影视| 亚洲美女视频网站| 中文字幕av一区二区三区人妻少妇| 国产va在线视频| 日韩一区在线看| 久久久一本精品99久久精品| 国产又粗又大又爽视频| 国产精品久久久免费| 丝袜情趣国产精品| 国产又粗又猛又色| 性欧美video另类hd尤物| 婷婷国产v国产偷v亚洲高清| 亚洲av首页在线| 国产黄色免费在线观看| k8久久久一区二区三区| 亚洲已满18点击进入在线看片| 9i精品福利一区二区三区| 黑丝一区二区| 欧美大尺度在线观看| 99精品欧美一区二区| 狼人精品一区二区三区在线| 日韩一区二区电影| 污污的视频免费观看| 91精品韩国| 欧美色xxxx| 国产自产在线视频| 日本三级在线观看网站| 亚洲欧洲中文日韩久久av乱码| 日本一区免费| 毛片免费在线播放| 99久久er热在这里只有精品15| 成人天堂噜噜噜| 欧美激情一区二区三区免费观看| 亚洲综合国产| 欧美一级淫片aaaaaaa视频| 久一区二区三区| 午夜性色一区二区三区免费视频| 日韩视频免费大全中文字幕| 精品无人区无码乱码毛片国产| 日本三级久久| 亚洲乱码一区av黑人高潮| 国产麻豆xxxvideo实拍| 国产无遮挡裸体免费久久| 欧美大肚乱孕交hd孕妇| 91视频免费入口| 亚洲综合色婷婷在线观看| 日韩一级二级三级精品视频| 青娱乐国产精品视频| 日韩成人在线观看视频| 欧美一级在线视频| 无码人妻久久一区二区三区蜜桃| 久久伊人久久| 亚洲а∨天堂久久精品喷水| 亚洲欧美日本一区| 国产亚洲电影| 日韩中文在线观看| 免费成人深夜夜行网站| 激情91久久| 欧美一二三视频| 亚洲天堂视频在线播放| 黄色小说综合网站| 粉嫩av一区二区三区免费观看| 黑人乱码一区二区三区av| 成av人片一区二区| 欧洲一区二区日韩在线视频观看免费| 国产天堂素人系列在线视频| 亚洲色图视频网站| 久草视频这里只有精品| 综合久久2023| 欧美精品成人一区二区三区四区| 中文字幕乱码在线人视频| 久久久久97| 一区二区欧美亚洲| 国产suv一区二区三区| 欧美深夜福利| 国产999精品久久久| 国产精品美女一区| 成人精品在线视频观看| 欧美一区二区高清在线观看| 日本韩国在线视频爽| 亚洲国产一二三| 亚洲性生活网站| 久久9999免费视频| 国产视频精品va久久久久久| 中文国语毛片高清视频| 亚洲高清自拍| 国产区精品在线观看| 亚洲爱情岛论坛永久| 久久久99精品免费观看| 免费在线精品视频| sis001欧美| 欧美一区二视频| 久久精品国产亚洲av久| 综合天堂av久久久久久久| 91精品国产91久久久久久不卡| 中文字幕第99页| av在线不卡观看免费观看| 亚洲午夜精品久久| 中文字幕 在线观看| 在线播放91灌醉迷j高跟美女| 国产一级二级在线观看| 欧美天天在线| 国产日韩av在线播放| 男女视频在线观看免费| 亚洲一区中文在线| 日韩av.com| 欧美丝袜一区| 欧美最猛性xxxxx免费| www.日本在线观看| 最新不卡av在线| 欧美伦理片在线观看| 杨幂一区二区三区免费看视频| 欧美另类在线观看| 国产一区二区三区视频免费观看| 久久精品水蜜桃av综合天堂| 精品少妇人欧美激情在线观看| 日本a人精品| 中文字幕精品在线| 亚洲成人av网址| 久久久美女艺术照精彩视频福利播放| 和岳每晚弄的高潮嗷嗷叫视频| 国产免费av国片精品草莓男男| 这里只有精品视频| 亚洲av无码精品一区二区| www.日韩av| 超碰成人免费在线| 97视频一区| 欧美国产日韩一区二区在线观看| 97精品人妻一区二区三区香蕉| 国产三级精品三级在线专区| 虎白女粉嫩尤物福利视频| 日本天堂一区| 清纯唯美日韩制服另类| 日韩精品系列| 色系网站成人免费| www在线观看免费视频| 久久一区激情| 日韩精品不卡| 色999久久久精品人人澡69| 中日韩美女免费视频网址在线观看| 波多野结衣不卡| 国产亚洲精品超碰| 一区二区三区网址| 97精品一区| 91在线直播亚洲| 四虎影视成人| 日韩av在线资源| 中文字幕视频网站| 国产天堂亚洲国产碰碰| 五月婷婷激情久久| 98精品久久久久久久| 96国产粉嫩美女| 里番在线播放| 亚洲精品乱码久久久久久金桔影视 | 亚洲国产精品无码观看久久| 极品束缚调教一区二区网站| 欧美一级电影免费在线观看| 国产在线视频你懂得| 欧美色老头old∨ideo| 日韩三级在线观看视频| 懂色av一区二区三区免费看| 免费av观看网址| 国产乱码精品一区二区亚洲| 国产美女主播一区| 成人免费网站在线观看视频| 精品剧情在线观看| 99精品人妻国产毛片| 中文字幕第一区第二区| 色黄视频免费看| 性感少妇一区| 一区二区视频在线播放| av男人一区| 日韩美女写真福利在线观看| 好操啊在线观看免费视频| 亚洲成人网在线| 久久这里只有精品9| 夜色激情一区二区| 亚洲精品色午夜无码专区日韩| 精品伊人久久久久7777人| 欧美日韩精品在线一区二区| 色综合色综合| 国产日韩三区| 亚洲精品自拍| 欧美又大又粗又长| 欧美人与禽性xxxxx杂性| 亚洲视频axxx| 黄色av网站免费在线观看| 欧美中文字幕亚洲一区二区va在线| 久久久久久久久毛片| 久久久一区二区三区| 人妻av一区二区三区| 麻豆freexxxx性91精品| 国产一级做a爰片久久毛片男| 精品免费在线| 国产精品一区二| 国产精品一区免费在线| 日本高清视频精品| 菠萝蜜视频在线观看www入口| 中文字幕视频一区二区在线有码| 污视频网站在线播放| 7777女厕盗摄久久久| 久久精品视频5| 亚洲大片一区二区三区| 亚洲天堂网av在线| 国产女主播视频一区二区| 中文成人无字幕乱码精品区| 国内久久精品视频| 欧美美女一级片| 久久青草久久| 一区二区传媒有限公司| 欧美午夜a级限制福利片| 美女黄色片网站| 手机在线一区二区三区| 日韩视频在线播放| 美女网站一区| 久久久com| 老司机成人在线| 国外成人免费视频| 国产精品任我爽爆在线播放| 91在线看网站| 视频一区日韩精品| 5566av亚洲| 免费精品一区二区三区在线观看| 国产在线拍揄自揄视频不卡99| 亚洲精品.com| 国产成人精品在线视频| 老司机成人影院| 国产91网红主播在线观看| 色吧亚洲日本| 欧美做爰性生交视频| 中文字幕一区久| 国产精品国产自产拍高清av水多 | 天天射综合影视| 国产精品18p| 亚洲午夜一二三区视频| 国产一级aa大片毛片| 亚洲一二三区不卡| 福利一区二区三区四区| 婷婷开心激情综合| 国产精品第5页| 在线这里只有精品| 中文有码在线播放| 欧美另类z0zxhd电影| 国产丝袜在线视频| 日韩视频在线永久播放| 丰满人妻一区二区| 亚洲精品wwwww| 天堂av中文在线资源库| 国产午夜精品视频| 自拍视频在线免费观看| 久久久www成人免费精品| 亚洲wwwww| 亚州av一区二区| 擼擼色在线看观看免费| 日韩av黄色在线观看| 久久天堂影院| 成人av免费在线看| 欧美五码在线| 樱花www成人免费视频| 国产精品videosex极品| 黄色网页免费在线观看| 蜜臀久久99精品久久久久宅男 | av一区二区三区在线| 蜜桃久久精品成人无码av| 中文字幕一区视频| 精品无码人妻一区二区三区品| 色综合天天视频在线观看| 中文在线字幕av| 日韩一区二区不卡| 精品成人一区二区三区免费视频| 久久精品国产亚洲7777| 超碰在线cao| 成人美女免费网站视频| 欧美一级二级三级视频| 亚洲一区综合| 一区二区三区四区五区精品视频| 99热手机在线| 国产黄人亚洲片| caopeng视频| 一区二区三区视频在线看| 亚洲欧美日韩激情| 日韩一区二区不卡| 风间由美一区| 国模吧一区二区三区| 免费一级欧美在线观看视频| 国产亚洲自拍偷拍| 久久在线视频| 成人在线免费在线观看| 国产剧情av麻豆香蕉精品| 中文字幕在线1| 亚洲在线一区二区三区| 日韩欧美国产另类| 亚洲国产日韩欧美综合久久| freemovies性欧美| 韩国三级电影久久久久久| 青青草国产一区二区三区| 久久婷婷人人澡人人喊人人爽| 亚洲最大黄网| 91欧美视频在线| 91蝌蚪porny成人天涯| 免费在线黄色片| 欧美裸体bbwbbwbbw| 黄色av免费在线看| 91国语精品自产拍在线观看性色 | 国产一区喷水| 自拍日韩欧美| 黄色aaaaaa| 中文字幕一区二区三| 国产乱码77777777| 亚洲精品乱码久久久久久按摩观| 女囚岛在线观看| 91在线免费视频| 午夜欧美在线| 鲁一鲁一鲁一鲁一av| 久久蜜桃一区二区| 国产又黄又爽又色| 亚洲丁香久久久| 国产蜜臀在线| 国产精品12| 国产一区二区三区自拍 | 久久久久久久久一| 五月天婷婷综合网| 亚洲黄色www| 国产直播在线| 久久久久久久久久久久久久久久av| 亚洲狼人精品一区二区三区| 无码国产精品一区二区免费式直播 | 蜜臀在线免费观看| 国产一区二区三区久久悠悠色av | 在线电影一区二区| 国产乱叫456| 亚洲精品一二三| 亚洲国产精品二区| 欧美黑人又粗大| 卡通动漫精品一区二区三区| 日韩欧美一区二| 99v久久综合狠狠综合久久| 午夜毛片在线观看| 亚洲人成欧美中文字幕| 成人免费网站www网站高清| 日韩尤物视频| 免费精品视频最新在线| 国产又粗又猛又爽又黄的视频小说| 欧美日本在线观看| a视频在线免费看| 国产精品午夜av在线| 新狼窝色av性久久久久久| 亚洲av毛片基地| 日韩亚洲欧美成人一区| 欧美人动性xxxxz0oz| 精品国产乱码久久久久久郑州公司 | 7777免费精品视频| 欧美日韩xxxx| 天天干天天玩天天操| 亚洲欧美日韩一区二区| 高清国产mv在线观看| 国产97色在线| 91久久电影| 国产精品一级无码| 福利视频导航一区| 在线日本中文字幕| dy888夜精品国产专区| 亚洲综合社区| 韩国一级黄色录像| 亚洲精品成人久久久| 久久久久黄色| 日韩a∨精品日韩在线观看| 久久久99精品免费观看不卡| 亚洲天堂中文字幕在线| 欧美夫妻性生活xx| 欧美激情久久久久久久久久久| 国产天堂在线播放| 一区二区三区日本| 黄色片在线播放| 亚洲综合第一页| 中日韩男男gay无套| 国产一区第一页| 亚洲国产私拍精品国模在线观看| 美女色狠狠久久| 日韩av在线播放不卡| 亚洲国产岛国毛片在线| 亚洲欧美国产高清va在线播放| 国产成人精品一区二区在线| 欧美96在线丨欧| 国产成人福利在线| 亚洲精品一区二区三区精华液| 成人四虎影院| 青青青免费在线| 亚洲黄色小说网站|