大模型“天梯賽”來了,讓Agent在Kaggle真實任務中進化|佐治亞理工、斯坦福開源
當前最強大的大語言模型(LLM)雖然代碼能力飛速發展,但在解決真實、復雜的機器學習工程(MLE)任務時,仍像是在進行一場“閉卷考試”。它們可以在單次嘗試中生成代碼,卻無法模擬人類工程師那樣,在反復的實驗、調試、反饋和優化中尋找最優解的真實工作流。
為了打破這一瓶頸,來自佐治亞理工學院和斯坦福大學的研究團隊正式推出了 MLE-Dojo,一個專為訓練和評測大模型智能體(LLM Agents)設計的“交互式武館”。它將LLM從靜態的“答題者”轉變為可以在一個包含200多個真實Kaggle競賽的環境中,不斷試錯、學習和進化的“機器學習工程師”。

MLE-Dojo是一個專為機器學習工程設計的綜合性Gym風格基準測試框架。與現有依賴靜態數據集或單次評估的基準不同,MLE-Dojo提供了一個完全可執行的交互式環境,讓AI智能體可以通過結構化的反饋循環,反復實驗、調試并優化解決方案 。
在MLE-Dojo的競技場上,團隊對當前八個頂尖的LLM進行了全面評測。
結果顯示,Gemini-2.5-Pro在綜合Elo評分中拔得頭籌,但即便是最強的模型,在自主生成長流程解決方案和高效解決復雜錯誤方面也仍然有提升空間 。
目前,團隊已將MLE-Dojo的框架、基準和排行榜完全開源,旨在推動社區共同創新,加速下一代自主機器學習智能體的到來 。
一起來看詳細內容。
現有問題與解決方法
團隊通過深入分析發現,盡管現在已有多個針對LLM代碼能力的基準,但它們普遍存在以下問題:
- 評測真空:現有基準大多是“靜態”的,無法模擬真實世界中機器學習工程師需要反復迭代、調試、驗證的動態工作流 。它們缺乏對持續實驗、結構化反饋吸收和高效資源管理等關鍵能力的考察 。
- 訓練缺失:大多數平臺缺乏交互式環境,不支持對智能體進行監督微調(SFT)或強化學習(RL)等高級訓練范式 。這極大地限制了開發更強大、更自主的AI智能體的可能性。
- 場景片面:許多基準只關注孤立的任務(如數據分析或可視化),未能捕捉到端到端機器學習流程的復雜性和內在聯系 。
為了填補這一空白,MLE-Dojo應運而生。它不僅僅是一個“考卷”,更是一個能讓AI智能體學習、成長和對戰的“練功房”和“競技場”。如下表所示,MLE-Dojo在交互性、訓練支持和任務廣度上全面超越了以往的基準。

△表1:MLE-Dojo與其他MLE智能體基準的比較
MLE-Dojo:一個給AI Agent的真實“練功房”
MLE-Dojo的核心是一個連接AI智能體和機器學習任務環境的標準化交互框架 。在這個框架中,智能體可以像人類工程師一樣,通過一系列動作來解決復雜的Kaggle競賽任務。
整個交互過程被建模為一個循環:智能體根據當前觀察(Observation)做出動作(Action),環境執行該動作后,返回新的觀察和相應的獎勵(Reward) 。

△圖4:MLE-Dojo框架概覽,展示了智能體與環境的交互循環
其主要貢獻和特點可以概括為:
- 全面的基準和框架:MLE-Dojo由超過200個真實的Kaggle競賽構成,覆蓋表格數據、計算機視覺(CV)、自然語言處理(NLP)等多個領域,為評估AI智能體提供了前所未有的廣度和深度 。其中150個任務用作訓練集,50個用作評估集 。
- 交互式可執行環境:它提供了一個Gym風格的交互環境,智能體可以調用一系列動作,如 request_info(請求任務信息)、validate_code(驗證和調試代碼)、execute_code(執行代碼并提交評估)等 。所有代碼都在一個安全的沙箱環境中執行 。
- 先進功能和精細化反饋:框架不僅能返回代碼執行結果,還能提供豐富的觀察信息,包括詳細的錯誤報告、數據集信息、交互歷史以及一個創新的**HumanRank獎勵分數 。該分數通過計算智能體在人類選手排行榜上的相對位置( s=1?p/N),提供了一個跨任務、標準化的性能指標 。
- 靈活性和可拓展性:MLE-Dojo提供了統一的數據格式,支持無縫拓展新的任務和比賽;同時提供了模塊化的接口,可以實現個性化的環境功能和交互方式。
八大頂尖LLM同臺競技,誰是Kaggle之王?
為了全面、公正地評估各大頂尖LLM的機器學習工程能力,研究團隊設計了一套多維度的綜合評測體系,而非依賴單一指標。
多維度綜合評測體系
- HumanRank Score (%):此指標衡量模型解決方案在真實人類Kaggle玩家排行榜中的相對位置,直觀反映了模型超越人類競爭者的百分比,是衡量絕對性能的核心標準 。
- Elo Rating:源自棋類比賽的評分系統,通過模型間的兩兩“對戰”結果來計算動態的相對實力排名。這清晰地揭示了模型之間的強弱關系和競爭格局 。
- AUP (Area Under the Performance Profile):該指標通過評估模型在多少比例的任務中能夠達到“最佳性能”的一定比例內,來衡量模型的魯棒性與一致性。AUP分數越高,表明模型在各種不同難度的任務上表現越穩定。
綜合性能對決
在這套嚴格的評測體系下,八大前沿LLM在50個評估任務上展開了激烈角逐。

△圖6 & 圖1:八大前沿LLM在MLE-Dojo上的Elo綜合評分及排名
Gemini-2.5-Pro綜合實力登頂:在最關鍵的Elo綜合評分中,Gemini-2.5-Pro展現出最強的競爭力,拔得頭籌 。在衡量絕對性能的HumanRank分數上,它同樣表現優異,例如在MLE-Lite任務集上超越了61.95%的人類選手 。
頂尖模型各有千秋:緊隨其后的是DeepSeek-R1和o3-mini等模型,它們同樣展現了作為機器學習智能體的強大實力和適應性,在各項指標中均名列前茅 。
深度分析:解碼冠軍策略
除了最終排名,MLE-Dojo的精細化數據還讓我們得以深入剖析每個模型的行為模式和“性格”。
行動策略與模型“性格”:
分析發現,不同模型展現出迥異的解題策略。
例如,表現優異的o3-mini策略非常“激進”,超過90%的動作都是直接執行代碼,展現出極高的自信 。
而gpt-4o則相當“保守”,僅有約20%的動作是直接執行,花費了大量時間在初步驗證上 。這種策略差異直接影響了它們的解題效率和最終表現。
失敗率與穩健性分析:如下圖所示,Gemini-2.5-Pro不僅性能領先,其在代碼驗證和執行中的總體失敗率也是最低的 ,這表明其生成的代碼不僅效果好,而且更加穩健可靠。相比之下,一些性能同樣不俗的模型卻伴隨著更高的失敗率 。

△圖12:各模型在任務中的平均失敗率,Gemini-2.5-Pro的總體失敗率最低
- 解題深度與復雜性:研究還發現,表現更強的模型(尤其是推理模型)通常能生成更長、更復雜的解決方案,并且其完整的交互歷史也更長 。這表明它們能夠進行更深入的思考和更復雜的多步推理,而不僅僅是給出簡單的代碼片段 。
- 性能與成本的權衡:強大的性能往往伴隨著高昂的計算成本。分析顯示,頂尖的推理模型通常需要更多的token消耗,成本也更高 。但有趣的是,也存在像DeepSeek-r1這樣,在實現有競爭力的性能的同時,展現出更高成本效益的潛力,這為未來模型的優化指明了方向 。
此項研究為評估和提升AI智能體的機器學習工程能力提供了一個強大的開源平臺。通過模擬真實世界的挑戰,并提供一個可以不斷學習和進化的環境,MLE-Dojo將推動AI從一個“解題工具”向一個真正的“自主工程師”邁進,并最終對整個科學研究和工程領域產生深遠影響。
項目主頁:https://mle-dojo.github.io/MLE-Dojo-page/
排行榜:https://huggingface.co/spaces/MLE-Dojo/Leaderboard
論文:https://arxiv.org/abs/2505.07782
Github:https://github.com/MLE-Dojo/MLE-Dojo



































