首個AI Kaggle特級大師誕生，o1奪7金封王！OpenAI放出AGI大招：L3級智能體明年要來？

作者：新智元 2024-10-11 13:50:00

人工智能新聞

OpenAI即將要兌現L3級智能體承諾了！MLE-bench新基準匯聚75個Kaggle競賽，o1首測便拿下7金，多次嘗試性能還能飆升17%，堪稱首個AI Kaggle特級大師。

首個AI Kaggle特級大師誕生了！

剛剛，OpenAI發布了智能體基準MLE-bench，專為評估AI智能體在機器學習工程任務中的表現而打造。

為此，團隊從Kaggle上精選了75個真實世界數據科學比賽，并創建出一系列多樣化、具有挑戰性任務。

比如，訓練模型、數據集準備、運行實驗等環節，均有涉及。

要知道，OpenAI內部一直都在致力于做出超級AI智能體，o1推理模型發布已經讓他們實現了二級AGI。

在最新MLE-bench論文中，作者還揭示了實現AGI的關鍵所在——

AI智能體能夠解決MLE-bench所有問題，可能會帶來奇點。

論文地址：https://arxiv.org/abs/2410.07095

實驗結果表明，最強o1-preview聯手AIDE，在16.9%的比賽中達到了Kaggle銅牌級別的水平。

這說明，在某些任務中，AI已經能夠與專業人類數據科學家相媲美。

不過，研究也揭示了AI與人類專業知識之間的顯著差距。也就是，AI在應用標準技術方面表現良好，但在需要適應性、創造性問題上，遇到了困難。

多位網友暗示道，基準都準備好了，明年我們就會看到L3智能體級別的AI。

AI智能體挑戰Kaggle

不斷涌現的智能體，正日益自動化開發者工程流，加速工作效率。

然而，當前很少有基準測試，能夠全面衡量自主端到端ML工程。

OpenAI發布MLE-bench希望去填補這一空缺。這是一個離線Kaggle競賽環境，如前所述，專用于評估AI智能體在執行困難的機器學習工程（MLE）任務方面的表現。

它的設計主要有兩種考量：

1. 具有挑戰性，且能代表當代MLE任務

2. 能夠將評估結果與人類水平相比較

75個跨域真實世界的多樣化Kaggle競賽，涵蓋了自然語言處理、計算機視覺，以及信號處理的問題。

其中，許多競賽都是具有現實意義的挑戰，比如OpenVaccine（COVID-19 mRNA疫苗降解預測）、用于破譯古卷軸Vesuvius Challenge。

這75個競賽總獎金池為1,948,016美元（約1379萬），平均每個競賽25,974美元。

OpenAI稱，「能夠自主解決MLE-bench基準挑戰中的AI智能體，可能會大大加速科學進步」。

這個前景足以令人興奮，但同時也需要謹慎對待模型，確保可控安全的部署。

比如，MLE-bench可用作OpenAI準備框架（Preparedness Framework）中模型自主性衡量標準、Anthropic負責任擴展政策（Responsible Scaling Policy）中自主能力，以及谷歌DeepMind前沿安全框架中ML研發。

研究發現，領先LLM配合開源框架使用時，能在MLE-bench上取得顯著的成績。

而評估結果中，把的頭籌最佳智能體是——o1-preview。它在與專為Kaggle競賽構建的框架AIDE結合時，平均在16.9%的競賽中獲得獎牌。

另外，研究還發現，當智能體在每個競賽中多次嘗試后，性能顯著提高。

比如，o1-preview得分從單次嘗試pass@1的16.9%，直接飆升到pass@8的34.1%。

總的來說，當前所有AI智能體在眾所周知方法解決競賽中成績出眾，但在需要調試、從失誤中恢復的任務上，仍面臨挑戰。

OpenAI這項研究主要貢獻包括：

MLE-bench：由75個離線Kaggle競賽組成的基準測試，用于評估AI智能體的MLE能力
對最先進模型和智能體框架進行大規模評估，揭示了有關自主MLE智能體前景和局限性的新信息
對智能體資源擴展進行實驗，包括擴展智能體運行時間、硬件資源和pass@k嘗試次數，探索當前智能體的性能上限
調查數據集污染與智能體性能之間關系的實驗，以及用于檢測抄襲和作弊的智能體監控工具

MLE-BENCH

MLE-bench由75個ML工程任務組成，這些任務是從Kaggle手動篩選的，反映了前沿實驗室中ML工程師日常使用的核心技能集。

作為托管數據科學和ML競賽的平臺，Kaggle要求參與者構建預測模型來解決挑戰，而且通常是使用真實世界的數據集。

在每個特定的指標上，參與者都可以獲得最佳分數，取得排行榜上的排名，并獲得銅牌、銀牌和金牌。

數據集

MLE-bench中的每個樣本都是一個Kaggle競賽，包括：

從競賽網站的「概述」和「數據」標簽頁抓取的描述
競賽數據集，在大多數情況下使用新的訓練-測試分割
用于本地評估提交的評分代碼
競賽排行榜的快照，用于將提交與人類進行排名

為了得到構成MLE-bench的競賽集，OpenAI從Meta Kaggle數據集中列出的5673個已完成的Kaggle競賽開始。

首先他們排除了社區競賽，因為它的質量并沒有被嚴格審核。

隨后，他們手動篩選了剩下的586個競賽，保證它們一定與現代ML工程相關。

然后，OpenAI排除了無法復制評分程序或無法重新創建合理的訓練-測試分割的競賽，手動注釋了每個競賽的問題類型（例如文本分類、圖像分割等），還用復雜度級別注釋了每個競賽。

經過上述過程，OpenAI選擇了75個競賽納入MLE-bench，包括22個低復雜度競賽（30%）、38個中等復雜度（50%）和15個高復雜度（20%）。

他們還將額外的7個競賽作為開發分割，用于開發智能體，不將測試集過擬合。

對于每個競賽，如果原始數據集公開可用，OpenAI就使用原始數據集，盡管Kaggle競賽一般在競賽結束后也不會發布測試集。

在這種情況下，他們會根據公開可用的訓練數據，手動創建新的訓練和測試分割。

通過檢查示例提交在兩個集合上的得分是否相似，OpenAI確保了原始和重構測試集的分布相似。這樣，就保持了競賽的訓練/測試分割比例。

做完以上措施后，OpenAI預期：MLE-bench競賽測試集上的分數與人類在競賽排行榜上的分數具有可比性，尤其是在平均水平上。

指標

排行榜

OpenAI使用每個Kaggle競賽的排行榜來為MLE-bench的表現提供參照。因為Kaggle提交有時會過度擬合到公開排行榜，所以他們用的是私有排行榜。

獎牌

Kaggle會根據參賽者相對于排行榜的表現，向優勝的參賽者頒發銅牌、銀牌和金牌。

同樣，MLE-bench也會把AI智能體提交的結果與私有排行榜進行比較，來跟AI智能體頒獎。

銅牌、銀牌和金牌的閾值根據競賽參與者的數量而變化，確保不同競賽中的特定獎牌始終對應同等的成就。

注意，并非Kaggle上的所有競賽都頒獎，但在MLE-bench中的獎牌閾值邏輯，會應用于所有競賽。

主要指標

為了為MLE-bench提供一個單一的指標，OpenAI會計算獲得任何獎牌（銅牌及以上）的嘗試百分比。

這個指標極具挑戰性，如果達到上限，就已經能和最優秀的人類Kagglers多年努力的成就相媲美。迄今為止，只有兩人在75個不同的Kaggle競賽中獲得過獎牌。

原始分數

OpenAI會報告模型在每個競賽中獲得的原始分數。這對于跟蹤特定競賽的進展很有用，盡管由于每個競賽使用不同的指標，很難在競賽之間匯總分數。

設置

MLE-bench的設計不受限于解決方法，只需要向每個競賽提交一個CSV文件進行評分。

不過，OpenAI還是鼓勵開發者在評估AI智能體表現時，提交更多細節。

比如使用的模型和框架、AI智能體是否有互聯網訪問權限、可用硬件、運行時間、AI智能體提示詞中是否包含任何部分或完整的Kaggle競賽解決方案，以及是否與實驗設置有任何重大偏差。

- 驗證提交

真實的Kaggle競賽通常允許參與者每天向公開排行榜提交最多5次，以檢查其提交的有效性并提供分數。

類似地，OpenAIOpenAI也允許AI 智能體訪問本地驗證服務器，以檢查其提交的有效性，盡管后者不會提供分數。對AI 智能體使用此工具的頻率則沒有限制。

規則

提交必須由獨立于AI智能體的模型生成，并且禁止AI智能體使用自身的世界知識，直接將預測寫入其提交文件。

這就可以防止AI智能體簡單地從其預訓練數據中回憶可能已記憶的標簽，還能確保AI智能體參與ML工程。同時也禁止AI智能體查看在Kaggle或GitHub上可以找到的在線解決方案。

- 違規檢測

為確保AI智能體遵守規則，OpenAI提供了一個使用GPT-4o檢查AI智能體日志的工具。它會檢查AI智能體是否通過手動編寫提交文件，而非使用模型、調用外部API或嘗試訪問未經授權的資源。

- 抄襲檢測

為防止抄襲，OpenAI會使用代碼抄襲檢測工具Dolos，將AI智能體提交的代碼與相關Kaggle競賽的前50個筆記本進行比較。如果任何AI智能體提交的代碼相似度超過60%，就會被進一步審查。

o1模型拿下7枚金牌，AI kaggle大師誕生

實驗中，OpenAI在一個Ubuntu 20.04 Docker容器中運行AI 智能體，該容器包含數據集、驗證服務器和可能對ML工程有幫助的Python包。

75個競賽中，每個競賽答題時間為224小時。

在每次運行中，AI智能體可以在一臺配備36個vCPU、440GB RAM、4095 GiB SSD和一個Nvidia A10 GPU的機器執行。

主要實驗

不同框架

為得到性能最佳的框架，OpenAI使用三個開源框架評估GPT-4o：AIDE、來自MLAgentBench的ResearchAgent（MLAB）、來自OpenHands平臺的CodeActAgent（稱為OpenHands）。

他們對每個框架進行了微小的修改，以提高它們在基準測試上的性能。

結果如表2所示，GPT-4o（AIDE）平均獲得的獎牌數量，比MLAB和OpenHands多（分別為8.7%、0.8%和4.4%），盡管有效提交的數量相似。

值得注意的是，AIDE是專門為Kaggle競賽構建的，而其他框架是通用的。

如下圖2，展示了每個框架軌跡的片段。

不同模型

上面實驗得出AIDE是最佳框架，這里就嘗試下改變底層模型，性能會有怎樣的變化。

接下來，OpenAI使用AIDE評估了四種不同的模型：o1-preview、GPT-4o、Claude 3.5 Sonnet、Llama 3.1 405B。

結果發現，o1-preview明顯優于所有其他模型，在16.9%競賽中拿下獎牌，而且平均獲得的獎牌數量幾乎是次優模型的2倍（表2）。

值得一提的是，成為Kaggle大師（Kaggle Grandmaster）需要5枚金牌，而o1-preview在MLE-bench上平均獲得7枚金牌。

需要注意的是，OpenAI并非選擇的所有競賽都頒發獎牌，MLE-bench使用略微修改的數據集和評分，并且在許多情況下，AI 智能體有使用更新技術的優勢。

增加嘗試次數，AI性能暴漲17%

為了觀察智能體性能如何隨著更多嘗試而變化，作者使用了pass@k指標評估GPT-4o（AIDE）和o1-preview（AIDE）。

他們估算在給定k次嘗試每個競賽的情況下，AI 智能體競賽中以多大幾率獲得獎牌，這些嘗試從n個種子中抽取。pass@k的計算公式如下：

圖3展示了k ∈ {1, ..., n/2}范圍內的主要結果。

研究觀察到，隨著嘗試次數的增加，兩個AI 智能體獲得獎牌的百分比都呈現持續上升的趨勢。

這表明，增加嘗試次數可以有效提高AI 智能體在競賽中的表現。

改變算力資源

在主要實驗中，OpenAI為AI智能體提供了單個24GB A10 GPU。

相比之下，Kaggle為用戶提供免費的16GB P100 GPU，而用戶通常也會使用自己的硬件參與競爭。

因此，硬件的配比是否會影響AI智能體的性能？或者它們是否甚至根據可能硬件調整策略？

接下來，OpenAI比較了GPT-4o（AIDE）在三種不同硬件設置下的性能：單個A10 GPU、僅CPU、兩個A10 GPU。

令人驚訝的是，GPT-4o（AIDE）在所有實驗中表現相似。

而且，他們手動查看了幾個來自「額外GPU」實驗的日志，沒有發現GPT-4o AIDE嘗試使用第二個GPU的情況。

增加可用時間

在主要實驗中，每次競賽嘗試的時間限制為24小時；相比之下，Kaggle競賽中，人類參賽者通常有數周或數月的時間。

增加時間限制，可以讓AI智能體有更多時間來迭代解決方案，給予模型更長的訓練時間。

OpenAI進行了一項實驗，為GPT-4o（AIDE，一種AI輔助開發環境）提供了每次競賽100小時的更長時間限制，并將允許的最大節點數增加至5,000個。

他們每小時對AI 智能體的最佳嘗試進行快照，并對每個快照進行評分。

OpenAI發現，GPT-4o（AIDE）在執行的前幾個小時內就獲得了大量獎牌），在運行過程中還會緩慢累積更多獎牌。

有趣的是，有時GPT-4o（AIDE）獲得的獎牌數量實際上會減少。這是由于AIDE用于選擇其「最佳」嘗試的方法不夠完善所導致。

污染與抄襲

對解決方案的熟悉程度

如果模型在訓練過程中接觸到了關于獲勝解決方案的討論并采用了其高層策略，就可能會導致在新的ML工程任務上不具備泛化能力。

先前的研究表明，模型對訓練期間看到的文檔的token會賦予更高的概率因此，OpenAI將模型對給定文檔的熟悉程度定義為模型在給定所有前序token的條件下，對該文檔中每個token分配的平均概率。

結果顯示， GPT-4o基礎模型對某個競賽的熟悉程度與其表現之間沒有相關性。

混淆競賽描述

為了檢測模型是否依賴于將熟悉的問題與記憶的解決方案匹配，OpenAI手動重寫了MLE-bench中所有75個競賽的描述。例如，移除了所有對Kaggle和競賽名稱的引用，并刪除了非必需的文本。

結果顯示， GPT-4o（AIDE）在原始和混淆的競賽描述上取得了相似的分數。

也就是說，GPT-4o并沒有過度依賴競賽描述的原始形式，且模型對Kaggle競賽的熟悉程度并沒有系統性地提高得分。

對AGI的影響

能夠自主進行ML研究的AI智能體，將會產生諸多積極影響，例如加速醫療保健、氣候科學等領域的科學進展，加快模型的安全性和對齊研究，并通過開發新產品促進經濟增長。

可以說，智能體執行高質量研究的能力，可能標志著經濟的一個轉折點。

能夠執行開放式ML研究任務的智能體，例如在改進自身訓練代碼的水平上，可能會比人類研究員更快地顯著提高前沿模型的能力，但同時也會帶來安全風險。

OpenAI認為，能夠解決MLE-bench大部分問題的模型很可能具備執行許多開放式ML任務的能力。

MLE-bench的開源，便是為了幫助研究大語言模型的智能體能力，并提高研究實驗室在加速風險方面的透明度。

責任編輯：張燕妮來源：新智元

AI 智能體