少即是多:LIMI 用 78 個樣本,重新定義智能體訓練效率 原創 精華
一、AI 模型訓練的“數據幻覺”
在人工智能領域,有一個近乎鐵律的共識:數據越多,模型越聰明。這條邏輯支撐了過去十年的 AI 爆發——從 GPT 到 Claude,再到 DeepSeek,所有巨頭都在堆算力、卷數據、拼參數。
但當 DeepSeek 以 1/30 成本訓練出高性能模型后,這條鐵律開始動搖。 如今,一篇來自 LIMI 團隊的新論文再次顛覆認知——他們僅用 78 個高質量訓練樣本,就讓模型在智能體評測中超越了使用 10,000 個樣本訓練的對手。
是的,你沒看錯:128 倍更少的數據,性能反而高出 53.7%。
這個研究的名字叫——LIMI:Less Is More for Intelligent Agency(少即是多的智能體訓練)。 而它提出的核心原則,或許將成為未來 AI 訓練的新范式:
“真正的智能,不源于數據的堆砌,而源于高質量的任務體驗。”

二、什么是“智能體”?
在深入 LIMI 之前,我們得先搞清楚“智能體(Agentic AI)”到底意味著什么。
過去的語言模型,只能“說”,不能“做”。 它們接收提示詞、生成回答,像是一個被動的智囊。
但智能體不同。它會主動思考、規劃、行動。 正如論文中定義的那樣:智能體是一種具備自主行動能力的 AI,可以主動發現問題、制定計劃、調用工具并與環境交互完成任務。
這意味著,它不再只是回答問題,而是能:
- 主動調試代碼;
- 自動完成數據分析任務;
- 自行規劃科研流程;
- 在遇到錯誤時進行自我修復。
舉個例子: 傳統模型像學生,等老師提問再作答; 智能體像工程師,能獨立接項目、寫代碼、調工具、修 bug,一條龍完成任務。
這正是當下 AI 從“對話型”向“執行型”演化的關鍵拐點。 而 LIMI,正是要解決——如何高效訓練出這樣的智能體?
三、為什么“更少的數據”反而更有效?
十幾年來,AI 領域一直信奉“Scaling Law”:模型參數越大、數據越多、性能越強。 但近幾年開始出現反例——尤其是在復雜推理與多步驟任務上,“更多”反而拖慢了模型學習的關鍵能力。
比如:
- LIMA (2023)表明,只需 1000 個高質量示例即可實現模型對齊;
- LIMO (2025)證明,用 817 個精心挑選的數學樣本,就能讓模型在復雜推理中提升 45.8%。
LIMI 則把這一理念推向極致。 它認為:學習“智能行為”不是記憶,而是體驗。
想象你學做菜。 看 10,000 個視頻,也許能背下每個菜譜; 但跟廚師實操一次,切菜、調味、試錯、修正,你才能真正“會做”。
AI 訓練也是如此。 LIMI 沒有用成千上萬條重復樣本,而是精挑出 78 條高質量的“完整任務體驗”——每條都涵蓋了從計劃、執行、到修正的全過程。 這讓模型學到的,不是孤立知識點,而是完整的解決問題思維鏈。
四、LIMI 的三大創新:用結構化體驗替代大規模樣本
LIMI 的突破,來自三個關鍵方法。
1. Agentic Query Synthesis:讓訓練任務更像真實協作
傳統訓練樣本通常是單輪問答或簡單任務。 LIMI 反其道而行,它模擬了真實開發者與研究者的協作場景。
- 從專業開發者與科學家的真實問題中采樣 60 條;
- 再利用 GPT-5 從 GitHub Pull Request 自動生成 18 條“偽真實”任務;
- 每個任務都要求模型進行多輪推理、工具調用與環境交互。
這讓訓練過程不再是填鴨式學習,而像在真實工作中積累經驗。
2. Trajectory Collection Protocol:記錄“全過程”的學習軌跡
每個任務不僅包括輸入與輸出,還完整記錄了模型思考、行動、反饋的全過程:
- 推理步驟(思維鏈)
- 工具調用(如代碼編輯、API 請求)
- 環境反饋(如報錯、用戶修改)
平均每條任務記錄 4.2 萬個 token,最長超過 15 萬。 這讓模型真正理解“行動邏輯”——什么時候思考、什么時候動手、遇錯如何修復。
3. Focus on High-Impact Domains:聚焦真實高價值場景
LIMI 并非泛化采樣,而是聚焦兩大高密度領域:
- Vibe Coding:多人協作開發、調試與測試;
- Research Workflows:科研任務,如論文檢索、實驗設計與數據分析。
這兩個領域的共性是:復雜度高、反饋密集、需要多步行動。因此每個樣本都極具信息密度,相當于一場高質量的“項目實戰”。
五、從 GitHub 到協作智能:數據集是怎么煉成的?

LIMI 數據集的構建過程堪稱“工藝級”:
- 任務池創建:從 GitHub 熱門項目中抽取真實 Pull Request,再經 GPT-5 轉化為結構化問題。
- 嚴格篩選:由 4 位博士級專家人工審核,確保語義完整與任務真實度。
- 交互生成:使用具備代碼執行與網頁訪問功能的 SII CLI 環境,讓 GPT-5 與人工協作完成任務,全程錄制交互軌跡。
最終留下的 78 個樣本,每一個都像一個完整的“項目案例庫”。 每條記錄濃縮了數小時的真實問題解決過程,信息密度遠超常規訓練樣本。

六、測試結果:78 個樣本干翻 10,000 個樣本的模型
在全新評測集 AgencyBench 上,LIMI 展現了驚人的性能:
模型 | 樣本量 | 性能分數 |
GLM-4.5 | 10,000 | 45.1% |
DeepSeek-V3.1 | 10,000 | 11.9% |
Kimi-K2 | 10,000 | 24.1% |
LIMI (78 樣本) | 78 | 73.5% |
在子指標上同樣碾壓:
- 首輪任務完成率:71.7% vs 37.8%
- 三輪內成功率:74.6% vs 47.4%
- 執行效率:74.2% vs 50.0%
更令人驚訝的是,LIMI 的泛化能力也極強—— 在代碼生成(HumanEval)、工具使用(TAU2-bench)、科研計算(SciCode)等多項任務中,LIMI 都刷新了記錄。
這說明,它學到的并非某類任務的套路,而是真正的“通用行動智能”。


七、案例對比:智能體的“實戰智商”
研究團隊還在論文中展示了幾個鮮明的案例:
- 五子棋游戲開發任務:傳統模型 GLM-4.5 無法完成棋盤渲染與勝負判斷;LIMI 一次性完成所有模塊。
- 數據集發現任務:LIMI 在 Hugging Face 上能精確找到最相關的數據集;而 GLM 輸出了無關內容。
- 科學函數擬合任務:GLM 需要多次提示才能達到誤差 1.14e-6,LIMI 首次嘗試就達到 5.95e-7。
- NBA 交易推理任務:LIMI 僅用一次提示即可得出正確推理路徑。
這些結果充分證明——LIMI 不僅“知道”,還“會做”。

八、“智能體效率原理”:AI 自主性的本質
LIMI 團隊在論文中提出了一個新概念:Agency Efficiency Principle(智能體效率原理)。 它指出:
“機器自主性,不是由數據量堆出來的,而是來自高質量行動演示的戰略性設計。”
這句話的意義深遠。 它告訴我們: 與其追求更多的樣本,不如去設計更有代表性的任務; 與其擴充數據規模,不如提升數據的“行動價值密度”。
換句話說,AI 的未來競爭,不再是誰爬取更多網頁,而是誰更懂“教模型做事”。
九、從“堆料”到“調味”:AI 訓練的新范式
LIMI 的出現,預示著 AI 訓練的一個重要拐點。
過去十年,AI 的進步靠“堆料”:堆數據、堆顯卡、堆參數。 但未來十年,將更像“調味”:精準選擇素材,合理設計任務,優化模型體驗。
這意味著:
- AI 開發的重心將從算力轉向認知設計;
- 高質量任務數據將成為新型競爭壁壘;
- 中小企業也能以低成本訓練高性能模型。
這是一場從“量”到“質”的范式轉移,可能徹底改變 AI 的生態格局。
十、寫在最后:AI,不需要“更大”,而需要“更聰明”
LIMI 的研究,用 78 個樣本告訴我們一個簡單卻深刻的道理——AI 不需要更多數據,它需要更好的學習體驗。
當模型從“被動輸出”變成“主動行動”, 當訓練從“堆疊樣本”變成“設計體驗”, 我們或許才真正踏上了“通用人工智能”的道路。
未來的 AI,不屬于擁有最多數據的公司, 而屬于那些最懂如何教機器思考和行動的人。
本文轉載自??Halo咯咯?? 作者:基咯咯

















