“無獎勵”也能超越強化學習?Meta新方法讓語言智能體自我成長 原創
如果有一天,一個語言智能體(Language Agent)能不依賴任何獎勵機制、沒有人工示范,就能通過“自己探索的結果”學得比模仿學習還好——這是不是有點像人類的“頓悟”?
Meta Superintelligence Labs 最近發布的新研究 《Early Experience》(早期經驗)正是這樣一種讓智能體“自我成長”的新方法。它在沒有獎勵、沒有強化學習(RL)主循環、甚至不依賴大規模人類示范的前提下,依然在 8 個任務環境中全面超越模仿學習(IL)。
這不是魔法,而是一次對智能體學習范式的根本重構。
一、AI 訓練的“中間地帶”:從模仿到自省
過去的語言智能體大多依賴兩種學習方式:
- 模仿學習(Imitation Learning, IL)——通過模仿專家行為進行學習,訓練快、成本低,但問題在于一旦遇到“沒見過”的場景(out-of-distribution),表現就會顯著下降。
- 強化學習(Reinforcement Learning, RL)——通過獎勵信號驅動模型優化,但需要可驗證的獎勵函數和穩定的環境——在復雜的 Web、API 或多工具協作場景中,這幾乎不現實。
而 Early Experience 選擇了一條“中間路徑”:
它像模仿學習一樣無需獎勵,但監督信號來自智能體自己行為的結果,而不是僅僅模仿專家動作。
換句話說,智能體不再只是“學別人怎么做”,而是“看自己做了什么,再反思哪里做得好”。

二、核心機制:讓智能體從后果中學習
Meta 的研究團隊在這一框架下提出了兩個關鍵策略:
1?? 隱式世界建模(Implicit World Modeling, IWM)
讓模型預測“下一步會發生什么”。 當智能體在一個狀態下采取某個行動后,它需要預測環境隨之變化的狀態。 這種方式逼迫模型建立對環境動態的理解,從而減少偏離策略(off-policy drift)的問題。
簡單來說:
模型學會了理解“自己的行為會帶來什么后果”,而不是機械地執行指令。
2?? 自我反思(Self-Reflection, SR)
在同一狀態下,模型會看到專家動作與自身動作的對比,然后嘗試解釋:
“為什么專家的動作更好?”
這些解釋來自真實的執行結果——也就是說,模型不僅比較,還會“反思”為什么會差。這種對比式的信號,用來進一步微調策略。
兩種方法的共同點是:
- 預算與模仿學習相同(訓練成本不變);
- 唯一不同是數據來源:不再收集更多專家示范,而是利用智能體自身生成的“未來狀態”。

三、八大環境驗證:平均提升近10個百分點
研究團隊在 8 個不同的語言智能體任務環境中進行了評估,包括:
- WebShop(網頁交易與導航)
- TravelPlanner(約束條件下的行程規劃)
- ScienceWorld(科學推理與實驗)
- ALFWorld(具身環境下的行動)
- Tau-Bench等多領域任務
結果令人驚訝:
Early Experience 平均在成功率上比模仿學習高出 +9.6,在分布外任務(OOD)上提升 +9.4。
更令人印象深刻的是,當相同的模型用于強化學習(GRPO)初始化時,最終性能還能再提升 +6.4,相比從模仿學習出發的強化學習,起點更高、收斂更快。
四、效率革命:1/8 的專家數據就能超越
一個實用價值極高的結果是:Early Experience 的數據效率極高。
在固定訓練預算下:
- 在WebShop中,只需1/8 的專家示范就能超越用滿量數據訓練的模仿學習;
- 在ALFWorld中,只用一半的示范數量就能追平;
- 隨著數據增多,優勢還會擴大。
這說明:智能體生成的“未來狀態”包含了傳統示范中沒有的監督信號。 換句話說,它能從錯誤中學得更多。
五、數據構建:從專家出發,但走自己的路
整個數據生成流程非常巧妙:
- 從少量專家示范出發,獲得一批“代表性狀態”;
- 智能體在這些狀態上提出不同的動作選擇;
- 執行這些動作并記錄結果——也就是“下一狀態”。
隨后:
- 對于IWM:生成三元組 ?state, action, next-state?,目標是預測下一個狀態;
- 對于SR:生成包含專家動作與多種替代動作及其結果的提示,讓模型解釋“為什么專家更好”。
這種自我生成的數據,使得智能體可以在無需額外獎勵或標注的情況下持續成長。
六、強化學習的角色:從“獎勵驅動”到“結果驅動”
雖然 Early Experience 被稱為“無獎勵訓練”,但它并不是強化學習的替代品。 它更像是強化學習的前奏。
研究者的策略是:
先用 Early Experience 做 reward-free 預訓練,再在有獎勵的環境中繼續強化學習。
由于初始策略比模仿學習更穩定、泛化更強,后續的強化學習在相同調度下能達到更高的上限。
這意味著:
- Early Experience 是IL 與 RL 之間的橋梁;
- 在缺乏獎勵信號的環境中,它能獨立工作;
- 在獎勵可用時,它能顯著提升強化學習的最終效果。
七、關鍵結論:智能體“學會思考”的第一步
這項研究帶來了幾個令人深思的結論:
- 無需獎勵的自我訓練也能實現性能提升,關鍵在于能否從“后果”中學習。
- IWM 與 SR兩種機制幫助模型形成環境動態理解與自我反思能力。
- 在 WebShop、TravelPlanner、ScienceWorld 等環境中,分別獲得+18.4、+15.0、+13.3的性能提升。
- 數據效率極高:1/8 的示范即可超越全量 IL,節省大量人工標注成本。
- 強化學習增強:以 Early Experience 初始化的 RL,比以 IL 初始化的 RL 最終成功率高+6.4。
這讓 Early Experience 成為了連接模仿學習與強化學習之間的“缺失環節”——一種兼顧自主性與穩定性的通用學習范式。
八、從研究到落地:智能體的下一階段
Meta 的這項工作不僅是學術上的突破,更具有實際落地意義。
在當下的 AI Agent 體系中,很多場景(如網頁交互、復雜工具鏈執行、科研助理)都難以獲得穩定的獎勵信號。Early Experience 為這類系統提供了一條可行的路徑——讓模型在無獎勵條件下持續改進。
它的兩個核心思想——
- 通過預測未來建立世界模型;
- 通過結果對比進行自我反思; 正好對應了人類認知發展的兩個階段:
“想象未來的后果” 與 “從錯誤中反思成長”。
這讓語言智能體第一次,真正具備了“從經驗中學習”的能力。
結語:當 AI 學會“后果自省”,智能體的邊界被重新定義
Early Experience 讓我們看到:智能體不一定要靠獎勵驅動成長,它可以靠結果反饋、靠反思機制、靠內化的世界模型。
這正如人類學習駕駛,不是因為每次操作有獎勵,而是因為我們通過觀察結果(剎不住車、轉彎太急)不斷修正。 當智能體擁有這種能力,它就離“真正的自主智能”更近一步。
?
本文轉載自??Halo咯咯?? 作者:基咯咯

















