0人工參與實現梯度更新!MIT新框架讓AI自動生成微調數據,權重自主升級
大模型終于學會更新自己了!
MIT提出一種新的強化學習框架,讓模型生成微調數據和自我更新指令,實現模型權重的更新。
無需人工參與,模型就可以自動進行梯度更新,自主學習獲取新知識或適應新任務。
該框架名為SEAL(Self-Adapting LLMs),是一種內外兩層嵌套的學習機制。
這種機制下,會根據更新后的模型在任務上的表現計算獎勵,進一步優化自我更新指令的生成策略。
SEAL首次在權重層面賦予了大模型自我驅動的更新能力,擺脫了完全依賴外部監督數據的局限。
模型自動學習知識更新策略
SEAL在論文中通過兩個主要實驗任務驗證其效果,分別是知識注入(knowledge incorporation)和小樣本學習(few-shot learning)。
這兩類任務分別對應模型進化中的兩種基本情境——記住新知識,以及快速適應新任務。
知識注入
在知識注入實驗中,研究者使用了Qwen2.5-7B模型和SQuAD數據集中的段落及對應問題。
每輪訓練開始時,模型接收到一個新的段落作為輸入上下文,但不會看到與之配套的問題答案。
模型首先根據這段輸入生成訓練數據,然后使用LoRA進行一次小規模微調,該過程僅基于生成后的數據,不包括原始段落或問題。
微調完成后,模型會在下游任務上接受評估,需要在沒有原始段落作為輸入的情況下,回答多個與該段落相關的問題。

實驗對比了以下幾種方案:
- 僅用原始段落微調;
- 使用GPT-4.1生成的implication句子輔助訓練;
- 用SEAL自身生成的數據微調。
在單段落場景下,Qwen原始模型的準確率為32.7%,使用原文微調提升至33.5%;加入GPT-4.1合成數據后達到46.3%;而使用SEAL方法進行微調后,準確率進一步提升至47.0%。
這說明SEAL不僅優于使用原文或非優化的生成數據,甚至能超越由GPT-4.1生成的高質量提示數據,表現出較強的知識整合能力。

此外,研究者還使用了篇幅更長的段落進行了測試,包括200段落和完整SQuAD驗證集(2067段落),SEAL在200段落設置下達到了58.2%的準確率,顯著高于未優化版本,說明SEAL可以泛化到更大規模的數據整理任務。

小樣本學習
在小樣本學習實驗中,研究者使用LLaMA-3.2-1B-Instruct模型和ARC-AGI數據集中經過篩選的任務子集。
ARC任務通常包括若干個示例的圖形變換(以文本形式表達)輸入輸出對,目的是從中學習規律并對一個新輸入做出預測。

SEAL接收到這些示例后,不會直接推理,而是生成一個訓練配置,并執行LoRA微調,隨后模型在該任務的測試輸入上進行預測。

結果顯示,SEAL訓練出的策略使得任務成功率達到72.5%,遠高于僅使用固定few-shot提示的0%,也明顯優于隨機采樣策略下的20%。
雖然不及人工設定的最優策略(Oracle TTT)的100%,但作為由模型自主摸索出的學習路徑,這一成功率已充分說明SEAL具備較強的任務適應能力。

那么,SEAL框架是如何工作的呢?
雙循環系統自動生成訓練指令
SEAL的工作過程簡單說就是讀取新信息,用自己的語言重寫,并進行梯度更新,實際上是進行自主學習。
結構上,SEAL的整個系統由兩部分構成——一個強化學習驅動的外部循環和一個用于執行參數更新的內部循環。

在外層,模型面對一個新的輸入上下文(比如一段文本或任務示例),首先生成一條self-edit指令。
這是一段自然語言組成的“微調指令”,描述模型應如何基于當前輸入來更新自己,包括提取什么樣的信息、生成哪些訓練樣本、使用什么訓練參數(例如學習率、訓練輪數、損失函數策略)等。
這一行為本質上是模型在設計自己的訓練流程。
隨后進入內層,模型按照self-edit的指令,執行一次微調。
這一步會構造合成訓練數據,可能包括推理句、問答對、重述信息,或者針對任務的具體樣本變換,并以指定的優化策略進行權重更新。
更新后得到的新模型將被立即用于解決相應任務(比如回答相關問題或完成預測),評估其效果,得出一個表現評分。
這個評分(reward)反映了該self-edit對性能提升的效果,進而用于生成下一步的self-edit策略。
為了完成這個策略優化,SEAL使用的是一種非傳統的強化學習方法,稱為ReSTEM(Reinforcement Learning with Sampled Trajectories and Expert Mimicry)。

其關鍵思路不是直接對reward進行梯度回傳,而是采取一種行為克隆+過濾采樣的方式。
具體來說,在每個上下文中,模型會生成多個self-edit候選,每個候選會被分別應用,執行一次微調,得到一個新模型。
然后會對新模型在任務上的表現進行評估,只有帶來性能提升的self-edit才會被保留。
接著用這批“有效”的self-edit作為訓練數據,對生成策略進行一次有監督微調(行為克隆),然后反復迭代,使得模型越來越傾向于生成有效的self-edit。
ReSTEM本質上是一個期望最大化過程,相比PPO等策略梯度方法,ReSTEM結構更簡單,訓練更穩定,同時也更適用于大模型的生成行為學習任務。
通過這一套機制,SEAL實現了“學會如何讓自己學得更好”。
模型不僅能通過已有數據完成任務,更能主動設計訓練方式、構造訓練數據,并不斷通過反饋優化這種“自學習”的策略。最終表現為一種具備自我編輯與持續進化能力的語言模型結構。
論文地址:
https://arxiv.org/abs/2506.10943
項目主頁:
https://jyopari.github.io/posts/seal





























