0人工參與實現梯度更新！MIT新框架讓AI自動生成微調數據，權重自主升級

2025-10-14 13:51:33

人工智能新聞

MIT提出一種新的強化學習框架，讓模型生成微調數據和自我更新指令，實現模型權重的更新。

大模型終于學會更新自己了！

MIT提出一種新的強化學習框架，讓模型生成微調數據和自我更新指令，實現模型權重的更新。

無需人工參與，模型就可以自動進行梯度更新，自主學習獲取新知識或適應新任務。

該框架名為SEAL（Self-Adapting LLMs），是一種內外兩層嵌套的學習機制。

這種機制下，會根據更新后的模型在任務上的表現計算獎勵，進一步優化自我更新指令的生成策略。

SEAL首次在權重層面賦予了大模型自我驅動的更新能力，擺脫了完全依賴外部監督數據的局限。

模型自動學習知識更新策略

SEAL在論文中通過兩個主要實驗任務驗證其效果，分別是知識注入（knowledge incorporation）和小樣本學習（few-shot learning）。

這兩類任務分別對應模型進化中的兩種基本情境——記住新知識，以及快速適應新任務。

知識注入

在知識注入實驗中，研究者使用了Qwen2.5-7B模型和SQuAD數據集中的段落及對應問題。

每輪訓練開始時，模型接收到一個新的段落作為輸入上下文，但不會看到與之配套的問題答案。

模型首先根據這段輸入生成訓練數據，然后使用LoRA進行一次小規模微調，該過程僅基于生成后的數據，不包括原始段落或問題。

微調完成后，模型會在下游任務上接受評估，需要在沒有原始段落作為輸入的情況下，回答多個與該段落相關的問題。

實驗對比了以下幾種方案：

僅用原始段落微調；
使用GPT-4.1生成的implication句子輔助訓練；
用SEAL自身生成的數據微調。

在單段落場景下，Qwen原始模型的準確率為32.7%，使用原文微調提升至33.5%；加入GPT-4.1合成數據后達到46.3%；而使用SEAL方法進行微調后，準確率進一步提升至47.0%。

這說明SEAL不僅優于使用原文或非優化的生成數據，甚至能超越由GPT-4.1生成的高質量提示數據，表現出較強的知識整合能力。

此外，研究者還使用了篇幅更長的段落進行了測試，包括200段落和完整SQuAD驗證集（2067段落），SEAL在200段落設置下達到了58.2%的準確率，顯著高于未優化版本，說明SEAL可以泛化到更大規模的數據整理任務。

小樣本學習

在小樣本學習實驗中，研究者使用LLaMA-3.2-1B-Instruct模型和ARC-AGI數據集中經過篩選的任務子集。

ARC任務通常包括若干個示例的圖形變換（以文本形式表達）輸入輸出對，目的是從中學習規律并對一個新輸入做出預測。

SEAL接收到這些示例后，不會直接推理，而是生成一個訓練配置，并執行LoRA微調，隨后模型在該任務的測試輸入上進行預測。

結果顯示，SEAL訓練出的策略使得任務成功率達到72.5%，遠高于僅使用固定few-shot提示的0%，也明顯優于隨機采樣策略下的20%。

雖然不及人工設定的最優策略（Oracle TTT）的100%，但作為由模型自主摸索出的學習路徑，這一成功率已充分說明SEAL具備較強的任務適應能力。

那么，SEAL框架是如何工作的呢？

雙循環系統自動生成訓練指令

SEAL的工作過程簡單說就是讀取新信息，用自己的語言重寫，并進行梯度更新，實際上是進行自主學習。

結構上，SEAL的整個系統由兩部分構成——一個強化學習驅動的外部循環和一個用于執行參數更新的內部循環。

在外層，模型面對一個新的輸入上下文（比如一段文本或任務示例），首先生成一條self-edit指令。

這是一段自然語言組成的“微調指令”，描述模型應如何基于當前輸入來更新自己，包括提取什么樣的信息、生成哪些訓練樣本、使用什么訓練參數（例如學習率、訓練輪數、損失函數策略）等。

這一行為本質上是模型在設計自己的訓練流程。

隨后進入內層，模型按照self-edit的指令，執行一次微調。

這一步會構造合成訓練數據，可能包括推理句、問答對、重述信息，或者針對任務的具體樣本變換，并以指定的優化策略進行權重更新。

更新后得到的新模型將被立即用于解決相應任務（比如回答相關問題或完成預測），評估其效果，得出一個表現評分。

這個評分（reward）反映了該self-edit對性能提升的效果，進而用于生成下一步的self-edit策略。

為了完成這個策略優化，SEAL使用的是一種非傳統的強化學習方法，稱為ReSTEM（Reinforcement Learning with Sampled Trajectories and Expert Mimicry）。

其關鍵思路不是直接對reward進行梯度回傳，而是采取一種行為克隆+過濾采樣的方式。

具體來說，在每個上下文中，模型會生成多個self-edit候選，每個候選會被分別應用，執行一次微調，得到一個新模型。

然后會對新模型在任務上的表現進行評估，只有帶來性能提升的self-edit才會被保留。

接著用這批“有效”的self-edit作為訓練數據，對生成策略進行一次有監督微調（行為克隆），然后反復迭代，使得模型越來越傾向于生成有效的self-edit。

ReSTEM本質上是一個期望最大化過程，相比PPO等策略梯度方法，ReSTEM結構更簡單，訓練更穩定，同時也更適用于大模型的生成行為學習任務。

通過這一套機制，SEAL實現了“學會如何讓自己學得更好”。

模型不僅能通過已有數據完成任務，更能主動設計訓練方式、構造訓練數據，并不斷通過反饋優化這種“自學習”的策略。最終表現為一種具備自我編輯與持續進化能力的語言模型結構。

論文地址：
https://arxiv.org/abs/2506.10943
項目主頁：
https://jyopari.github.io/posts/seal

責任編輯：張燕妮來源：量子位

AI 模型數據