GPT-6要「活」了?MIT新作曝光,AI「自進化」不遠了
人類距離能夠自主學習的AI又邁出了關鍵一步!
GPT-6是否有望成為第一個具備自主學習能力的大模型?

論文地址:https://arxiv.org/pdf/2506.10943
近日,麻省理工學院(MIT)提出了一種「自適應大語言模型(SEAL)」的框架,使大模型能夠具備自我調整與持續優化等能力。

網友VraserX在推薦這篇論文時,稱未來發布的GPT-6可能不僅更聰明,而且它還可能「活著」(在計算意義上)。
SEAL架構可以讓模型實時從新數據中學習、自我修復退化的知識、在多次會話之間形成持久的記憶……
所以如果GPT-6整合了SEAL這些能力,它將成為一個能隨時適應世界變化的模型,一個每天都在變得更好的系統。
這可能標志著自主學習AI的誕生,宣告凍結權重時代的終結。

社交媒體資料顯示,該論文作者之一的Ekin Akyürek在OpenAI工作,印證了網友VraserX關于「該論文部分作者現在在OpenAI工作的說法」。
這意味著GPT-6未來有可能成為首批采用SEAL框架的前沿大模型之一。
「自我編輯」讓大模型產生「自適應」能力
大模型的功能雖然強大,但這種強大往往是「靜態」的,無法根據新任務、新知識或新樣本而自動更新。
在SEAL框架下,當大模型遇到一個新輸入時,它會進行一次自我編輯(self-edit),生成一段文本,內容可能是怎樣重組已有信息、優化超參數,或調用什么工具來增強數據、更新模型。
然后,通過監督式微調(SFT),這些「自我編輯」會帶來持久的權重更新,從而讓模型具備長期適應能力。
為了訓練模型這種「自我編輯」能力,研究人員用強化學習(RL)構建了一個閉環系統:
模型更新后在下游任務中的表現,會被當作獎勵信號,改進其后續的「自我編輯」策略。
與以往那些額外加適配模塊或輔助網絡的方法不同,SEAL直接讓模型用自己的生成結果來控制它的學習方式。
這一機制使模型擺脫了以往「填鴨教育」的模式,讓它更像一個主動學習者。

為了改善大模型的適應性,研究人員主張賦予LLM在面對新輸入時生成自己的訓練數據與微調指令的能力。
具體來說,是通過強化學習算法,訓練 LLM 生成「自我編輯」(self-edits)——以自然語言指令的形式,指定用于更新模型權重的數據,并可選地給出優化超參數(如圖 1)。
研究人員將這種具備「自我編輯」能力的模型稱為自適應 LLM(SEAL)。
通過知識整合、少樣本學習任務來驗證SEAL的效果,研究人員發現SEAL可以讓大模型具備自我適應的潛力,朝著自我進化的方向前進。
與SEAL相關的研究
1. 合成數據
合成數據在訓練大模型時越來越常見,SEAL也是在這條思路上發展起來的。
但不同的是,以往的生成策略大多依賴人工調參或固定規則,而SEAL使用強化學習來自動優化生成策略,讓模型能夠生成在后續訓練中真正可以提升下游任務表現的數據。
2. 知識整合
近來的多項工作嘗試通過權重更新來修改或注入事實性知識,SEAL主張通過上下文來生成額外的微調數據,并在此基礎上通過強化學習讓模型學會生成更優的微調數據。
3. 測試時訓練
「測試時訓練」(Test-Time Training, TTT)指的是模型在推理時根據輸入動態更新部分權重,從而適應新任務。
研究發現,將TTT與上下文學習結合,可以在小樣本條件下表現更好。
SEAL的內部優化過程可以看作一種改進版的 TTT:它多次生成并更新權重,獎勵那些帶來最大性能提升的數據生成策略。
4. 強化學習
強化學習在提升大語言模型性能方面已被證明非常有效。
SEAL的創新之處在于它不是用RL來優化最終答案,而是用來訓練模型如何生成那些能用于自我更新的數據。
SEAL 的核心思想是「元學習」——也就是讓模型學會如何更好地學習,其優勢在于直接利用模型已有的生成能力來決定參數更新方式,從而具備更強的通用性。
5. 自我提升
近年來,許多研究開始探索模型如何自我提升。
比如,RLAIF 或自獎勵語言模型讓模型自己評估并獎勵自己的輸出,從而改進表現。也有方法通過模型的置信度或多數投票來指導強化學習。
但這些方法往往受限于模型當前的自我評估能力。
SEAL的做法不同:它把「自我提升」看作與外部數據交互的過程。
通過強化學習,SEAL學會如何最有效地利用這些外部數據,真正實現自我改進。
不直接教模型做任務
而是教它怎樣更有效地學習
在SEAL中,模型會根據輸入上下文(例如一段知識或幾個示例)生成一段合成數據,這段數據就叫「自我編輯」,然后模型再用這段數據微調自己。
整個生成過程通過強化學習訓練而來,隨著訓練推進,它就逐漸學會生成更有用的編輯。
因此,SEAL可以被解釋為包含兩層循環的算法:
- 外層循環用強化學習來優化「生成怎樣的自我編輯」;
- 內層循環則用生成的自我編輯微調模型,讓模型真正變得更強。
從這點來看,SEAL是一種元學習方法:它不是直接教模型做任務,而是教模型怎樣更有效地學習。
研究人員在知識整合與少樣本學習兩個領域對SEAL能力進行驗證。
知識整合

實例的目標是高效地將段落中提供的信息整合到模型權重中。
圖2顯示了SEAL在知識整合任務中的工作流程,包括Passage(輸入段落)、Self-Edit(自我編輯)、Evaluation(評估)。
少樣本學習

圖3顯示了SEAL在少樣本學習任務中的工作原理,包括Few-Shot Examples(少樣本示例)、Self-Edit(自我編輯)階段、SFT(監督微調)、Evaluation(評估)。

在該項實例中,研究人員通過Llama-3.2-1B-Instruct 進行實驗,并與ICL(上下文學習)、TTT + 自我編輯、Oracle TTT等基線進行對比,結果如表1所示:
SEAL顯著提升了適配成功率達到了72.5%,但其表現仍低于Oracle TTT,說明仍有改進空間。
據預測,到了2028年,前沿大模型將在所有公開可用的人類生成文本上完成訓練。
那時大模型的進步就不再依賴更多人類數據,而要靠自己創造新的學習材料——也就是要學會自身生成、提煉、改進知識。
在這樣的趨勢下,SEAL展示了一種新的可能:
大模型在預訓練后可以通過生成自己的合成自我編輯數據,并以輕量的權重更新來應用它們,使模型可以自主整合新知識、適應新任務。
研究人員希望將能SEAL擴展到更廣泛的領域——包括預訓練、持續學習和智能體系統,最終讓大模型可以在一個數據有限的世界中,真正實現自我學習與自我成長。
雖然在測試中,SEAL仍會出現「災難性遺忘」的問題,還存在著諸多局限,但SEAL的提出仍為未來前沿大模型實現自主學習、自進化提供了一條值得期待的新路徑。
也許未來在GPT-6上,我們就能看到這種自主學習的能力。
































