GPT-6或要有生命了!MIT神作:一套神框架讓大模型“自己微調自己”,實驗已通過!超過GPT4.1! 原創
編輯 | 云昭
出品 | 51CTO技術棧(微信號:blog51cto)
在過去兩年,大語言模型幾乎定義了整個 AI 發展的節奏。但有個問題一直沒變:模型再強,也不會自己學習。每次要讓它掌握新知識,都必須人工投喂數據、重新訓練。
MIT 的研究團隊最近在 arXiv 上發布了一篇論文,提出并實測了一個框架 —— SEAL(Self-Adapting Language Models,自適應語言模型)。
圖片
炸裂之處在于,它能讓語言模型自己生成微調數據與更新指令,自行優化自己的權重。
這還沒完,一位X用戶還爆料這篇文章的部分作者,已經加入了OpenAI團隊,暗示了未來的GPT-6的走向:凍結權重時代結束了,如果GPT-6真的融合了這套機制,一個隨著世界變化而持續自我進化的模型,真的要來了!
部分 SEAL 論文的研究者目前已加入 OpenAI。這絕非巧合。
SEAL 的架構讓模型具備以下能力:
? 從新數據中實時學習
? 自我修復退化的知識
? 在多次會話之間形成持久的“記憶”
如果 GPT-6 真的整合了這些機制,它將不只是“使用信息”,而是會吸收信息。
一個能隨著世界變化而自我進化的模型,一個每天都在變得更好的系統。
這可能意味著——持續自學習 AI 的誕生,也是“凍結權重時代”的終結。
歡迎來到下一個時代。
圖片
不過小編在此聲明:此為推測,只代表一種可能。最終還是要看OpenAI如何出招。
論文地址:https://arxiv.org/abs/2506.10943
代碼也在計劃開源中:https://github.com/Continual-Intelligence
先來看看這套框架究竟厲害在哪里?
強如GPT-5,依舊是凍結模型
可能大家有一種錯覺,就是很多許多人誤以為GPT-5已實現連續學習,但事實并非如此。一位博主透露,自己每個月都需要為此解釋2-3次,來澄清:當前模型權重都是靜態的,無法實時更新。
圖片
它們能理解世界,但無法真正“更新自己”。如果要讓大模型每次適配新任務,都需要人工再微調一次。
而 SEAL 的目標,就是是讓模型擁有持續吸收與整合知識的能力。
SEAL 框架厲害之處:讓模型自我編輯指令
SEAL 的核心是「自我編輯(self-edit)」。
圖片
給定新的輸入,模型會產生自編輯——這一生成過程可能以不同的方式重構信息、指定優化超參數,或調用數據增強和基于梯度的更新工具。通過監督微調 (SFT),這些自編輯會產生持續的權重更新,從而實現持久的自適應。
簡單講,當模型遇到新信息時,它會自己生成一段“訓練指令”,告訴自己:
- 如何重組信息;
- 用哪些超參數優化;
- 是否生成新的合成樣本。
這些自我編輯會觸發一次監督微調(SFT),模型再根據任務表現,強化成功的編輯策略。(沒錯,還是通過強化學習的方法生成這些指令,并且以更新后的模型表現作為獎勵信號。)
圖片
SEAL 框架概覽:在每一次強化學習(RL)的外層循環中,模型會生成候選的“自我編輯”——也就是關于如何更新權重的指令。隨后,模型根據這些指令執行相應的權重更新,在下游任務上評估性能,并利用得到的獎勵信號來優化自我編輯的生成策略。
整個過程由一種輕量級強化學習算法 ReST-EM 控制,形成「生成 → 更新 → 評估 → 強化」的自學習閉環。
實驗結果:超過GPT4.1合成數據訓練、小樣本學習任務成功率高達72%
而且,這套框架已經成功在實驗任務中得到有效驗證。團隊進行了兩類任務的實驗。
1. 知識整合:讓模型從一段新文本中吸收事實性信息,使其在后續問答中無需原始文本也能正確回答相關問題。
圖片
2. 小樣本學習(Few-Shot Learning):在 ARC 基準測試的子集上,模型需從極少量示例中泛化,通過自主生成數據增強與訓練配置來解決抽象推理問題。
圖片
這兩項實驗任務表明,SEAL框架確實取得了最佳性能表現。
- 知識整合:兩輪自學后,準確率從 32.7% → 47.0%,甚至超過了 GPT-4.1 合成數據微調的模型。
圖片
- 小樣本學習:從 0% → 72.5%,模型學會自己選增強方式和超參。
圖片
這個任務的對比最為明顯。無自我編輯:0% 成功率,而未訓練自編輯:20%,而SEAL 完整訓練后:成功率竟然高達 72.5%。
很顯然,這套“自我編輯指令”的框架,奇跡般地讓模型真的學會了如何自我改進。
局限:災難性遺忘
新成果往往伴生著新問題。
論文中,團隊發現一個了一個棘手的問題,即反復自我編輯會導致災難性遺忘:學新任務的同時,舊知識可能被覆蓋。對此,研究者提出幾種潛在方案,如經驗回放、受限更新、表征疊加等。
圖片
下一步:自我演化智能體
MIT 團隊希望未來的模型能學會判斷:
“什么時候該更新,什么時候不該動。”
也就是說,模型會在推理中決定是否執行自我編輯,把臨時推理轉化為持久能力,為“會自己演化的智能體”鋪路。
寫在最后:GPT-6大概率會是什么樣?
大家希望AI可以自我進化,可以說是一個很古老的愿望了。而本文中,MIT的SEAL框架可以說讓這個愿望又向前推進了一步:模型可以自行根據外界變化自我編輯SFT指令,想想都有點恐怖。
模型直接從“被訓練的工具”化身“能自我訓練的系統”。怎么說呢?這是要搶“AI工程師”的飯碗嗎?
那么,OpenAI下一款的GPT-6什么進度呢?
按照OpenAI的發布節奏來看,大概率GPT-6至少也得明年一季度了。(今年夏天剛發的GPT-5。大版本的發布至少半年起。)
雖然,我們還不能確定,OpenAI最終會如何定義GPT-6的走向,但按照去年奧特曼的5級規劃來看,小編認為有兩種可能。
保守的結果,則是L3級別。即自主智能體。
AI 不只是回答問題,而是能在指令下自主行動(agent),處理一系列任務,可以調整策略、尋求幫助、完成較復雜/跨步驟的工作
激進點的話,GPT-6 可能的主打方向,就是奧特曼最近在采訪中時不時提到的:AI創造新知識。即“L4 Innovators”,創新者/發明者的角色。創新與創造性輸出,是這一階段的典型特征:
在沒有人類持續監督或指導的情況下,能提出新想法、發明新事物、解決未知領域的問題,能超出已有知識/訓練數據的范疇。
而這種超出已有知識/訓練數據的創造與創新已經跟本文討論的“自我演進”的SEAL框架了。
總之,拭目以待吧。AI全面超越人類的未來已經不遠了!
本文轉載自??51CTO技術棧??,作者:云昭

















