AI 也有長久記憶了!谷歌 Nested Learning 讓 AI 擁有持續(xù)學習的生命力
AI大模型,在預(yù)訓練階段吞下整個人類互聯(lián)網(wǎng)的知識,而在訓練結(jié)束后,幾乎喪失了形成新的長期記憶的能力。
而且,每當模型試圖學習新知識時,就會像覆蓋舊磁帶一樣,不可避免地損害甚至抹去已經(jīng)掌握的舊技能。
Google Research的幾位科學家,向全世界展示了他們的一項研究,直指這個AI領(lǐng)域最根本的難題之一。

他們的研究論文《Nested Learning: The Illusion of Deep Learning Architectures》(嵌套學習:深度學習架構(gòu)的幻覺),已提交給頂級會議NeurIPS 2025。

問題的根源:被割裂的架構(gòu)與算法
長期以來,為了緩解災(zāi)難性遺忘,研究者們兵分兩路。
一路人馬專注于調(diào)整模型架構(gòu),比如設(shè)計更精巧的記憶模塊。另一路人馬則致力于改進優(yōu)化算法,比如調(diào)整模型參數(shù)更新的規(guī)則。
這兩條路徑幾乎是獨立發(fā)展的,人們習慣性地將模型的結(jié)構(gòu)和訓練方法視為兩個獨立的組件。
這種碎片化的視角,雖然取得了一些進展,但始終未能從根本上解決問題。模型依然像一個靜態(tài)的知識庫,一旦定型,便難以生長。
Nested Learning(嵌套學習)的提出,旨在徹底打破這種認知框架。它認為,模型的架構(gòu)和優(yōu)化算法并非兩個獨立的東西,而是一個統(tǒng)一的、相互嵌套的系統(tǒng)。它們只是在不同層級上運行的優(yōu)化問題而已。
這個想法,為構(gòu)建一個能真正持續(xù)學習的AI,鋪設(shè)了全新的理論基石。
Nested Learning的核心思想極其精煉:一個復(fù)雜的機器學習模型,本質(zhì)上是一組相互嵌套或并行運行的優(yōu)化問題。
想象一下人腦是如何學習的。
我們對眼前事物的瞬時記憶,更新速度極快。為了應(yīng)付考試而進行的短期記憶,更新速度次之。而那些構(gòu)成我們世界觀、價值觀的長期知識,則更新得非常緩慢,需要長時間的鞏固。
人腦中并不存在一個統(tǒng)一的學習開關(guān),而是無數(shù)個學習過程在以不同的速度同時進行。
Nested Learning將這個洞察應(yīng)用到了AI上。它引入了一個關(guān)鍵概念:更新頻率(Update Frequency)。

模型中的任何一個組件,無論是權(quán)重參數(shù),還是優(yōu)化器中的動量項,都有自己的更新頻率。有些組件變得快,有些變得慢。這種快慢之分,自然形成了一種層級結(jié)構(gòu)。
比如,一個最簡單的梯度下降優(yōu)化過程,在Nested Learning的視角下,可以被重新理解為一個嵌套結(jié)構(gòu)。
外層,是模型參數(shù)W的學習。它的目標是找到最優(yōu)的W,以最小化在訓練數(shù)據(jù)上的損失。這是一個慢過程。
內(nèi)層,是權(quán)重更新規(guī)則本身。每一步更新,都可以看作一個微型的、獨立的優(yōu)化問題。它的目標是根據(jù)當前的梯度信息,最有效地調(diào)整W。這是一個快過程。
就連Adam這類高級優(yōu)化器里的動量項,也可以被看作是一個微型的關(guān)聯(lián)記憶模塊。它的任務(wù)只有一個:用梯度下降的方式,將過去一系列的梯度信息壓縮并存儲起來,供外層的參數(shù)學習使用。
所以,優(yōu)化器本身就是一個學習模塊。架構(gòu)與優(yōu)化,在這一刻實現(xiàn)了統(tǒng)一。
這個看似簡單的視角轉(zhuǎn)換,打開了一個全新的維度。如果優(yōu)化器本身就是個學習器,我們?yōu)槭裁床荒茏屗兊酶鼜姶蟆⒏钅兀?/span>
三大創(chuàng)造:從理論到可觸摸的AI實體
基于Nested Learning的統(tǒng)一框架,研究者們順理成章地提出了三大核心貢獻,將這一理論轉(zhuǎn)化為了具體的技術(shù)路徑。
首先是深度優(yōu)化器(Deep Optimizers)。
既然標準優(yōu)化器可以被看作是簡單的關(guān)聯(lián)記憶模塊,那么我們完全可以用一個更復(fù)雜的模型,比如一個小型神經(jīng)網(wǎng)絡(luò)(MLP),來替代它。這就誕生了所謂的深度動量梯度下降(DMGD)。這個深度的優(yōu)化器,擁有更強的表達能力,能更智能地學習如何利用歷史梯度信息來指導(dǎo)模型的訓練。
其次是自修改架構(gòu)(Self-Modifying Titans)。
研究者們將這一思想應(yīng)用于序列模型,對Google先前發(fā)布的Titans架構(gòu)進行了擴展。新的架構(gòu)不僅學習外部世界的知識,還學習如何學習。它能根據(jù)任務(wù)動態(tài)地調(diào)整自身的學習算法,包括注意力機制中的鍵、值、查詢投影等關(guān)鍵部分。這讓模型擁有了某種程度的自我意識,能夠在使用過程中不斷優(yōu)化自己的學習策略。
最后是連續(xù)記憶系統(tǒng)(Continuum Memory System, CMS)。
這徹底顛覆了傳統(tǒng)AI模型中短期記憶(如注意力)和長期記憶(如前饋網(wǎng)絡(luò))的二元劃分。CMS將記憶視為一個連續(xù)的光譜。
它由一系列神經(jīng)網(wǎng)絡(luò)塊(MLP blocks)鏈接而成,每個塊都關(guān)聯(lián)著一個特定的更新頻率。
更新最頻繁的塊,負責處理瞬息萬變的上下文信息,如同我們的工作記憶。
更新頻率稍慢的塊,負責整合一個階段內(nèi)的知識,形成中期記憶。
而更新最慢的塊,則負責將長期、穩(wěn)定、抽象的知識沉淀到參數(shù)中,形成模型的世界觀。
這種多速率的記憶系統(tǒng),使得模型可以在不干擾核心知識的情況下,靈活地吸收新信息,從而在根本上解決了災(zāi)難性遺忘問題。
HOPE架構(gòu):一個會呼吸的生命體
理論的價值,最終要由實踐來檢驗。
研究團隊將上述三大貢獻融為一體,構(gòu)建了一個全新的、基于Nested Learning原則的自引用學習模塊,并將其命名為HOPE(Hybrid Optimizer with Persistent Embedding)。
下圖清晰地展示了HOPE架構(gòu)與傳統(tǒng)Transformer架構(gòu)主干的差異。

傳統(tǒng)的Transformer,其前饋網(wǎng)絡(luò)層在訓練后基本是靜態(tài)的,負責存儲持久化的知識。而HOPE則為每一個記憶層級(對應(yīng)不同的更新頻率)都配備了專屬的前饋網(wǎng)絡(luò),形成了一個多層次、動態(tài)更新的知識存儲系統(tǒng)。
這讓HOPE架構(gòu)看起來更像一個有生命的組織,擁有不同節(jié)律的呼吸和心跳。
性能測試數(shù)據(jù)證明了這種設(shè)計的優(yōu)越性。
研究者們在語言建模和常識推理任務(wù)上,對340M、760M和1.3B三種參數(shù)規(guī)模的HOPE模型進行了全面測試。

HOPE的平均分,超越了所有對比模型。
HOPE表現(xiàn)出更低的困惑度,更高的準確率。

Hope在長上下文的Needle in Haystack(NIAH)下游任務(wù)中展示了卓越的內(nèi)存管理,證明CMS提供了一種更高效、更有效的方法來處理擴展的信息序列。

Nested Learning將從根本上改變需要終身學習的應(yīng)用領(lǐng)域,比如機器人、自動駕駛、個性化AI助手等。
這些系統(tǒng)將不再需要昂貴的、從頭開始的再訓練,而是能夠像我們一樣,在保留已有知識的基礎(chǔ)上,不斷學習和成長。
研究者們也坦誠,目前的研究主要聚焦于記憶的在線鞏固過程,而對類似人腦睡眠時的離線重放和整理機制涉獵不多。
但無論如何,它讓我們距離那個能像人類一樣持續(xù)學習、不斷進化的通用人工智能,又近了一步。






























