AI向人腦「黃金標準」又近一步,谷歌發布嵌套學習,賦予大模型持續學習的能力
剛剛,谷歌發布了一項名為“嵌套學習”(Nested Learning)的全新機器學習范式,它將模型視為嵌套優化問題,從而增強對長上下文的處理能力。基于嵌套學習的概念驗證模型 Hope 在語言建模方面展現出更優異的性能,谷歌的野心是緩解乃至徹底解決LLM遺忘問題,實現類似人腦的持續學習能力。
相關論文《Nested Learning: The Illusion of Deep Learning Architectures》已在NeurIPS 2025上發表。

在過去十年,機器學習取得了巨大進步,但LLM的成功之下,一些根本性挑戰依然存在,尤其是在持續學習方面。
人腦是持續學習的黃金標準,其通過神經可塑性不斷調整自身結構以適應新體驗。相比之下,當前LLM的知識局限于其輸入窗口的即時上下文或預訓練期間學到的靜態信息。
最直接的解決方法——用新數據持續更新模型參數,往往會導致“災難性遺忘”(Catastrophic Forgetting, CF)。傳統上,研究人員通過調整架構或優化規則來對抗CF,但長期以來,模型架構與優化算法被視為兩個獨立部分,阻礙了真正統一高效的學習系統誕生。
谷歌提出的“嵌套學習”則打破了這一壁壘。
什么是嵌套學習?
嵌套學習范式提出,一個復雜的ML模型并非單一的連續過程,而是一個由相互關聯、多層次的學習問題組成的系統,這些問題被嵌套或并行地同時優化。
該理論認為,模型架構和訓練規則(即優化算法)本質上是同一概念,它們只是處于不同“層級”的優化問題,每個層級都有其自身的信息流(“上下文流”)和更新速率。
通過識別這種內在結構,“嵌套學習”為設計更強大的AI提供了一個全新的、此前不可見的維度,允許構建具有更深計算深度的學習組件,從而最終解決災難性遺忘等問題。
為了闡釋這一范式,研究人員以“聯想記憶”(associative memory)為例。
他們指出,訓練過程本身(尤其是反向傳播)就可以被建模為一個聯想記憶。模型學習將給定數據點映射到其局部誤差值,該誤差值衡量了數據點的“意外”程度。同樣,像Transformer中的注意力機制等關鍵架構組件,也可以被形式化為學習序列中Token之間映射關系的簡單聯想記憶模塊。
通過為每個組件定義一個“更新頻率”,即權重調整的頻率,這些相互關聯的優化問題就可以被排列成不同的“層級”。這個有序集合構成了嵌套學習范式的心臟。
研究人員表示,人腦中統一且可復用的結構以及多時間尺度的更新,是人類持續學習的關鍵。嵌套學習允許模型的每個組件進行多時間尺度更新,并證明了Transformer等知名架構實際上是具有不同更新頻率的線性層。
嵌套學習的應用
基于“嵌套學習”的視角,可以直接獲得改進現有算法和架構的原則性方法:
1. 深度優化器 (Deep optimizers)
由于嵌套學習將優化器(如動量優化器)也視為聯想記憶模塊,因此可以將聯想記憶的原理應用于優化器設計。研究人員觀察到,許多標準優化器依賴于簡單的點積相似度,其更新并未考慮不同數據樣本之間的關聯。通過將優化器的底層目標更改為更標準的損失度量,例如L2回歸損失,他們為動量等核心概念推導出了新的公式,使其對不完美數據更具魯棒性。
2. 連續譜記憶系統 (Continuum memory systems, CMS)
在標準Transformer中,序列模型充當短期記憶,保存即時上下文;前饋網絡則充當長期記憶,存儲預訓練知識。嵌套學習將這一概念擴展為一個“連續譜記憶系統”,其中記憶被視為由一系列模塊組成的光譜,每個模塊都以特定的不同頻率進行更新,為持續學習創造了更豐富、更有效的記憶系統。
Hope:一個自修改的驗證架構
作為概念驗證,研究團隊利用嵌套學習原理設計了一款名為“Hope”的自修改架構。
Hope是Titans架構的一個變體。Titans架構是一種長期記憶模塊,能根據記憶的“意外”程度確定其優先級,但它只有兩個參數更新層級。
而Hope是一個自修改的循環架構,它能夠利用無限層級的上下文學習,并通過CMS模塊增強,以擴展到更大的上下文窗口。它本質上可以通過一個自引用過程來優化自身的記憶,從而創造出一個具有無限循環學習層級的架構。
實驗結果
在語言建模、長上下文推理、持續學習和知識整合等一系列任務上的實驗證明了嵌套學習、連續譜記憶系統和自修改Titans架構的有效性。
通用性能:在一系列公開的語言建模和常識推理任務上,Hope架構展現出比現代循環模型(如Titans、Samba)和標準Transformer更低的困惑度和更高的準確率。

長上下文處理:在“大海撈針”(Needle-In-Haystack, NIAH)下游任務中,Hope展示了卓越的記憶管理能力,證明了CMS是處理擴展信息序列的一種更高效的方式,其性能在不同難度的任務上均優于Titans、TTT和Mamba2。

結論
谷歌研究團隊認為,“嵌套學習”范式代表了對深度學習理解的一次飛躍。通過將架構和優化視為一個統一、連貫的嵌套優化問題系統,它為模型設計解鎖了一個新的維度。
像Hope這樣的模型證明,采用原則性方法統一這些元素,可以帶來表達能力更強、功能更強大、效率更高的學習算法。
團隊相信,“嵌套學習”為彌合當前LLM的遺忘特性與人腦卓越的持續學習能力之間的鴻溝,提供了一個堅實的基礎,并期待研究社區能共同探索這一新維度,以構建下一代自我完善的AI。






























