Jeff Dean盛贊姚班校友AI新研究,目前人已到Meta
一種令人興奮的全新的范式。
谷歌AI掌舵人Jeff Dean點贊了一項新研究,還是出自清華姚班校友鐘沛林團(tuán)隊之手。
Nested Learning嵌套學(xué)習(xí),給出了大語言模型災(zāi)難性遺忘這一問題的最新答案!

簡單來說,Nested Learning(下稱NL)就是讓模型從扁平的計算網(wǎng),變成像人腦一樣有層次、能自我調(diào)整的學(xué)習(xí)系統(tǒng)。
論文里還提到,甚至人們常用的Transformer,其實本質(zhì)是NL的簡化版,它只是把NL的多層級拆成了單一層級的線性層,并沒發(fā)揮出多層級的優(yōu)勢。

基于NL范式的Hope模型,在語言建模任務(wù)和長上下文記憶任務(wù)中的表現(xiàn)均優(yōu)于Transformer,且論文已經(jīng)被NeurIPS 2025接收。
下面就來看看這個新范式,究竟突破在何處?
不再靠堆層、堆參數(shù)硬提升
Nested Learning的核心邏輯很明確,即復(fù)雜AI模型不是“固定架構(gòu)+獨立算法”的組合,而是由多個嵌套/并行的「優(yōu)化問題」構(gòu)成的系統(tǒng)。
在大語言模型領(lǐng)域,一個核心痛點始終制約著技術(shù)突破,那就是模型仿佛患上了順行性遺忘癥。
預(yù)訓(xùn)練完成后便難以持續(xù)吸收新知識,只能依賴有限的上下文窗口或固化的歷史參數(shù),無法像人類一樣實現(xiàn)知識的動態(tài)積累與迭代。
與此同時,傳統(tǒng)深度學(xué)習(xí)依賴的堆層擴(kuò)參模式也逐漸觸及瓶頸,增加網(wǎng)絡(luò)層數(shù)或放大模型規(guī)模往往無法帶來預(yù)期中的能力提升,甚至可能導(dǎo)致訓(xùn)練低效、泛化能力不足等問題。
而嵌套學(xué)習(xí)NL則開辟了一條模仿人腦認(rèn)知機(jī)制的新路徑,靈感就源自于大腦的記憶工作原理。
人類大腦通過在線鞏固和離線鞏固兩個互補(bǔ)的過程實現(xiàn)持續(xù)學(xué)習(xí),短期內(nèi)記憶快速更新,長期記憶則緩慢沉淀,不同層級的記憶系統(tǒng)按照各自的節(jié)奏協(xié)同運作。

NL就是把這一套邏輯數(shù)字化,把機(jī)器學(xué)習(xí)模型重構(gòu)為一套嵌套式的、多層級的優(yōu)化體系,每個層級都擁有獨立的上下文流和更新頻率。
不同于傳統(tǒng)深度學(xué)習(xí)扁平式的參數(shù)更新模式,NL中的每個組件都像是一個專屬的聯(lián)想記憶模塊,有的快速響應(yīng)實時輸入數(shù)據(jù),有的緩慢沉淀長期知識規(guī)律,通過層級化協(xié)作實現(xiàn)信息的高效處理與存儲。
研究團(tuán)隊甚至發(fā)現(xiàn),我們熟知的Transformer架構(gòu),本質(zhì)上只是NL的簡化版本,它的線性層結(jié)構(gòu)相當(dāng)于忽略了NL多層級協(xié)同的核心優(yōu)勢,并沒有充分釋放模型的潛力。

基于NL范式,研究團(tuán)隊推出了三大核心創(chuàng)新成果。
首先是深度優(yōu)化器。
像Adam、SGD這樣的傳統(tǒng)優(yōu)化器,只會按固定的公式處理梯度,并不懂記憶和預(yù)判復(fù)雜的規(guī)律,調(diào)參容易陷入僵化。
而NL的深度優(yōu)化器靠預(yù)處理機(jī)制提前分辨梯度性質(zhì)、用MLP神經(jīng)網(wǎng)絡(luò)替代線性記憶來存儲過往梯度規(guī)律,能夠預(yù)判梯度變化、靈活調(diào)參。
其次是自我修改模型。
讓模型擺脫固定更新規(guī)則的束縛,在訓(xùn)練過程中自主學(xué)習(xí)“如何調(diào)整自身參數(shù)”,面對新領(lǐng)域數(shù)據(jù)時能靈活適配,無需人工干預(yù)修改架構(gòu)。
最后是連續(xù)記憶系統(tǒng)。
將傳統(tǒng)模型的短期/長期記憶二元結(jié)構(gòu)升級為多尺度記憶鏈,不同MLP模塊按不同頻率更新,分別負(fù)責(zé)存儲短期細(xì)節(jié)與長期規(guī)律,實現(xiàn)類似人類的分層記憶管理。
而這些創(chuàng)新最終凝聚為Hope模型。

經(jīng)過測試,在語言建模與常識推理任務(wù)中,從760M到1.3B參數(shù)規(guī)模的Hope,表現(xiàn)均大幅超越Transformer、RetNet、DeltaNet等主流基線模型。
在Wiki文本困惑度、PIQA物理常識推理、Winograd指代消解等多項指標(biāo)上,Hope要么以更低的困惑度展現(xiàn)出更優(yōu)的語言建模能力,要么以更高的準(zhǔn)確率證明了更強(qiáng)的推理水平。

嵌套學(xué)習(xí)NL的提出,本質(zhì)上是對深度學(xué)習(xí)核心架構(gòu)的一次范式重構(gòu)。
它跳出了堆層擴(kuò)參的慣性思維,轉(zhuǎn)而從認(rèn)知科學(xué)中汲取靈感,讓模型從扁平的計算網(wǎng)絡(luò)進(jìn)化為分層協(xié)作的智能系統(tǒng)。
這種全新的范式或許能讓AI真正擺脫靜態(tài)模型的桎梏,像人類一樣在持續(xù)學(xué)習(xí)中積累經(jīng)驗、優(yōu)化能力,也可能為大語言模型的終身學(xué)習(xí)、長上下文推理等關(guān)鍵難題提供全新的解決方案。
而在這樣一項研究的團(tuán)隊名單里,令人欣喜的是出現(xiàn)了清華姚班校友鐘沛林的名字。
天才少年的成長之路
鐘沛林,2016年畢業(yè)于清華姚班,2021年拿到哥倫比亞大學(xué)的計算機(jī)博士學(xué)位。并且從2021年起,他就加入了谷歌紐約研究院,擔(dān)任算法與優(yōu)化團(tuán)隊的科學(xué)家。

實際上,在進(jìn)入清華姚班之前,他就已經(jīng)是一位競賽達(dá)人。
據(jù)網(wǎng)友透露,鐘沛林的外公曾說,當(dāng)時還在上中學(xué)的小鐘每到深夜某一時間鬧鐘響起,題庫開放時,就會和全球的小伙伴一起編程做題。
2012年,小鐘代表雅禮中學(xué)出征國際信息學(xué)奧林匹克競賽,并獲得當(dāng)年的IOI金牌。和鐘沛林同年獲得金獎的,還有顧昱洲、李超以及同為雅禮中學(xué)學(xué)子的艾雨青。
有意思的是,鐘沛林和艾雨青兩人是發(fā)小,艾雨青還曾透露自己是在鐘沛林的影響下,走上IOI之路,兩人并肩成為了那一年雅禮中學(xué)的雙子星,保送至清華姚班。

雖然在寫NL這篇論文時,鐘沛林尚在谷歌紐約研究院就職。
△左:鐘沛林 右:艾雨青
但目前,這對雙子星已前后腳入職了Meta,分別擔(dān)任AI科學(xué)家和軟件工程師。


































