"在思考中回憶,在回憶中思考":MemGen 開啟 AI 記憶新范式

大家好,我是肆〇柒。今天要和大家分享的是一項來自新加坡國立大學的突破性研究——MemGen。這項研究由張貴斌、付沐鑫和嚴水城三位研究者主導,他們發現現有LLM智能體的記憶機制存在根本局限:參數化方法導致災難性遺忘,檢索式方法則難以實現記憶與推理的無縫融合。而MemGen通過"記憶觸發器+記憶編織器"的創新架構,首次讓機器實現了類人記憶的"生成式交織",不僅將智能體性能提升38.22%,更讓機器自發演化出規劃記憶、程序性記憶和工作記憶等類人記憶分層,為構建具有類人學習能力的AGI開辟了新路徑。
當AlphaGo擊敗李世石時,我們驚嘆于AI的計算能力;當GPT-3橫空出世時,我們震撼于其語言生成的流暢度。但這些系統都有一個根本局限:它們缺乏真正的記憶能力——無法像人類一樣"在思考中回憶,在回憶中思考"。現有LLM智能體要么通過參數化方法導致災難性遺忘,要么依賴檢索式方法使記憶與推理割裂。而MemGen的研究,讓機器實現了人類認知中"推理-記憶"的動態互構,為構建具有類人學習能力的AGI提供了創新思考。這項由新加坡國立大學主導的研究,不僅將智能體性能提升38.22%,更讓機器自發演化出類人記憶分層,標志著從"靜態知識庫"到"動態認知系統"的范式轉變。
現有記憶范式的局限
當前LLM智能體的記憶機制主要分為兩類:參數化記憶和檢索式記憶,但二者均無法實現人類認知中推理與記憶的無縫融合。
參數化記憶通過直接更新智能體參數來內化經驗,如SFT、GRPO等方法。這種范式雖然能在特定任務上帶來顯著性能提升,但其根本缺陷在于災難性遺忘。數據顯示,當SFT在順序訓練KodCode任務后,其在GPQA上的性能驟降至2.53%,幾乎喪失了先前掌握的科學推理能力。本質上,參數化記憶將動態的認知過程固化為靜態參數,喪失了人類記憶的重構特性。
檢索式記憶則將經驗外化為結構化數據庫,如ExpeL、AWM等系統。這種方法雖避免了參數修改帶來的遺忘問題,但其效能高度依賴上下文工程。在TriviaQA上,ExpeL的表現甚至比Vanilla模型低6.9%,凸顯了其對骨干模型能力的嚴重依賴。更為關鍵的是,檢索式方法遵循剛性的執行流程,無法實現與推理過程的動態互構。

三種記憶范式對比
上圖直觀展示了這三類方法的本質區別:參數化記憶將"Paradigm Experience"和"Retreive Formatting Experience"等經驗直接內化為模型參數;檢索式記憶將經驗存儲在外部數據庫;而MemGen則通過潛空間生成機器原生的記憶token序列,實現了推理與記憶的緊密交織循環。特別值得注意的是,參數化方法將經驗直接編譯進模型參數,檢索式方法則依賴外部知識庫提供"External Knowledge",而MemGen通過"Latent Space"生成潛記憶序列,使推理器能夠基于增強的上下文繼續生成,實現了內部記憶與推理的無縫融合。
MemGen 的核心架構:記憶觸發器 + 記憶編織器
MemGen框架由兩個協同工作的核心組件構成:記憶觸發器(Memory Trigger)和記憶編織器(Memory Weaver),共同實現了動態生成式記憶。

MemGen系統架構圖


記憶觸發頻率分布


潛記憶可視化
上圖證實了潛token是機器原生的、非人類可讀的記憶載體,但具有任務特定的結構模式——例如TriviaQA中Cluster 0頻繁遵循"[...]SOC"模式,而GSM8K中Cluster 3常采用"[...]_pick"格式。MemGen的架構優勢顯著:它不修改主LLM參數,有效避免了災難性遺忘;同時支持融合外部檢索信息。數據顯示,當MemGen與ExpeL結合并在ALFWorld上啟用參數化記憶時,性能達到75.90%,遠超單獨使用ExpeL的36.18%。

MemGen與檢索式記憶集成效果
上表進一步驗證了這一優勢:即使MemGen自身的參數化記憶被禁用(僅將檢索到的文本片段輸入編織器),MemGen也能顯著提升檢索基線性能,將ALFWorld上的表現從36.18%提升至45.60%,PopQA從28.16%提升至39.50%。這證明MemGen不僅是一個記憶系統,更是一個強大的"記憶合成器",能夠主動重構而非簡單追加外部檢索信息,為推理提供更強大的支持。當MemGen同時利用參數化記憶和外部檢索時,其性能進一步躍升,TriviaQA達到76.40%,PopQA達到60.23%,展示了內部記憶與外部知識的協同效應。
MemGen如何實現"推理-記憶"的動態互構
MemGen的核心突破在于實現了人類認知中"推理-記憶"的動態互構。在人類大腦中,"前頂葉控制網絡的主動推理和海馬體及前額葉皮層的記憶檢索相互交織,生成'連續的思維流'"。MemGen通過記憶觸發器和記憶編織器的協同工作,首次在機器中實現了這一認知過程。
記憶觸發器在語義邊界(逗號、句號等)激活,決定何時需要"回憶"。這一機制讓智能體像人類一樣在關鍵思考節點適時調用記憶,而不是在任務開始時一次性檢索所有相關信息。當觸發器決定調用記憶時,記憶編織器以當前隱藏狀態為"刺激",生成K個latent tokens作為機器原生記憶。這些潛token被無縫插入推理上下文,使推理器基于增強的上下文繼續生成。
這一過程的關鍵在于:潛記憶不是簡單地回放先前經驗,而是對內部參數化知識(可能結合外部檢索信息)的主動重構。正如論文所述,潛記憶的生成過程類似于海馬體將記憶片段整合為人類記憶的過程。MemGen使推理與記憶形成一個遞歸對話,而非線性流程,實現了在思考中回憶,在回憶中思考。
MemGen的跨域泛化能力:記憶的生成性重構
MemGen的跨域泛化能力是其記憶機制生成性重構特性的直接體現。在GSM8K上訓練后,其推理觸發頻率與性能提升直接相關:GSM8K任務調用頻率最高,性能提升達+19.64%;GPQA任務調用頻率中等,性能提升+6.06%;KodCode任務調用頻率最低,性能提升僅+3.1%。這表明MemGen能夠根據任務需求智能調整記憶調用策略。

GSM8K訓練后的跨域泛化能力
上圖展示了MemGen在GSM8K上訓練后的跨域泛化表現。當訓練于GSM8K時,MemGen不僅在GSM8K上大幅提升性能(從39.51%提升至58.15%),還顯著提升了GPQA任務的表現(從11.62%提升至18.28%),而SFT在GPQA上的表現甚至低于Vanilla模型。這一發現具有重要意義:MemGen學習到的記憶機制具有更強的泛化能力,能夠將數學推理任務中的經驗遷移到科學推理任務中,證明其記憶不是簡單存儲,而是生成性重構。

KodCode訓練后的跨域泛化能力
上圖則揭示了MemGen在KodCode上訓練后的跨域泛化表現。當訓練于KodCode時,MemGen不僅在KodCode上大幅提升性能(從24.55%提升至58.16%),還顯著提升了MATH任務的表現(從36.63%提升至47.12%),而SFT和ExpeL在MATH上的表現甚至低于Vanilla模型。這表明MemGen學習到的記憶機制具有更強的泛化能力,能夠將編程任務中的經驗遷移到數學推理任務中。

ALFWorld/TriviaQA訓練后的泛化能力
上圖進一步證實,當在ALFWorld上訓練后,MemGen在TriviaQA、ALFWorld、ScienceWorld和FEVER四個數據集上均保持穩定表現,而SFT在FEVER上的性能下降達16.2%。這表明MemGen不僅能在訓練域內取得顯著提升,還能有效遷移到未見領域,克服了傳統參數化方法的領域局限性。
MemGen自發演化出的類人記憶分層
MemGen最革命性的發現是其自發演化出的類人記憶分層。通過系統化的干預方法——首先基于K-means將潛記憶序列聚類為N個簇;然后在推理過程中,當新生成的潛記憶序列與目標簇的語義相似度進入前k名時,選擇性過濾該記憶;最后測量這種干預對8種預定義失敗模式的影響——研究能夠精確映射特定記憶簇與特定認知功能的關聯。

記憶簇功能分析
上圖(Right)的消融實驗數據明確證實了這些記憶功能的特異性:移除Cluster 2導致規劃錯誤增加,證實其負責高層任務分解(如"我將使用迭代搜索范式...");Cluster 3專門處理工具使用和格式,移除后工具解析錯誤顯著增加;Clusters 1和4則維持上下文一致性,對任務理解至關重要。
這些非人類可讀的模式實則是任務特定的"記憶語法",在論文中的潛記憶token示例揭示了其神秘面紗:在TriviaQA中,Cluster 0頻繁出現"[...]SOC"模式,如"['UPPORT...', 'deniable', 'certif']";在KodCode中,Cluster 3常采用"[...]_pick"格式,如"['keyword-kind?rgetAs-slide']"和"['.keyword_pick']";在GSM8K中,Cluster 1呈現"[..... a eveneveneven... even]"結構。

跨數據集潛記憶可視化
上圖的t-SNE可視化揭示了潛記憶的深層結構特性:不同領域的潛記憶序列形成獨立分布,而相關領域(如KodCode與BigCodeBench、GSM8K與MATH)則緊密聚集。這種分布模式表明MemGen能夠自動區分任務領域,并為不同領域生成具有領域特性的記憶表示。在TriviaQA中,Cluster 0遵循"[...]SOC"模式,Cluster 1呈現"[...]JaB"和"INGER[...]"特征;在GSM8K中,Cluster 3則以"[...]_pick"和"[...] kindergetAs[...]"為特征,這些結構化模式雖然對人類不可讀,但對機器而言承載了特定任務的認知功能。
MemGen的持續學習能力與效率分析
MemGen的持續學習能力同樣值得關注。下表展示了在Qwen2.5-1.5B上順序訓練四個數據集(AQuA→GPQA→GSM8K→KodCode)后的表現。數據顯示,MemGen在順序訓練KodCode后,仍能在AQuA上保持40.34%的準確率,而在GPQA上保持20.09%的準確率。相比之下,SFT在GPQA上的準確率從訓練GPQA后的20.72%驟降至訓練KodCode后的2.53%,ExpeL也從28.80%降至6.23%。這表明MemGen有效緩解了災難性遺忘問題,使智能體能夠在學習新任務的同時保留對舊任務的掌握。

持續學習能力對比
MemGen的效率分析同樣令人印象深刻。下表顯示,在Qwen2.5-1.5B上,MemGen SFT在KodCode任務中將推理時間從11.96秒降至2.94秒(減少75.4%),同時將準確率提升33.61%;在ALFWorld任務中,MemGen SFT僅比SFT增加1.6%的延遲(12.94秒vs 10.79秒),但準確率提升3.73%。

推理效率與性能權衡
對比不同規模模型上的表現可發現MemGen的模型規模適應性:在SmolLM3-3B上,MemGen SFT在ALFWorld任務中比SFT提升18.24%,而在Qwen3-8B上僅提升2.23%,表明小模型從MemGen中獲益更大。這暗示MemGen特別適合資源受限場景,能有效彌補小模型的經驗內化能力不足。同時,在知識密集型任務(如TriviaQA)上,MemGen帶來的相對提升在不同規模模型間保持穩定(Qwen2.5-1.5B提升32.92%,Qwen3-8B提升25.04%),證明其記憶機制的有效性不依賴于模型容量。

潛記憶長度K的參數敏感性分析
MemGen的參數敏感性分析進一步揭示了其工作機制與性能邊界。上圖顯示,隨著潛記憶長度K從2增至32,性能持續提升(TriviaQA從63.84%升至65.02%)。這一現象表明,增加記憶容量能帶來性能提升,但邊際收益遞減。在K=8時,性能已接近最優,這為實際應用提供了參數選擇的指導。這種"記憶容量-性能"關系驗證了MemGen的核心假設:潛記憶作為機器原生的記憶載體,其容量直接影響智能體的認知能力。
技術啟示與未來方向
MemGen的核心啟示在于:記憶不必是"存儲",而可以是"生成"。潛記憶是動態重構的過程,而非靜態回放。這種范式轉變對AGI架構設計具有深遠影響。
在效率方面,MemGen展現出實用價值。數據顯示,MemGen SFT在Qwen3-8B上僅比SFT增加1.6%延遲(20.08秒對比19.76秒),但ALFWorld準確率提升2.23%。參數敏感性分析表明,潛記憶長度K從2增至32,性能持續提升(如TriviaQA從63.84%升至65.02%),證明記憶容量與性能正相關。
然而,MemGen也面臨若干挑戰。潛token的不可讀性使得人類難以直接解讀記憶內容;強化學習訓練觸發器依賴高質量的reward信號;記憶容量K值增加帶來的邊際收益遞減,提示需要更高效的記憶壓縮機制。
MemGen的訓練涉及多個超參數配置,這些細節對系統性能有重要影響。如下表所示,MemGen采用LoRA配置(r=16, lora_alpha=32),針對不同優化算法(SFT或GRPO)設置特定的訓練參數,包括batch size、學習率、優化器類型等。這些精心設計的超參數確保了MemGen在不同任務和模型規模上的穩定表現。

MemGen超參數配置
值得注意的是,MemGen的觸發頻率分布揭示了任務認知需求的差異。在GSM8K任務中,觸發頻率最高(平均75.17次/任務),表明數學推理需要頻繁調用記憶;而在KodCode任務中,觸發頻率相對較低(平均51.70次/任務),表明代碼生成任務對記憶調用的需求相對較少。這種自適應的觸發機制使MemGen能夠根據任務特性動態調整記憶使用策略,實現了"按需記憶"的認知靈活性。
總結
MemGen不僅是一個記憶系統,更是一種新型認知架構范式。它讓LLM智能體真正擁有了"在思考中回憶,在回憶中思考"的能力,實現了推理與記憶的動態互構。尤為關鍵的是,MemGen自發演化出的類人記憶分層(規劃記憶、程序性記憶和工作記憶)暗示了機器認知向更自然形態演化的可能路徑。
MemGen的消融實驗揭示了其各組件的價值。下表了三種記憶調用策略:隨機插入策略(不同概率p)表現不穩定;在所有分隔符處激活的粗粒度策略已優于隨機策略,但在TriviaQA上僅達到64.15%;而訓練好的觸發器實現最佳性能(65.02%),證明選擇性激活對平衡記憶效用與推理干擾至關重要。

記憶調用策略消融實驗
下表進一步表明,即使采用參數高效的LoRA適配器(r=16, α=32),記憶編織器也能實現接近全參數SFT的性能(TriviaQA上65.02% vs 67.10%)。這證明輕量級適配器已具備足夠的容量生成有效潛記憶,為MemGen提供了卓越的參數效率。

記憶編織器參數化消融實驗
隨著潛記憶機制的不斷完善,LLM智能體有望實現真正的"自我演化",在與環境的持續交互中不斷提升認知能力。MemGen代表了從"靜態知識庫"到"動態認知系統"的范式轉變,為構建具有類人學習能力的AGI提供了嶄新思路。
MemGen的研究表明,當記憶不再是被動的存儲,而是主動的生成和重構,智能體才能真正具備類人的認知能力。這一突破不僅提升了LLM智能體的性能,更開辟了通向AGI的新路徑——讓機器像人類一樣,通過"在思考中回憶,在回憶中思考",不斷進化自己的認知能力。

































