LLM記憶管理終于不用“手把手教”了,新框架讓智能體自主管理記憶系統(tǒng)
不再依賴(lài)人工設(shè)計(jì),讓模型真正學(xué)會(huì)管理記憶。
來(lái)自來(lái)自加州大學(xué)圣地亞哥分校、斯坦福大學(xué)的研究人員提出了一個(gè)創(chuàng)新的強(qiáng)化學(xué)習(xí)框架——
Mem-α,用于訓(xùn)練LLM智能體自主管理復(fù)雜的記憶系統(tǒng)。

在實(shí)際應(yīng)用中,僅僅依靠prompts和instructions往往不足以覆蓋所有場(chǎng)景:模型經(jīng)常會(huì)遇到不知道如何更新記憶的情況,尤其是當(dāng)記憶系統(tǒng)像MIRIX那樣變得復(fù)雜時(shí)。
不同于MIRIX、MemGPT等依賴(lài)prompts和instructions的傳統(tǒng)方案,Mem-α采用數(shù)據(jù)驅(qū)動(dòng)的強(qiáng)化學(xué)習(xí)方法,讓模型在交互中自主學(xué)習(xí)最優(yōu)記憶管理策略。
如何做到的呢?
讓模型真正學(xué)會(huì)如何管理記憶
上下文窗口限制&現(xiàn)有記憶系統(tǒng)的缺陷
大語(yǔ)言模型(LLM)智能體受限于有限的上下文窗口,這使得外部記憶系統(tǒng)對(duì)于長(zhǎng)期信息理解變得至關(guān)重要。
即使像GPT-4.1這樣支持100萬(wàn)tokens的模型,在長(zhǎng)期交互中也會(huì)隨著窗口增長(zhǎng)而導(dǎo)致成本激增和延遲增加。
當(dāng)前的記憶增強(qiáng)智能體通常依賴(lài)預(yù)定義的指令和工具來(lái)進(jìn)行記憶更新。
然而,語(yǔ)言模型往往缺乏決定存儲(chǔ)哪些信息、如何結(jié)構(gòu)化組織以及何時(shí)更新的能力——尤其是當(dāng)記憶系統(tǒng)變得更加復(fù)雜時(shí)。
這種局限性導(dǎo)致了次優(yōu)的記憶構(gòu)建和信息丟失,嚴(yán)重影響了智能體在長(zhǎng)期交互中的表現(xiàn)。

如上圖所示,在沒(méi)有強(qiáng)化學(xué)習(xí)的情況下,模型在管理記憶系統(tǒng)時(shí)會(huì)出現(xiàn)明顯的錯(cuò)誤:核心記憶沒(méi)有更新導(dǎo)致重要信息丟失,語(yǔ)義記憶中只保存了單一條目造成信息損失。
而經(jīng)過(guò)Mem-α訓(xùn)練后的模型能夠正確地在核心記憶、情景記憶和語(yǔ)義記憶中存儲(chǔ)相應(yīng)信息,實(shí)現(xiàn)全面的記憶管理。
Mem-α 強(qiáng)化學(xué)習(xí)框架
Mem-α的核心貢獻(xiàn)在于將記憶構(gòu)建問(wèn)題轉(zhuǎn)化為一個(gè)可通過(guò)強(qiáng)化學(xué)習(xí)優(yōu)化的序列決策問(wèn)題。
與以往依賴(lài)監(jiān)督學(xué)習(xí)或手工規(guī)則的方法不同,Mem-α讓智能體在處理信息流的過(guò)程中自主探索最優(yōu)的記憶管理策略,并通過(guò)下游任務(wù)表現(xiàn)直接獲得反饋。這種端到端的優(yōu)化方式使得模型能夠?qū)W習(xí)到真正有效的記憶構(gòu)建策略。
任務(wù)設(shè)定(Task Setup)

如上圖所示,Mem-α將記憶構(gòu)建建模為順序決策過(guò)程。智能體依次處理信息塊,決定執(zhí)行哪些記憶操作,處理完成后利用構(gòu)建的記憶系統(tǒng)回答問(wèn)題。
訓(xùn)練過(guò)程中通過(guò)多個(gè)獎(jiǎng)勵(lì)信號(hào)(
到
獲得反饋。被訓(xùn)練的智能體(
)專(zhuān)注學(xué)習(xí)記憶管理策略,固定的大語(yǔ)言模型(
)負(fù)責(zé)根據(jù)記憶回答問(wèn)題。
獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)
Mem-α 采用多維度獎(jiǎng)勵(lì)函數(shù)優(yōu)化記憶構(gòu)建:
- 問(wèn)答準(zhǔn)確率(
):最核心的信號(hào),直接衡量基于記憶回答問(wèn)題的準(zhǔn)確率 - 工具調(diào)用格式(
):確保智能體正確使用記憶操作工具 - 記憶壓縮(
):鼓勵(lì)高效利用記憶空間 - 內(nèi)容有效性(
):通過(guò)LLM評(píng)判器評(píng)估記憶質(zhì)量
最終獎(jiǎng)勵(lì):
(實(shí)驗(yàn)發(fā)現(xiàn)
效果最佳)。
記憶系統(tǒng)架構(gòu)
為了展示Mem-α框架的有效性,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)包含三種記憶類(lèi)型的復(fù)雜記憶系統(tǒng),靈感來(lái)源于認(rèn)知科學(xué)中的記憶分類(lèi)理論:

- 核心記憶(Core Memory):存儲(chǔ)用戶(hù)的基本、持久信息(角色、偏好、目標(biāo)),容量512tokens;
- 情景記憶(Episodic Memory):記錄帶時(shí)間戳的事件,如 “[9:15]在咖啡館遇見(jiàn)Alice”;
- 語(yǔ)義記憶(Semantic Memory):存儲(chǔ)結(jié)構(gòu)化知識(shí)和事實(shí),如專(zhuān)業(yè)知識(shí)、操作指南等。
每種記憶類(lèi)型支持插入、更新、刪除操作。智能體需要學(xué)習(xí)在適當(dāng)時(shí)機(jī)選擇合適的工具和記憶類(lèi)型。
訓(xùn)練數(shù)據(jù)集構(gòu)建
Mem-α的訓(xùn)練數(shù)據(jù)集的構(gòu)建思路來(lái)源于MemoryAgentBench中的四個(gè)維度:
- 精確檢索(Accurate Retrieval):從歷史數(shù)據(jù)中提取正確信息以回答查詢(xún),涵蓋單跳和多跳檢索場(chǎng)景
- 測(cè)試時(shí)學(xué)習(xí)(Test-Time Learning):在部署期間獲取新行為或能力
- 長(zhǎng)期理解(Long-Range Understanding):整合分布在多個(gè)片段中的信息,回答需要全面序列分析的查詢(xún)
- 沖突解決(Conflict Resolution):在遇到矛盾證據(jù)時(shí)修訂、覆蓋或刪除先前存儲(chǔ)的信息
本研究聚焦于前三個(gè)維度,排除了沖突解決維度。這是因?yàn)槟壳叭狈φ鎸?shí)的評(píng)估基準(zhǔn)——現(xiàn)有的沖突解決數(shù)據(jù)集主要是合成的,未能充分捕捉真實(shí)世界的復(fù)雜性。
研究團(tuán)隊(duì)收集并整理了來(lái)自不同源頭的八個(gè)數(shù)據(jù)集,處理到統(tǒng)一的范式,最后構(gòu)造了一個(gè)完善的數(shù)據(jù)集并保證與MemoryAgentBench的測(cè)試集沒(méi)有交織,涵蓋了以上的前三個(gè)維度進(jìn)行訓(xùn)練。
實(shí)驗(yàn)結(jié)果
主實(shí)驗(yàn):性能與泛化能力
Mem-α在30k tokens上訓(xùn)練,在驗(yàn)證集(驗(yàn)證集也是<30k tokens的)上的效果如下:

在測(cè)試集上的效果如下:

四個(gè)關(guān)鍵發(fā)現(xiàn):
- 全面超越現(xiàn)有方法:在所有任務(wù)上顯著優(yōu)于基線(xiàn)。在MemoryAgentBench上,精確檢索(AR)和長(zhǎng)期理解(LRU)任務(wù)尤其突出,證明了對(duì)未見(jiàn)分布的強(qiáng)泛化能力。
- 高效記憶壓縮:相比Long-Context和RAG-Top2,記憶占用減少約50%的同時(shí)保持更優(yōu)性能。在BookSum和InfBench-Sum上壓縮效果更佳,驗(yàn)證了語(yǔ)義壓縮機(jī)制在性能和效率間的平衡。
- 結(jié)構(gòu)化架構(gòu)的必要性:扁平記憶基線(xiàn)(MEM1、MemAgent)使用單段落表示,性能明顯受限,凸顯了非結(jié)構(gòu)化記憶在復(fù)雜信息處理中的不足。這驗(yàn)證了分層記憶設(shè)計(jì)和強(qiáng)化學(xué)習(xí)優(yōu)化策略的有效性。
- 極強(qiáng)的長(zhǎng)度泛化:訓(xùn)練時(shí)僅使用平均<30K tokens 的文檔,成功泛化到超過(guò)400K tokens的文檔(MemoryAgentBench 多文檔數(shù)據(jù)集最長(zhǎng)達(dá)474K),展現(xiàn)了訓(xùn)練框架對(duì)極端長(zhǎng)度外推的魯棒性。
消融實(shí)驗(yàn):性能與泛化能力

實(shí)驗(yàn)對(duì)比了Qwen3-4B在強(qiáng)化學(xué)習(xí)訓(xùn)練前后的表現(xiàn)。訓(xùn)練前,模型在使用復(fù)雜記憶系統(tǒng)時(shí)表現(xiàn)不佳,平均準(zhǔn)確率僅為38.9%,且經(jīng)常出現(xiàn)工具使用錯(cuò)誤。
經(jīng)過(guò)Mem-α訓(xùn)練后,同一模型的性能提升到64.2%,展現(xiàn)出正確的記憶管理行為。
Mem-α證明了當(dāng)涉及LLM智能體的記憶管理時(shí),學(xué)習(xí)勝過(guò)工程。
傳統(tǒng)上被視為需要精心工程化的系統(tǒng)組件,實(shí)際上可以通過(guò)端到端的學(xué)習(xí)得到優(yōu)化,未來(lái),能夠構(gòu)建更智能、更自適應(yīng)的AI系統(tǒng)。
論文鏈接:https://arxiv.org/abs/2509.25911
代碼倉(cāng)庫(kù):https://github.com/wangyu-ustc/Mem-alpha
開(kāi)源模型:https://huggingface.co/YuWangX/Memalpha-4B
訓(xùn)練數(shù)據(jù)集:https://huggingface.co/datasets/YuWangX/Memalpha
測(cè)試數(shù)據(jù)集: https://huggingface.co/datasets/YuWangX/Memalpha-Memoryagentbench
































