LightMem用3招重新設計了LLM的記憶，結果出乎意料

PaperAgent

發布于 2025-10-31 07:50

瀏覽

0收藏

1. LLM 的“記性”又貴又差

在超長多輪對話里，LLM 面臨兩大痛點：

上下文窗口有限——“中間丟失”現象嚴重。
記憶系統昂貴——每輪都把原始對話塞進 LLM 做摘要/更新，Token 與 API 調用爆炸。

LightMem用3招重新設計了LLM的記憶，結果出乎意料-AI.x社區

圖 1 現有記憶系統 vs LightMem

如圖 1 所示，現有系統要么“全量硬存”，要么“逐輪硬更新”，冗余信息 > 50%，實時推理被拖垮。

2. 人類記憶的三把鑰匙

LightMem用3招重新設計了LLM的記憶，結果出乎意料-AI.x社區

Atkinson-Shiffrin 模型把記憶分為：

階段	功能	對應 LLM 痛點
感覺記憶	毫秒級過濾無關刺激	冗余 Token
短期記憶	秒-分鐘級主題整合	語義混雜
長期記憶	睡眠時離線鞏固	實時更新延遲

LightMem 直接把這套機制搬進了 Transformer 時代。

3. LightMem 架構：三盞“燈”點亮高效記憶

LightMem用3招重新設計了LLM的記憶，結果出乎意料-AI.x社區

圖 3 整體架構

模塊	昵稱	關鍵設計	效果
Light1	感覺記憶	預壓縮 + 主題分段	砍掉 20-80% 冗余 Token
Light2	短期記憶	主題緩沖 + 到達閾值再摘要	API 調用 ↓ 17-177×
Light3	長期記憶	在線“軟更新”+ 睡眠離線并行合并	運行時 ↓ 1.7-12×

4. 核心技術拆解

4.1 Light1：預壓縮 + 主題分段

圖 4(a)：不同壓縮率下 QA 準確率幾乎不變，token 先砍一半

LightMem用3招重新設計了LLM的記憶，結果出乎意料-AI.x社區

做法：

用 LLMLingua-2 給每輪對話打“保留概率”。
動態閾值 τ = 百分位(r)，只保留信息量最大的 token。
壓縮率 r=0.6 時，輸入 token ↓ 40 %，準確率不掉。

4.2 Light2：主題級短期記憶

緩沖結構：??{topic, [user_i, model_i]}??
到達 Token 閾值后，一次性調用 LLM 生成摘要 → 入庫。
相比“逐輪摘要”，主題純度↑ → 摘要幻覺↓，圖 4(c) 顯示去掉該模塊 ACC 掉 6%。

4.3 Light3：睡眠期離線合并

在線階段只做“追加寫”，零延遲。
離線階段并行執行“讀-改-寫”：每條記憶維護一個更新隊列 ??(e_i)，僅與更高時間戳的條目合并，可批量并行，總延遲從 O(N) → O(1)。

5. 實驗結果：又快又準，全線 SOTA

表 1 在 LongMemEval-S（平均 110k Token）上與 6 個強基線Full-Text、Naive RAG、LangMem、A-MEM、MemoryOS、Mem0對比：

LightMem用3招重新設計了LLM的記憶，結果出乎意料-AI.x社區

基于GPT和Qwen骨干網絡在LongMemEval上的實驗表明：LightMem在準確率上超越強勁基線（最高提升10.9%），同時顯著降低token使用量達117倍，減少API調用達159倍，并將運行時間縮短超過12倍。

6. 關鍵消融：參數怎么選？

表 2 給出壓縮率 r 與緩沖閾值 th 的聯合調參：

LightMem用3招重新設計了LLM的記憶，結果出乎意料-AI.x社區

th↑ → 摘要批次↑ → API/時間↓，但 ACC 非單調。
r=0.6 + th=512在 GPT 上取得最佳平衡點；Qwen 則偏好r=0.6 + th=768。

7. 案例：睡眠更新如何避免“誤刪”？

LightMem用3招重新設計了LLM的記憶，結果出乎意料-AI.x社區

場景	硬更新	LightMem 軟更新
用戶先去東京→再問京都	直接覆蓋為“計劃京都游”，東京信息丟失	追加寫入，兩地行程并存

離線合并時再做知識消歧，既保證實時性，又避免不可逆信息損失。

LightMem: Lightweight and Efficient Memory-Augmented Generation
浙江大學 & 新加坡國立大學  
https://arxiv.org/html/2510.18866
https://github.com/zjunlp/LightMem

本文轉載自??PaperAgent??

標簽

LightMem

LLM

架構

已于2025-10-31 07:50:27修改

贊

回復

舉報

回復

相關推薦

超越GPT4的Agent，我用代碼實現了！

ermulong ? 4641瀏覽 ? 0回復
如何訓練LLM自動在RAG和參數記憶之間進行選擇

51CTO內容精選 ? 4068瀏覽 ? 0回復
如何使用HippoRAG增強LLM的記憶

51CTO內容精選 ? 5465瀏覽 ? 0回復
如何評估大語言模型生成結果的多樣性

sbf_2000 ? 4998瀏覽 ? 1回復
【活動結果公布】AIGC創新先鋒者征文大賽懸賞召集?

AI.x社區官方賬號 ? 8017瀏覽 ? 0回復
GLM4模型開源，意料之中的尺寸，意料之外的效果

NLP工作站 ? 5425瀏覽 ? 0回復
GLM4模型開源，意料之中的尺寸，意料之外的效果

NLP工作站 ? 3959瀏覽 ? 0回復
大快人心，反電話詐騙有奇招！英國電信巨頭用大模型打造AI老奶奶與詐騙團伙40分鐘斗智斗勇！

51CTO技術棧 ? 3685瀏覽 ? 0回復
總算有人把智能體記憶說清楚了

ermulong ? 5509瀏覽 ? 0回復
如何借助 kimiChat 創造好用的提示詞？一招教會你

wsp_ping ? 3645瀏覽 ? 0回復
沖，DeepSeek-R1/V3推理系統架構設計被開源了！

PaperAgent ? 4137瀏覽 ? 0回復
奧特曼自曝：改版后的GPT-4o諂媚過頭了，系情緒價值拉滿后的結果，實測：大廠薅開源羊毛有錯嗎？沒錯！

51CTO技術棧 ? 2617瀏覽 ? 0回復
八大LLM架構大比較總結：從DeepSeek-V3->qwen3->Kimi K2看LLM架構設計

大模型自然語言處理 ? 6915瀏覽 ? 0回復
8種LLM架構設計大比拼：從 DeepSeek-V3 到 Kimi K2，究竟有啥不同

CourseAI ? 4505瀏覽 ? 0回復
Zhipu AI剛剛發布了GLM-4.5系列：重新定義帶有混合推理的開源代理AI

Halo咯咯 ? 5952瀏覽 ? 0回復
AI 智能體的八種記憶系統架構設計與落地

玄姐聊AGI ? 4413瀏覽 ? 0回復
LLM 上下文窗口越大越好？錯了，用這 6 招給你的 AI Agent「瘦身」

草臺AI ? 1840瀏覽 ? 0回復
讓Agents更聰明，3招搞定記憶管理！

探索AGI ? 2043瀏覽 ? 0回復
Memori：用 SQL 給 AI 加上記憶

Syrupup ? 1897瀏覽 ? 0回復

PaperAgent

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

51CTO

51CTO博客

51CTO學堂

LightMem用3招重新設計了LLM的記憶，結果出乎意料

1. LLM 的“記性”又貴又差

2. 人類記憶的三把鑰匙

3. LightMem 架構：三盞“燈”點亮高效記憶

4. 核心技術拆解

4.1 Light1：預壓縮 + 主題分段

4.2 Light2：主題級短期記憶

4.3 Light3：睡眠期離線合并

5. 實驗結果：又快又準，全線 SOTA

6. 關鍵消融：參數怎么選？

7. 案例：睡眠更新如何避免“誤刪”？

目錄