HaluMem:讓AI記憶系統的“幻覺”現形——首個面向記憶系統的操作級幻覺評測基準
在過去一年,AI Agent的“記憶能力”成為熱門話題。從OpenAI的Memory功能到各種長期交互系統,大家都希望AI能“記住你是誰”、“了解你的習慣”、“延續上次的對話”。
但問題是,當 AI 說“我記得你上次提到身體狀況變好了”時,它真的記得對嗎?或者說目前的 AI 離“可靠記憶”還有多遠?
圖1 記憶系統中操作級幻覺的示例
事實上,如圖1所示,在 AI 的“記憶操作”中,其實會存在各種各樣的幻覺。包括:
- 記憶提取幻覺:從對話中抽取關鍵信息時,可能錯誤或虛構事實;
- 記憶更新幻覺:修改舊信息時,可能錯誤或遺漏更新;
- 記憶問答幻覺:引用記憶回答問題時,可能調用了錯誤記憶或編造細節。
這些幻覺一旦發生,會在系統內部累積、傳遞、放大,最終影響AI的回答。于是我們看到這樣的現象:“AI越聊越熟,卻越說越不對。”
HaluMem VS 傳統記憶系統幻覺評估框架
表1 記憶系統幻覺評估基準的比較
圖片
為了有效緩解這些幻覺現象,為 AI 的記憶系統建立系統化的幻覺評估機制顯得尤為重要。但現有關于記憶系統的幻覺評估方法存在顯著的局限性。如表1所示,主流研究多采用端到端的問答式評測框架,難以深入系統內部來探尋記憶幻覺究竟產生于哪個階段。
圖2 HaluMem與現有記憶系統幻覺評估方法的對比
為此,我們發布了業內首個面向記憶系統的操作級幻覺評估基準——HaluMem。如圖2所示,HaluMem 首創了三階段幻覺拆解機制(記憶抽取、記憶更新、記憶問答),并構建了上下文超過 100萬 tokens 的人機對話數據集,系統性地揭示主流記憶系統(Mem0、Memobase、Supermemory 、Zep等)在不同階段的幻覺模式與傳播規律。目前,我們正持續擴展評估范圍,逐步納入 MemOS 等更多記憶系統。
HaluMem 特性:
- 操作級評估: 深入記憶提取、更新與問答階段,精準定位幻覺來源,突破傳統端到端評測的局限 ;
- 真實多輪交互: 基于六階段構建流程,圍繞虛擬用戶生成連貫、真實的人機對話,單個用戶的對話時間跨度超過 10 年,全面模擬記憶的生成、演化與長期積累。
- 豐富記憶類型:覆蓋人物記憶、事件記憶和人際關系記憶,記錄更新前后狀態,保證可追溯與可解釋。
- 雙尺度數據集:提供 HaluMem-Medium(常規評測)與 HaluMem-Long(百萬級上下文)兩種版本,適配不同評測需求。
首輪評估結果顯示,當前主流系統在記憶抽取與更新階段最易產生幻覺,并隨流程傳導至問答環節,成為錯誤主要來源。HaluMem為構建更可靠、可追溯的記憶系統提供了關鍵評測基礎與改進方向。
HaluMem 評估數據集的構建
要想在操作級評估記憶系統的幻覺,首先需要一個能完整覆蓋“記憶生成—更新—調用”全過程的數據集。這樣的數據集須同時滿足三點要求:
- 用戶中心化(User-centric):能反映個體隨時間變化的多維信息;
- 過程可追蹤(Process-traceable):每條記憶的來源與演化路徑清晰;
- 操作可分解(Operation-separable):能獨立評測提取、更新與問答三個階段。
為此,如圖3所示,HaluMem 設計了一套六階段的數據構建流程,從虛擬用戶出發,逐步生成事件流、會話摘要、記憶點與多輪對話。
圖3 HaluMem 數據集構建流程
表2 HaluMemDatasets的統計概述
HaluMem評估框架:讓記憶系統幻覺“可定位、可測量”
在每個用戶的多輪對話中,HaluMem評估數據集為三類關鍵操作提供了對應的“黃金標準”:
- 記憶提取(Extraction):哪些核心記憶點應被系統識別并存儲;
- 記憶更新(Updating):哪些舊記憶應被修改或替換;
- 記憶問答(Question Answering):針對重要記憶點設計的問題與標準答案。
在評測時,系統的實際輸出結果將分別與這三類標注進行比對進行幻覺發生的階段定位。
圖8 幻覺評估流程
實驗部分
在實驗部分,我們對多種主流記憶系統在三個核心任務上進行了系統而全面的評估,涵蓋 Mem0(標準版與 Graph 版)、SuperMemory 、Memobase 和 Zep。基于實驗結果,我們深入分析了各系統在不同記憶操作階段的幻覺特征及其傳播規律。后續還將持續擴展評估范圍,逐步公布更多記憶系統(如 MemOS 等)的對比結果,為記憶系統的研究提供更全面的實證參考。
圖片
首先,我們匯總了各記憶系統在記憶提取(包括記憶完整性和記憶準確性)、記憶更新以及記憶問答三個任務上的所有評估指標(見表3),其結果揭示了當下“記憶系統”研究的真實圖景與未來方向:
(1)記憶提取:覆蓋率與準確率的兩難平衡
當面對超長上下文(HaluMem-Long)時,幾乎所有系統表現顯著下降,尤其是 Mem0系列。除了 Supermemory 之外,其他系統在長文本中提取的記憶數量明顯減少。這表明當前模型在區分關鍵信息與無關細節方面仍然薄弱。各系統總體回憶率均低于60%,說明仍有大量有效記憶點未被捕獲;而相對較高的權重召回率又說明模型能在有限的提取中優先保留重要信息。不過準確率普遍低于62%,幻覺內容比例偏高,顯示出記憶提取仍存在“多而不精”的問題。
(2)記憶更新:鏈路斷點的瓶頸
所有系統的正確更新率均未超過50%,大部分小于30%,且在長文本場景下表現進一步下滑。分析發現,高記憶完整性(Memory Integrity)往往伴隨較好更新準確率;但由于前期記憶提取覆蓋不足,更新階段出現大量“無從更新”的情況,遺漏率普遍超過50%。盡管幻覺率不到1%,但這更多是因為可進入更新流程的樣本太少。換句話說,現有系統在提取—更新鏈路銜接上存在明顯斷層:無法穩定地將舊記憶與新信息對齊。
(3)記憶問答:提取質量決定問答上限
在問答任務中,表現最優的系統往往也是記憶完整性和記憶更新正確性最高的系統,表明“提取是根本”。例如 Mem0 與 Mem0-Graph 在長文本下表現顯著下滑,與它們提取記憶點銳減高度相關。總體來看,各系統問答準確率均低于56%,幻覺率與遺漏率依然較高,且長文本干擾使整體性能進一步下降。這說明當前記憶系統的問答能力高度依賴上游提取的充分性與準確性,在長上下文干擾下仍容易出現“事實偏移”與“記憶混亂”。
圖片
在進一步的記憶類型分析中(見表4),我們考察了各記憶系統在三類記憶上的提取準確率:事件記憶(Event)、人物畫像記憶(Persona)以及關系記憶(Relationship)。實驗結果顯示,不同類型記憶的提取準確率差異明顯:在HaluMem-Medium 上,Zep 表現最佳。但在長語境下 Zep 和 Mem0 系列的表現均大幅下降,反映出現有系統難以在復雜對話中穩定捕捉有效信息。只有 Supermemory 在長語境中表現提升,可能因其傾向于提取更多記憶點,從數量上彌補了部分遺漏。從類型上看,人物畫像記憶的準確率略高,說明靜態特征較易被識別;而事件與關系類記憶更容易出錯,揭示模型在理解動態情節和關系變化方面仍有不足。
圖9 不同問題類型下記憶系統的性能
如圖9所示,對于HaluMem設計的六類問題,各記憶系統整體準確率普遍偏低,仍有較大提升空間。除了 SuperMemory 和 Zep 外,大多數系統一遇到超長語境(HaluMem?Long)就開始“記不住”;而 SuperMemory 和 Zep 則憑借更穩的記憶機制,在兩個數據集上都保持領先。值得注意的是,各系統在“Memory Boundary”和“Memory Conflict”類問題上表現不錯,說明它們具備一定識別未知或誤導信息的能力;但一旦進入需要多輪推理、動態更新或知識遷移的復雜場景,準確率便迅速走低。這揭示出當前記憶系統在復雜邏輯推理與偏好追蹤方面仍存在明顯短板。
圖片
在時效性分析中,我們比較了各記憶系統在“寫入對話”與“記憶檢索”兩個階段的耗時表現。表5結果顯示,寫入階段遠比檢索階段耗時得多,是系統整體計算開銷的主要瓶頸。這意味著要讓智能體變得更“靈活高效”,提升記憶提取與更新的速度將是關鍵方向。在 HaluMem?Medium 上,SuperMemory 綜合表現最佳;而 Mem0 系列的寫入時間過長,表明其在對話處理和記憶構建階段效率不足。在長語境下,部分記憶系統的耗時有所下降,主要源于提取記憶點的減少,而非算法優化帶來的改進。總體而言,當前記憶系統仍需在運行效率與記憶能力之間實現更優平衡,以支持未來更復雜、更實時的智能體交互場景。





































