精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

HaluMem:讓AI記憶系統的“幻覺”現形——首個面向記憶系統的操作級幻覺評測基準

人工智能
在 HaluMem?Medium 上,SuperMemory 綜合表現最佳;而 Mem0 系列的寫入時間過長,表明其在對話處理和記憶構建階段效率不足。在長語境下,部分記憶系統的耗時有所下降,主要源于提取記憶點的減少,而非算法優化帶來的改進。

在過去一年,AI Agent的“記憶能力”成為熱門話題。從OpenAI的Memory功能到各種長期交互系統,大家都希望AI能“記住你是誰”、“了解你的習慣”、“延續上次的對話”。

但問題是,當 AI 說“我記得你上次提到身體狀況變好了”時,它真的記得對嗎?或者說目前的 AI 離“可靠記憶”還有多遠?

圖1 記憶系統中操作級幻覺的示例圖1 記憶系統中操作級幻覺的示例

事實上,如圖1所示,在 AI 的“記憶操作”中,其實會存在各種各樣的幻覺。包括:

  • 記憶提取幻覺:從對話中抽取關鍵信息時,可能錯誤或虛構事實;
  • 記憶更新幻覺:修改舊信息時,可能錯誤或遺漏更新;
  • 記憶問答幻覺:引用記憶回答問題時,可能調用了錯誤記憶或編造細節。

這些幻覺一旦發生,會在系統內部累積、傳遞、放大,最終影響AI的回答。于是我們看到這樣的現象:“AI越聊越熟,卻越說越不對。”

HaluMem VS 傳統記憶系統幻覺評估框架

表1 記憶系統幻覺評估基準的比較

圖片圖片

為了有效緩解這些幻覺現象,為 AI 的記憶系統建立系統化的幻覺評估機制顯得尤為重要。但現有關于記憶系統的幻覺評估方法存在顯著的局限性。如表1所示,主流研究多采用端到端的問答式評測框架,難以深入系統內部來探尋記憶幻覺究竟產生于哪個階段。

圖2 HaluMem與現有記憶系統幻覺評估方法的對比圖2 HaluMem與現有記憶系統幻覺評估方法的對比

為此,我們發布了業內首個面向記憶系統的操作級幻覺評估基準——HaluMem。如圖2所示,HaluMem 首創了三階段幻覺拆解機制(記憶抽取、記憶更新、記憶問答),并構建了上下文超過 100萬 tokens 的人機對話數據集,系統性地揭示主流記憶系統(Mem0、Memobase、Supermemory 、Zep等)在不同階段的幻覺模式與傳播規律。目前,我們正持續擴展評估范圍,逐步納入 MemOS 等更多記憶系統。

HaluMem 特性:

  • 操作級評估: 深入記憶提取、更新與問答階段,精準定位幻覺來源,突破傳統端到端評測的局限 ;
  • 真實多輪交互: 基于六階段構建流程,圍繞虛擬用戶生成連貫、真實的人機對話,單個用戶的對話時間跨度超過 10 年,全面模擬記憶的生成、演化與長期積累。
  • 豐富記憶類型:覆蓋人物記憶、事件記憶和人際關系記憶,記錄更新前后狀態,保證可追溯與可解釋。
  • 雙尺度數據集:提供 HaluMem-Medium(常規評測)與 HaluMem-Long(百萬級上下文)兩種版本,適配不同評測需求。

首輪評估結果顯示,當前主流系統在記憶抽取與更新階段最易產生幻覺,并隨流程傳導至問答環節,成為錯誤主要來源。HaluMem為構建更可靠、可追溯的記憶系統提供了關鍵評測基礎與改進方向。

HaluMem 評估數據集的構建

要想在操作級評估記憶系統的幻覺,首先需要一個能完整覆蓋“記憶生成—更新—調用”全過程的數據集。這樣的數據集須同時滿足三點要求:

  1. 用戶中心化(User-centric):能反映個體隨時間變化的多維信息;
  2. 過程可追蹤(Process-traceable):每條記憶的來源與演化路徑清晰;
  3. 操作可分解(Operation-separable):能獨立評測提取、更新與問答三個階段。

為此,如圖3所示,HaluMem 設計了一套六階段的數據構建流程,從虛擬用戶出發,逐步生成事件流、會話摘要、記憶點與多輪對話。

圖3 HaluMem 數據集構建流程圖3 HaluMem 數據集構建流程

表2 HaluMemDatasets的統計概述表2 HaluMemDatasets的統計概述

HaluMem評估框架:讓記憶系統幻覺“可定位、可測量”

在每個用戶的多輪對話中,HaluMem評估數據集為三類關鍵操作提供了對應的“黃金標準”:

  • 記憶提取(Extraction):哪些核心記憶點應被系統識別并存儲;
  • 記憶更新(Updating):哪些舊記憶應被修改或替換;
  • 記憶問答(Question Answering):針對重要記憶點設計的問題與標準答案。

在評測時,系統的實際輸出結果將分別與這三類標注進行比對進行幻覺發生的階段定位。

圖8 幻覺評估流程圖8 幻覺評估流程

實驗部分

在實驗部分,我們對多種主流記憶系統在三個核心任務上進行了系統而全面的評估,涵蓋 Mem0(標準版與 Graph 版)、SuperMemory 、Memobase 和 Zep。基于實驗結果,我們深入分析了各系統在不同記憶操作階段的幻覺特征及其傳播規律。后續還將持續擴展評估范圍,逐步公布更多記憶系統(如 MemOS 等)的對比結果,為記憶系統的研究提供更全面的實證參考。

圖片圖片

首先,我們匯總了各記憶系統在記憶提取(包括記憶完整性和記憶準確性)、記憶更新以及記憶問答三個任務上的所有評估指標(見表3),其結果揭示了當下“記憶系統”研究的真實圖景與未來方向:

(1)記憶提取:覆蓋率與準確率的兩難平衡

當面對超長上下文(HaluMem-Long)時,幾乎所有系統表現顯著下降,尤其是 Mem0系列。除了 Supermemory 之外,其他系統在長文本中提取的記憶數量明顯減少。這表明當前模型在區分關鍵信息與無關細節方面仍然薄弱。各系統總體回憶率均低于60%,說明仍有大量有效記憶點未被捕獲;而相對較高的權重召回率又說明模型能在有限的提取中優先保留重要信息。不過準確率普遍低于62%,幻覺內容比例偏高,顯示出記憶提取仍存在“多而不精”的問題。

(2)記憶更新:鏈路斷點的瓶頸

所有系統的正確更新率均未超過50%,大部分小于30%,且在長文本場景下表現進一步下滑。分析發現,高記憶完整性(Memory Integrity)往往伴隨較好更新準確率;但由于前期記憶提取覆蓋不足,更新階段出現大量“無從更新”的情況,遺漏率普遍超過50%。盡管幻覺率不到1%,但這更多是因為可進入更新流程的樣本太少。換句話說,現有系統在提取—更新鏈路銜接上存在明顯斷層:無法穩定地將舊記憶與新信息對齊。

(3)記憶問答:提取質量決定問答上限

在問答任務中,表現最優的系統往往也是記憶完整性和記憶更新正確性最高的系統,表明“提取是根本”。例如 Mem0 與 Mem0-Graph 在長文本下表現顯著下滑,與它們提取記憶點銳減高度相關。總體來看,各系統問答準確率均低于56%,幻覺率與遺漏率依然較高,且長文本干擾使整體性能進一步下降。這說明當前記憶系統的問答能力高度依賴上游提取的充分性與準確性,在長上下文干擾下仍容易出現“事實偏移”與“記憶混亂”。

圖片圖片

在進一步的記憶類型分析中(見表4),我們考察了各記憶系統在三類記憶上的提取準確率:事件記憶(Event)、人物畫像記憶(Persona)以及關系記憶(Relationship)。實驗結果顯示,不同類型記憶的提取準確率差異明顯:在HaluMem-Medium 上,Zep 表現最佳。但在長語境下 Zep 和 Mem0 系列的表現均大幅下降,反映出現有系統難以在復雜對話中穩定捕捉有效信息。只有 Supermemory 在長語境中表現提升,可能因其傾向于提取更多記憶點,從數量上彌補了部分遺漏。從類型上看,人物畫像記憶的準確率略高,說明靜態特征較易被識別;而事件與關系類記憶更容易出錯,揭示模型在理解動態情節和關系變化方面仍有不足。

圖9 不同問題類型下記憶系統的性能圖9 不同問題類型下記憶系統的性能

如圖9所示,對于HaluMem設計的六類問題,各記憶系統整體準確率普遍偏低,仍有較大提升空間。除了 SuperMemory 和 Zep 外,大多數系統一遇到超長語境(HaluMem?Long)就開始“記不住”;而 SuperMemory 和 Zep 則憑借更穩的記憶機制,在兩個數據集上都保持領先。值得注意的是,各系統在“Memory Boundary”和“Memory Conflict”類問題上表現不錯,說明它們具備一定識別未知或誤導信息的能力;但一旦進入需要多輪推理、動態更新或知識遷移的復雜場景,準確率便迅速走低。這揭示出當前記憶系統在復雜邏輯推理與偏好追蹤方面仍存在明顯短板。

圖片圖片

在時效性分析中,我們比較了各記憶系統在“寫入對話”與“記憶檢索”兩個階段的耗時表現。表5結果顯示,寫入階段遠比檢索階段耗時得多,是系統整體計算開銷的主要瓶頸。這意味著要讓智能體變得更“靈活高效”,提升記憶提取與更新的速度將是關鍵方向。在 HaluMem?Medium 上,SuperMemory 綜合表現最佳;而 Mem0 系列的寫入時間過長,表明其在對話處理和記憶構建階段效率不足。在長語境下,部分記憶系統的耗時有所下降,主要源于提取記憶點的減少,而非算法優化帶來的改進。總體而言,當前記憶系統仍需在運行效率與記憶能力之間實現更優平衡,以支持未來更復雜、更實時的智能體交互場景。

https://huggingface.co/papers/2511.03506

責任編輯:武曉燕 來源: PaperAgent
相關推薦

2025-10-27 01:11:00

2025-06-03 08:32:00

2025-07-29 00:00:00

LLM上下文窗口系統

2025-10-21 08:53:00

2025-11-06 08:54:00

AI模型系統

2025-11-17 08:55:00

2025-09-14 11:57:57

ClaudeChatGPT隱身聊天

2025-10-16 07:42:18

2025-08-11 08:20:02

2025-06-09 08:56:00

2023-05-24 15:15:55

2025-06-13 08:06:41

2025-09-18 10:10:31

2025-07-30 09:15:00

模型開源AI

2025-06-04 04:21:00

AIChatGPT模型

2025-05-08 06:00:00

AI幻覺AI人工智能

2025-11-07 08:44:38

2025-09-03 13:56:50

Mistral AILe ChatChatGPT

2025-09-12 13:32:48

2025-08-04 02:45:00

點贊
收藏

51CTO技術棧公眾號

一区二区三区欧美久久| 韩国精品在线观看| 一区三区二区视频| 国产又黄又嫩又滑又白| 2018av在线| 欧美激情一区二区三区四区| 97免费高清电视剧观看| 日本熟女毛茸茸| 亚洲有吗中文字幕| 亚洲欧美成人网| 自拍视频第一页| 成人不卡视频| 疯狂做受xxxx欧美肥白少妇| 天天成人综合网| 青青草免费观看免费视频在线| 精品一区在线看| 全球成人中文在线| 久草视频精品在线| 91精品国产91久久久久久密臀| 亚洲黄色成人网| 少妇丰满尤物大尺度写真| 成人四虎影院| 欧美性猛交99久久久久99按摩| 超薄肉色丝袜足j调教99| 国产视频网站在线| www久久精品| 国产一区二区不卡视频| av中文字幕免费| 开心九九激情九九欧美日韩精美视频电影 | 国产精品入口麻豆九色| 精品免费一区二区三区蜜桃| 国产高清免费在线观看| 精品无码三级在线观看视频| 国产成人精品最新| 亚洲天堂av片| 亚洲综合丁香| 97在线看免费观看视频在线观看| 婷婷久久综合网| 97精品国产福利一区二区三区| 国产丝袜一区视频在线观看| 性色av蜜臀av浪潮av老女人| 亚洲超碰在线观看| 日韩美女主播在线视频一区二区三区| 亚洲欧美自偷自拍另类| 成人做爰免费视频免费看| 色呦呦国产精品| 国产熟女高潮视频| 亚洲精品福利电影| 欧美三级欧美成人高清www| 中国丰满熟妇xxxx性| 天堂8中文在线| 一区二区三区四区在线免费观看 | 性欧美一区二区| 女人av一区| 亚洲欧洲在线播放| 日韩影视一区二区三区| 精品国产一区一区二区三亚瑟 | 国产精品av一区| 成人毛片视频免费看| 国产成人精品影院| 国产传媒一区二区三区| 国产自产一区二区| 91伊人久久大香线蕉| 久久精品magnetxturnbtih| 三级在线播放| 中文字幕的久久| 亚洲欧洲国产日韩精品| 含羞草www国产在线视频| 亚洲精选视频免费看| 久久久久久久久网| sm久久捆绑调教精品一区| 欧美日韩国产一区二区| 黄色一级二级三级| 日本一区二区三区中文字幕| 91精品国产91久久综合桃花| jjzz黄色片| 亚洲激情播播| 精品久久国产精品| 国产精品日日夜夜| 久久久久久亚洲精品杨幂换脸| 国产精品美女主播在线观看纯欲| 91九色蝌蚪91por成人| 国产成人免费在线| 欧美日韩大片一区二区三区| 999在线视频| 一区二区三区四区视频精品免费 | 中文字幕人妻色偷偷久久| 久久精品噜噜噜成人av农村| 99三级在线| 国际av在线| 亚洲另类色综合网站| 99爱视频在线| 精品麻豆剧传媒av国产九九九| 精品剧情在线观看| 国产三级黄色片| 精品1区2区3区4区| 国产精品久久久久久久久免费| av网站免费播放| 久久久久久电影| 亚洲精品天堂成人片av在线播放| 欧美三级网站| 91精品国产欧美一区二区成人| 老司机午夜免费福利| 日韩大片在线| 2019中文字幕在线| 国产av无码专区亚洲av| 国产亚洲精品aa午夜观看| 亚洲高潮无码久久| 成人国产一区二区三区精品麻豆| 欧美不卡视频一区| 成人黄色短视频| 亚洲综合电影一区二区三区| 99久久久久国产精品免费| 福利在线播放| 亚洲一区二区三区爽爽爽爽爽| 欧美婷婷精品激情| 久久99高清| 久久久久久久97| 国产乱叫456在线| 日本一区免费视频| 黄色片视频在线免费观看| 视频一区中文字幕精品| 色悠悠国产精品| 91精品国产高清一区二区三密臀| 国产**成人网毛片九色 | 3d动漫精品啪啪| 精品人妻一区二区三区蜜桃视频| 一本一本久久| 国产视频一区二区不卡| 日本高清成人vr专区| 欧美福利电影网| 日韩中文字幕av| 蜜桃传媒视频麻豆第一区免费观看| 香港伦理在线| 欧美天堂一区二区三区| 日本xxxxxxxxx18| 国产精品人人爽人人做我的可爱| 成人h视频在线| 日本视频在线观看| 欧美精品三级日韩久久| 农村老熟妇乱子伦视频| 三级影片在线观看欧美日韩一区二区| 国产精品一区二区av| 污污网站在线观看| 欧美亚洲国产怡红院影院| 婷婷色一区二区三区| 日韩va欧美va亚洲va久久| 欧美午夜精品久久久久免费视| 天堂中文最新版在线中文| 日韩精品免费在线观看| 五月婷婷视频在线| 久久久久久麻豆| 国产a视频免费观看| 国产精品嫩草影院在线看| 国产不卡av在线免费观看| 黄色在线网站| 欧美日韩国产综合视频在线观看| 欧美色图17p| 国产精品影视网| 欧美a级免费视频| 国产精品白浆| 欧美中文在线观看| 国产高清视频在线观看| 在线日韩av片| 伊人在线视频观看| 国产精品 欧美精品| av无码久久久久久不卡网站| 欧美色资源站| 国产精品福利在线观看网址| 蜜桃视频在线观看www社区| 欧美午夜片在线观看| 麻豆天美蜜桃91| 国产在线观看一区二区| 热久久最新地址| 欧美人与动xxxxz0oz| 国产成人精品免高潮费视频| 欧美69xxx| 精品sm在线观看| 五月婷婷激情视频| 国产精品久久久久久福利一牛影视 | 亚洲人成人无码网www国产| 日本不卡一区二区三区高清视频| 一区二区视频在线观看| 6080亚洲理论片在线观看| 日本精品va在线观看| 欧美人xxx| 亚洲国产欧美自拍| 中文字幕你懂的| 午夜久久福利影院| 99自拍偷拍视频| www.爱久久.com| 日本黄大片一区二区三区| 狠狠入ady亚洲精品经典电影| 裸体丰满少妇做受久久99精品| 电影亚洲一区| 久久欧美在线电影| 色哟哟免费在线观看| 日韩精品免费综合视频在线播放 | 亚洲午夜精品视频| 亚洲av永久无码国产精品久久| 色悠悠久久综合| 精品亚洲永久免费| 国产精品欧美一区喷水| 国模私拍在线观看| 韩国视频一区二区| 色哟哟精品视频| 国产日韩欧美高清免费| 一级黄色片播放| 波多野结衣一区| 精品乱码一区二区三区| 欧美另类中文字幕| 国产欧美 在线欧美| 中文av在线全新| 久久久午夜视频| av文字幕在线观看| 在线看片第一页欧美| 天天射天天操天天干| 日韩一级免费一区| 中文字幕av片| 在线观看日韩国产| 影音先锋亚洲天堂| 亚洲一二三四区不卡| 国产三级国产精品国产国在线观看| 久久免费看少妇高潮| xxxx黄色片| 成人动漫一区二区| 日韩不卡的av| 黑人精品欧美一区二区蜜桃| 中文久久久久久| 日韩电影在线观看一区| 欧美成人精品欧美一级乱| 亚洲男女自偷自拍| 3d动漫一区二区三区| 精品1区2区3区4区| 成年人视频网站免费| 亚洲欧洲日韩| 干日本少妇视频| 天天操综合网| 99精品视频网站| 888久久久| 神马午夜伦理影院| 欧美日韩国产亚洲一区| 青草全福视在线| 国语精品一区| 我的公把我弄高潮了视频| 国内精品久久久久久久影视蜜臀 | 国产伦精品一区二区三区视频青涩 | 免费黄色特级片| 噜噜爱69成人精品| 日日摸天天爽天天爽视频| 视频一区视频二区在线观看| 久久久久久久久久久久久国产精品| 久久久久久色| 天天操天天爽天天射| 另类人妖一区二区av| 五月六月丁香婷婷| 丁香天五香天堂综合| 黄色av网址在线观看| 久久噜噜亚洲综合| 日本一区二区视频在线播放| 国产精品电影一区二区三区| 免费成人深夜夜行网站| 一区二区视频在线看| 国产在线免费视频| 日韩欧美综合在线视频| 在线观看亚洲黄色| 91麻豆精品国产91久久久使用方法 | 校园春色亚洲色图| 国产精品久久视频| 日韩激情欧美| 欧美日韩精品免费在线观看视频| 狠狠综合久久av一区二区蜜桃| 中文字幕在线中文字幕日亚韩一区| 天天影视欧美综合在线观看| 国产精品无码免费专区午夜| 亚洲永久网站| 色一情一区二区| 成人午夜视频在线| 熟女高潮一区二区三区| 1000部国产精品成人观看| 久久精品免费av| 欧洲在线/亚洲| 亚洲第九十九页| 亚洲人成在线观看网站高清| 成人免费看片| 欧美在线性爱视频| 欧美h版在线观看| 欧美精品七区| 在线国产一区二区| 久久久久狠狠高潮亚洲精品| 韩国av一区二区三区| 天堂久久久久久| 中文字幕亚洲欧美在线不卡| 国产精品50页| 欧美精选在线播放| 日韩福利一区二区| 欧美大片免费看| www.久久| 久久久久久久久久久一区| 99久久夜色精品国产亚洲96| 91视频 -- 69xx| 国产一区二区在线看| av女人的天堂| 精品成人在线视频| 精品国产亚洲av麻豆| 色悠悠久久88| 欧美大片免费| 国产视频一区二区不卡| 伊人青青综合网| 亚洲欧美国产日韩综合| 337p粉嫩大胆噜噜噜噜噜91av| 性欧美疯狂猛交69hd| 日本久久精品电影| 深爱激情五月婷婷| 色综合老司机第九色激情| 台湾天天综合人成在线| 欧美日韩一区二区视频在线| 亚洲黄色精品| 中文字幕在线观看91| 亚洲乱码日产精品bd| 亚洲熟妇无码久久精品| 亚洲色图第一页| 亚洲天堂手机| 韩国一区二区三区美女美女秀 | 亚洲欧洲av| 极品美女扒开粉嫩小泬| 国产成人av一区二区三区在线 | 午夜国产福利一区二区| 欧美体内she精视频| 免费看男男www网站入口在线 | 五月天激情国产综合婷婷婷| 欧美成人女星排行榜| 91蜜桃在线视频| 亚洲一区二区三区xxx视频| 国产精品久久久久久影院8一贰佰| 久久久精品麻豆| 国产精品午夜电影| 中文字幕久久久久| 最近中文字幕2019免费| 亚洲黑人在线| 欧美日韩一级在线| 国产一区二区三区免费观看| 日本一级片免费| 欧美一区二区视频网站| 看黄网站在线| 亚洲free性xxxx护士白浆| 女生裸体视频一区二区三区| av在线天堂网| 午夜久久久久久电影| 亚洲色大成网站www| 热久久美女精品天天吊色| 亚洲婷婷丁香| 性刺激的欧美三级视频| 中文字幕日本不卡| a级片在线播放| 国内外成人免费激情在线视频网站| 精品无人区一区二区| jizzjizzxxxx| 欧美国产激情一区二区三区蜜月| 中文字幕精品一区二| 欧美乱大交xxxxx另类电影| 亚洲精品一区国产| 亚洲欧洲日产国码无码久久99| 久久精品人人做人人综合 | 欧美精品一区二区三区四区| 久久影院午夜精品| 日韩免费电影一区二区| 极品少妇xxxx偷拍精品少妇| 91视频免费在线看| 亚洲经典中文字幕| 电影天堂国产精品| 法国空姐在线观看免费| av一区二区久久| 中文在线字幕免费观| 欧美成人免费va影院高清| 秋霞影院一区二区三区| 国产三级日本三级在线播放| 亚洲免费在线观看视频| 日本一本草久在线中文| 国产欧美日韩亚洲精品| 樱桃成人精品视频在线播放| 亚洲女优在线观看| 欧美成人bangbros| 国产极品久久久久久久久波多结野| www.黄色网址.com| 久久亚洲精品国产精品紫薇| 国产精品女同一区二区| 26uuu另类亚洲欧美日本老年| 久久视频国产| 麻豆国产精品一区| 欧美精品三级在线观看| xx欧美视频| 免费日韩在线观看| 国产欧美日韩精品在线| 狠狠躁日日躁夜夜躁av| 国产精品一区二区三区免费视频 | 色先锋久久av资源部| 欧美大片黄色| 一区不卡视频| wwww国产精品欧美|