具身智能體不再失憶!智源新記憶系統讓機器人秒變熟人,支持終身記憶
每次跟AI開聊都像重新認識一個陌生人,還得從頭開始了解。
現在不用重新教了,新記憶系統讓具身智能體秒變熟人。
智源研究院(BAAI)、Spin Matrix、樂聚機器人與新加坡南洋理工大學等聯合提出了一個全新的終身記憶系統——RoboBrain-Memory。

△RoboBrain-Memory 讓機器人成為一個真正“有記性、更懂你”的實時智能伙伴。
RoboBrain-Memory是全球范圍內首個專為全雙工、全模態模型設計的終身記憶系統,旨在解決具身智能體在真實世界的復雜交互問題,不僅支持實時音視頻中多用戶身份識別與關系理解,還能動態維護個體檔案與社會關系圖譜,從而實現類人的長期個性化交互。
下面具體來看。
模型架構:異步進程、兩級系統,讓“記憶”可存、可聯、可用
RoboBrain-Memory的核心架構以三大異步進程與兩級記憶體系為基礎,實現“記憶”的可存、可聯、可用。
三大異步進程:支撐用戶建檔、識別、個性化對話全流程
RoboBrain-Memory的記憶單元(Memory Unit)以文本形式存儲每個用戶的檔案信息,包括姓名、相關事實、對話歷史、性格偏好信息等。
除此之外,用戶之間的社交關系圖或其他文本參考信息也可以作為可選項進行存儲。這些記憶單元的內容會作為上下文實時地插入主對話的多模態 token 流的固定區段內,從而實現個性化對話。
具體說,RoboBrain-Memory 的設計圍繞三大異步進程展開,模擬了人類的記憶形成機制:
- 檢索進程(Retrieval Process)檢索進程賦予了模型卓越的感知能力。通過視覺(人臉)與聽覺(聲紋)檢索用戶檔案庫,讓系統能實時“認出”對話的你;同時,文本檢索則根據聊天內容,從用戶檔案庫中撈取相關事實與關系。
- 全模態交互進程(Omnimodal Interaction Process) 對話進程結合對話上下文與檢索到的用戶檔案,調用主模型生成個性化、實時的語音回復。團隊使用RoboEgo作為主模型。它不僅具備全模態交互能力,其原生全雙工架構更是實現了“毫秒級”的響應延遲。這意味著與模型的對話可以像真人交流一樣自然流暢。該模型在日常對話中的回復內容質量也與Qwen-2.5-Omni等頂尖模型持平。
- 記憶管理進程(Memory Management Process) 記憶管理進程主要承擔兩項記憶管理功能:(1)從歷史視聽流中自動檢測對話邊界,并提取關鍵信息,形成事件記憶(Episodic Memory),結合該信息與當前用戶已有的檔案,對記憶單元進行更新。(2)在后臺整合已有的記憶內容,提煉出新的記憶,通過自我更新實現記憶重塑(Memory Reconsolidation)。
兩級記憶系統:從個人檔案到社交圖譜
RoboBrain-Memory將記憶信息劃分為Level-1和Level-2兩個層級。
- Level-1:個人檔案記憶,記住“你是誰”

它如同每位用戶的專屬資料庫,精準記錄從歷史對話中獲知的用戶姓名、喜好等關鍵信息,確保AI能識別并理解每一個獨立的你。其運行機制如下:
- 身份識別:對話過程中定期通過匹配人臉和聲紋,確定當前對話用戶。
- 人格注入:在對話用戶切換時,將新用戶的檔案置入模型的固定內存區(Level-1 MemChunk)。
- 個性化回復:模型結合實時視聽流和當前用戶檔案,生成個性化回復。
- 檔案更新:定期通過總結用戶的對話內容,異步更新其個人檔案。
- Level-2:關系驅動記憶,理解“你們的關系”

在Level-1基礎上,它進一步構建了用戶之間的社交記憶網絡。這使得AI不僅能看懂個體,更能洞察群體,并能在對話中主動調用個體間關系信息,讓交流更符合社交情境。其運行機制如下:
- 繼承與擴展:完全繼承Level-1所有功能,并新增以三元組形式存儲的用戶關系圖。
- 主動檢索:模型可根據對話上下文,主動生成查詢來檢索關系圖和相關用戶檔案。
- 增強回復:檢索到的關系信息被置入另一個固定內存區(Level-2 MemChunk)。
- 綜合生成:模型結合實時視聽流、個人檔案和關系信息,生成更合理的回復。
- 圖譜更新:記憶管理系統在更新個人檔案的同時,也會相應更新用戶關系圖。
核心創新:面向視聽流的全模態檢索、記憶管理、模型訓練
為了支持異步進程+兩級記憶系統這一核心架構,團隊開發了三個關鍵子模塊:
全模態檢索系統
通過高效的人臉識別(Retinaface+Facenet512)與聲紋識別(微調 WavLM),系統可實時精準地識別用戶身份,并自動為新用戶創建檔案。文本檢索采用BM25和BGE-small向量模型,實現關系查詢和事實檢索的兩階段融合,顯著提升了多用戶、多關系場景下的信息檢索效率與準確率。
視聽流終身記憶管理
引入RQ-Transformer觸發器,實現對音視頻流的序列標注,精準定位每一輪對話的起止。結合大模型能力,系統可自動完成事件總結、檔案與關系圖譜的動態更新,實現記憶的持續進化和自我修正。
基于監督mask的統一訓練框架
通過合成多用戶“聽、說、文本”三軌token流,系統進行大規模數據增強。在訓練階段,采用分時區監督mask對多種任務的數據組織結構進行統一,賦予模型個性化對話生成、主動查詢和對話邊界識別三大能力。

能力驗證
系統能力通過多項權威評測全面驗證:
- 檢索性能:在人臉識別(LFW)、聲紋識別(VoxCeleb)及自建多用戶文本檢索測試集上,分別取得98.4%準確率、<1% 等錯誤率(EER)及96%以上文本pass@5,響應延遲低于0.2秒,滿足實時需求。
- 對話邊界識別:在自建多用戶數據集上,觸發器模塊在0.4秒容錯下識別率超98%,且具備出色的抗噪聲能力。
- 個性化對話能力:經RoboEgo主模型微調,在噪聲環境下實現87.6%事實正確性和8.82/10回答質量,系統吞吐速率>20fps,遠超實時語音對話需求。
這些結果表明,RoboBrain-Memory不僅在標準評測下表現優異,更在真實多用戶、復雜環境下實現了穩定、可靠的終身記憶與個性化交互。
構筑人機協作的新基石
RoboBrain-Memory 為具身智能理解人類意圖與社會關系提供了一個新的起點。系統已在實現個性化、社會化的長期人機協作方面展現出潛力,并具備以下關鍵場景的應用前景:
- 融入家庭環境:系統能夠識別并利用家庭成員間的社會關系模型,支持執行高階、非結構化的語義指令,例如“將藥物遞給奶奶”、“下午提醒爸爸買菜”。
- 提升專業協作效能:在高協作要求的專業環境(如實驗室、工廠、醫院等),系統能夠基于身份和角色的指令(“把報告交給張主任”)精準響應,優化人機協作,提升工作效率。
- 支持認知輔助:該系統的長期記憶框架有望作為認知輔助技術的基礎,幫助有需要的人群更有效地進行社會連接和任務管理,也讓更自然、更有溫度的長期伙伴關系成為可能。
作為智源研究院探索具身智能如何融入人類社會環境的一次重要嘗試,RoboBrain-Memory也開啟了一個重要的研究前沿:如何將這種基于社會記憶和關系的理解能力,轉化為可泛化、可信賴的長期人機伙伴關系?
團隊期待與學界及產業伙伴一道,在家庭、醫療、科研等更廣泛的場景中,深化對RoboBrain-Memory系統的探索,推動技術扎實落地,讓機器真正融入生活,讀懂你我。
感興趣的朋友可閱讀技術報告了解更多內容~
技術報告:https://arxiv.org/abs/2509.11914
































