ICML'25 | 大模型再爆弱點!舊記憶忘不掉,新記憶分不出,準確率暴降
人們越來越意識到,大語言模型(LLM)里「找信息」這件事,并不是簡單地翻字典,而和「寫信息」的能力緊緊綁在一起。
一般認為,給模型塞入更長的上下文就能讓它找得更準,不過上下文內部存在「互相干擾」,但這種現象卻很少被研究。
為了看清這個問題,弗吉尼亞大學和紐約大學神經科學中心研究人員借用了心理學里的「前攝干擾」(proactive interference)概念:先出現的信息會妨礙我們回憶后來更新的內容。
在人身上,這種干擾越強烈,往往意味著工作記憶容量越小。
于是,研究團隊使用認知科學經典范式設計了一個新的測驗PI-LLM,像播放連續劇一樣,把一組語義相關的「鍵key—值value」配對(例如「key蘋果,value紅色」)依次喂給模型,并不斷更新這些值;最后只問模型「某個key對應的最新value是什么」。
雖然最新value就放在提問前一句話的位置,隨著前面干擾項的增加,模型的正確率卻以對數速度一路跌到接近零,其中錯誤的主要來源是模型把舊value當成了新答案。
研究人員嘗試用提示工程,比如明確告訴模型「請忽略前面所有舊信息」,但效果有限。
這說明,LLM面對干擾時,并不只是「讀到」或「讀不到」的問題,而是像人類一樣存在「工作記憶瓶頸」:即使上下文觸手可及,它們也難以靈活地壓制無關信息。
下一步,也許需要新的方法,讓模型學會在檢索時主動「忘掉」不該用的內容。

論文鏈接: https://arxiv.org/abs/2506.08184
倉庫鏈接: https://github.com/zhuangziGiantfish/Unable-to-Forget
交互式演示: https://zhuangzigiantfish.github.io/Unable-to-Forget/
這篇論文發現了一個影響所有大語言模型(LLM)的信息檢索問題。
該任務對人類沒有難度,但是所有LLM均出現顯著錯誤,并對全局記憶(memory)和長推理任務(long reasoning)造成顯著損害。
論文已被 ICML 2025 Workshop on Long Context Foundation Models接收。
該研究由王楚培(弗吉尼亞大學物理學士,具哲學背景的跨學科研究者)與孫嘉秋(紐約大學神經科學中心博士生,師從上海紐約大學神經與認知科學副教授-紐約大學全球特聘副教授田興)共同主導。共同第一作者,共同通訊作者。兩位作者分別具備物理、建筑與哲學的多元背景,致力于從認知系統崩潰點探索智能本質。
鄭喆陽(Flatiron Institute CCN 客座研究員、紐約大學博士生)與鄺一倫(紐約大學 CILVR Lab 博士生,導師:Yann LeCun)在項目的發起與推進過程中,提供了關鍵性的咨詢和建議。
實驗核心設定

任務數據input
假設給模型一串常見的動態更新的數據(key-value pair),比如:
「Blood Pressure=120, Bp=135, Bp=119」
LLM任務Query
血壓(BP)的最后一個數值(value)是多少?
結果
目前所有主流LLM(從最新的 GPT-4.1、Llama-4、DeepSeek-V3,到Llama-3、Qwen-2.5等,參數規模從0.6B到600B+不等)都無法穩定地提取最后一個數值,而且錯誤方式呈現出明確的數學規律呈現對數下降。
討論
對人類來說,這個任務非常簡單,答案顯而易見是最后一個值119。因為本任務沒有搜索難度。
這種任務模式在金融(賬戶余額變化)、醫療(生理指標跟蹤)、等所有需要追蹤動態數據的領域中都極為常見
實驗結果
核心發現:普適的衰減曲線
隨著更新次數增加,所有模型的準確率都呈現一致的對數線性下降(log-linear decline)。
隨著干擾增多,準確率最終穩定地降至0%。此時,所有模型徹底失靈,100%產生幻覺(hallucination),100%無法給出正確答案。
這種一致的衰減模式跨越了模型架構、規模和訓練資源的差異,強烈暗示問題的根源可能位于Transformer架構或其所依賴的注意力機制等基礎層面。

當語言模型需要在大量語義相似的干擾項之后檢索特定目標信息時,其檢索準確率會顯著且持續地降低,這種對數線性下降趨勢在所有主流模型中均被觀察到。

LLM-PI測試的基本輸入示例:模型需要處理一段連續更新的鍵值key-value信息流(如「visual art」對應多個值),并在更新結束后準確檢索出每個鍵對應的最終值(圖中以加粗顯示)。
實驗設置
測試中要求模型處理1到46個不同的Key,每個Key的更新次數在1到400次之間。
隨機,亂序混合這些更新,然后模型正確提取每個key 的last vale(最新值)的正確率
與人類對比
這一任務的設計本質上非常簡單:
(1)不涉及復雜的搜索
(2)不存在邏輯上的難度
人類可以輕松調整注意力,只關注最新信息,受上文內容干擾程度有限。
分析錯誤答案顯示,模型經常錯誤地提取了無關的上文更新值作為最終答案,這表明當前的LLM在處理此類信息流時難以有效忽略或過濾掉非目標(舊)信息。
進一步的錯誤分布分析揭示,LLM表現出類似有限工作記憶容量的行為模式:它們似乎在有限的表征空間內記錄鍵值對,一旦更新次數超出該容量,檢索性能便會徹底失效。
研究人員還發現,有多種方式可以觸發搜索失敗,均具備相同的對數衰減曲線:1) 增加同時追蹤Key的數量,或者2)增加配對Value的token長度。
這些現象均會對LLM檢索任務準確性造成顯著影響,同時在人類實驗中雖也發現類似現象,但人類的工作記憶并不會在這類任務中徹底失效。
現象解讀:「Unable to Forget」
大模型無法忽略或者忘記無關信息,從而造成徹底搜索失效:
尤為反直覺的是,即使采用最直觀的自然語言干預策略,例如在輸入中明確提示答案所在區域,或直接告訴模型「專注最新更新」或「忘記之前信息」,也無法顯著改善模型表現。
這說明干擾效應強大到足以覆蓋明確的自然語言指令,迫使模型不得不關注舊信息。
由此可以知道,要對抗干擾,很可能需要對模型架構本身或訓練范式進行根本性調整,而非僅依賴提示工程。
LLM為何難以穩定提取最新信息?
對錯誤的分析表示,LLM的失敗并非隨機失誤,而是系統性地受到反復更新的影響。
隨著干擾量的增加,錯誤呈現清晰的階段性演變:
初期:鄰近干擾占主導,檢索錯誤來源主要是緊鄰末尾的value。
中期:干擾范圍擴散,錯誤來源顯著擴大到全文任何區域的value。
后期:徹底混亂,模型輸出高度分散和大量檢索到從未輸入的值。

將模型對某個鍵的響應按其值在更新流中的位置(分11個區間,Bin 1最早 - Bin 11最終)進行統計。
結果顯示:隨著更新次數增加(左→右面板),正確命中最終值(土黃)的比例驟降。 更值得注意的是,錯誤響應從主要聚集在最終更新附近(如Bin 10-11,可能是混淆相鄰更新),逐漸轉變為分散到更早的區間(Bin 1-9)。
此外,返回不存在值(「幻覺」,淺灰)和未返回值(「失效」,深灰)的錯誤也急劇增加,共同描繪出信息過載下模型記憶檢索系統的崩潰圖景。
Top-Down調控的徹底失效
與人類截然不同,LLM在此類提取任務的表現,幾乎不受「自上而下」(Top-Down)prompt提示的影響。這也解釋了為何思維鏈(CoT) 模型在此問題上沒有性能改善。
自然語言prompt失效: 本文測試了多種提示詞(prompt)變體,明確引導模型關注最新信息或忽略歷史干擾(例如,明確標注答案區域、「專注下文」或指令「忘記之前內容」)。結果: 所有自然語言干預措施,均未能顯著提升模型在的提取準確率,也未能改變的log-linear正確率衰退模式。干擾累積時,模型依然頑固地滑向徹底錯誤(0%正確率)
CoT模型沒有改善,即使不設限制的讓模型輸出冗長的的推理過程(CoT),其提取錯誤率曲線與不使用CoT的基線模型幾乎完全重合。這表明,推理無法有效提升模型抵抗上下文信息干擾的能力。
這說明,干擾信息對模型行為的影響超越了自然語言指令所能引導或抑制的范圍。模型「理解」了指令(如聲稱要專注最新值),但在實際操作中無法有效執行,仍被歷史信息強力牽引注意。
問題觸及架構或訓練根本: prompt 和CoT模型的無效性暗示,僅靠提示工程(Prompt Engineering)無法根治此問題。很可能需要在模型架構設計(如注意力機制、記憶模塊)或訓練目標/方法(如引入抗干擾的顯式訓練信號)層面進行創新性調整。這指向了未來研究的一個關鍵方向。

思維鏈(CoT)模型對提升信息檢索抗干擾能力幾乎無效。啟用CoT的版本(虛線)性能曲線與其基礎模型(實線)高度重合或更差。證實:干擾導致的檢索失敗是底層機制問題,無法通過附加的「思考」過程克服。

上圖展示了五種不同的自然語言干預策略(如指令模型「忘記」特定鍵歷史、提示關注后續信息、自我評估相關性、軟會話重置以及技術性的Mock QA重置),它們被設計插入到信息流后期以試圖對抗干擾。
然而實驗表明,所有這些提示工程策略均未能有效緩解信息過載導致的檢索性能崩潰,對數衰減模式依舊,突顯了現有自然語言干預的局限性。
Unable to Forget
此外受LLM提示劫持(Prompt Hacking)的啟發,研究人員設計了一種非自然語言的對抗式提示策略(adversarial prompting),通過構造具有欺騙性的輸入,模擬模型自身的回復格式和邏輯:
在輸入中構造一段虛假的人機對話,暗示所有上文更新都屬于另一個已被回答完畢的舊問題。
這種「欺騙性上下文隔離」策略部分提升了正確率,但提升后的正確率依然遵循log-linear decay規律。
這說明:LLM無法真正「忘記」或忽略那些造成干擾的信息,只能通過特定輸入形式進行一定程度的「屏蔽」。

上圖揭示了關鍵結果:旨在緩解干擾的自然語言提示策略(實線)效果普遍微弱,在高更新量下與基線(黑線)性能曲線幾乎無區別,部分策略反而有害。唯一例外是結構化hack-Mock QA重置(橙色虛線),作為人為設計的「hack method」,它帶來了實質性提升,但仍無法阻止準確性隨信息量增長的整體下滑。
「干擾」作為獨立變量
不同于業內通常認為的輸入文本長度導致注意力稀釋,本文控制變量實驗證明。
模型性能的下降主要由干擾強度驅動,而非單純由文本長度引起。
具體來說,即使固定輸入文本長度,控制干擾強度,LLM的錯誤率依然表現出對數上升。
該實驗對LLM在MRCR測試中的不良表現提供了解釋角度
DeepMind 的 MRCR 和 OpenAI 的 Open MRCR通過仿真測試 在長文本中插入大量相似項,揭示了 LLM 區分相似信息的弱點。
該工作提供了互補且更底層的視角,并證明不需要海量信息也可以觸發檢索錯誤:MRCR測試所稱為的共指消解(coreference)對應人類認知領域的干涉(interference)現象。
研究人員定量剝離出「干擾」(Interference)作為核心獨立變量,直接證明其對性能的因果性負面影響。
結果揭示了此類任務失敗的核心驅動因素之一是模型的抗干擾容量(Anti-Interference Capacity)不足,并提供了精確的量化分析框架(log-linear decay)
OpenAI 在 GPT-4.1 文檔中指出,客戶(尤其在法律、金融領域)高度關注頻繁更新并提取信息的任務。(鏈接Introducing GPT-4.1 in the API)。
研究人員直接指向了MRCR的底層挑戰之一不僅是海量信息的搜索造成的,而是LLM在interference信息面前的檢索失效造成的。
實驗同時對認知科學角度提供了對比:
認知科學的橋梁:該測試在認知科學領域(proactive interference 測試)被廣泛用于衡量人類工作記憶(Working Memory)容量和抗干擾能力。
實驗采用了嚴格對應認知科學的實驗范式。
因此,結果可被解讀為:LLM表現出某種類似工作記憶的有限容量機制,其「抗干擾容量」(Anti-Interference Capacity)是衡量該機制強度的關鍵指標。
LLM的普遍失效,強烈暗示其目前尚缺乏人類般有效進行 Top-Down 控制、以優化利用上下文信息的能力。
任務要求極其明確,搜索難度極低(理論上最利于 LLM)。提升這種能力,對于增強 LLM 在金融、醫療監測等依賴動態數據追蹤的任務中的基礎可靠性至關重要,也對執行long reasoning (長推理)的能力提供可靠性支持。
核心結論
LLM目前不具備人類水平的Top-Down信息關注和處理控制的能力,尤其是在需要抵抗語義相似的上下文信息干擾、精確提取數據的場景下無法穩定工作。
ICML評審意見也認可了該研究揭示了一個此前未被發現的LLM檢索失敗現象,采用認知科學啟發的測試設計方法,具有顯著新穎性。



































