EMNLP 2025 | CARE:無需外部工具,讓大模型原生檢索增強推理實現上下文高保真
近日,來自 MetaGPT、蒙特利爾大學和 Mila 研究所、麥吉爾大學、耶魯大學等機構的研究團隊發布 CARE 框架,一個新穎的原生檢索增強推理框架,教會 LLM 將推理過程中的上下文事實與模型自身的檢索能力有機結合起來。該框架現已全面開源,包括訓練數據集、訓練代碼、模型 checkpoints 和評估代碼,為社區提供一套完整的、可復現工作。

- 項目主頁:https://foundationagents.github.io/CARE
- 論文地址:https://arxiv.org/abs/2509.13683
- 開源代碼:https://github.com/FoundationAgents/CARE
- 開源模型 & 數據集:
https://huggingface.co/collections/sheryc/care-datasets-emnlp-2025-68be35242afab58f4bed7d97
https://huggingface.co/collections/sheryc/care-checkpoints-emnlp-2025-68be35dbd732816c9d98f258
研究背景
從“外部搜索”到“原生檢索”的轉變
1、現有方法的困境
目前解決上下文保真度問題主要有兩條路:1. 搭建復雜的 RAG 系統,依賴向量數據庫、檢索器等一整套基礎設施;2. 讓模型去調用搜索引擎,但這樣反而忽略了用戶已經提供的寶貴信息。這兩種方法都把檢索當作一個獨立的外部過程,沒有真正融入模型的思考流程。與此同時,目前的LLM有著較強的多任務能力,所以檢索器和理解模型在長上下文閱讀中或許可以被LLM所統一。
2、CARE:讓檢索成為推理的一部分
CARE 的突破在于提出了原生檢索增強推理這一全新范式。簡單來說,就是教會模型在推理過程中利用模型本身的能力自然地引用輸入文本中的關鍵信息。就像學生在答題時會在試卷上劃重點一樣,模型會在思考過程中插入類似“根據文檔第三段提到...”這樣的引用,確保每一步推理都有據可依。
這種方法的優勢顯而易見:不需要額外的檢索系統,不增加推理延遲,部署極其簡單。對于使用 LLM 的項目來說,只需要替換模型權重就能獲得顯著的性能提升。
技術實現:兩階段訓練策略
CARE 采用了精心設計的兩階段訓練流程,確保模型既能學會檢索-推理的格式,又能在各種場景下靈活運用。
第一階段:讓模型學會“引用”
研究團隊首先基于 HotpotQA 數據集構建了訓練數據。通過一個巧妙的數據生成流程,他們將原始的問答數據轉換成包含明確引用的推理鏈。例如,當模型需要回答“約翰的媽媽買的電影票價格合理嗎”時,它會先思考“需要從用戶輸入中抽取約翰的媽媽買票的價格”,再利用自身能力自回歸地引用用戶輸入中出現的原文片段“票價是 15 美元”。之后,它再次思考“需要從用戶輸入中抽取普通票價”,再自回歸地引用“普通場次票價范圍是 10-12 美元”,最后得出結論。
這個階段使用監督學習,讓模型熟悉這種“先查找,再推理”的思考模式。關鍵是使用特殊標記來標識引用內容,讓模型清楚地區分哪些是從原文提取的事實,哪些是自己的推理。
第二階段:強化學習優化檢索質量
然而,僅僅學會格式還不夠,模型需要知道什么時候該檢索,檢索什么內容。第二階段采用強化學習,通過三個精心設計的獎勵信號來引導模型:
準確性獎勵確保最終答案正確,格式獎勵保證輸出規范,研究團隊在檢索獎勵上進行了創新:它鼓勵模型檢索的內容必須真實存在于原文中,不能憑空捏造。這個看似簡單的約束,實際上極大地提升了模型的上下文忠實度。
在此基礎上,為了讓模型能夠適應各種不同長度的輸入輸出,研究團隊引入了課程學習策略,讓模型從簡單的短文本問答逐步過渡到復雜的多跳推理任務。這就像教小孩先學會在一頁紙上找答案,再逐步學會在整本書中尋找線索。

評估效果
為了全面驗證 CARE 框架的有效性,研究團隊在真實世界和反事實(Counterfactual)兩大類問答基準上進行了嚴謹的實驗,并與多種主流方法進行了對比。實驗結果清晰地表明,CARE 在模型上下文保真度和回答準確性方面取得了全面且顯著的提升。
真實世界問答任務:全面超越現有方法
在涵蓋了多領域、長文本、多跳推理等復雜場景的四大主流 QA 基準(MFQA, HotpotQA, 2WikiMQA, MuSiQue)上,CARE 表現出了壓倒性的優勢。
- 性能顯著提升:實驗數據顯示,以 Llama-3.1-8B 模型為例,搭載了 CARE 框架后的模型平均 F1 分數提升了 15.29%。 這一提升在需要綜合多個信息點進行推理的復雜多跳任務(如 2WikiMQA 和 MuSiQue)上尤為明顯,漲幅分別達到了 29.42% 和 18.92%。
- 普適性強:無論是在 Llama 還是 Qwen 等不同架構和尺寸的模型上,CARE 都能帶來一致的性能增益,證明了該框架的強大通用性。

反事實問答任務:真正做到“忠于原文”
為了測試模型在面對與自身“知識”相悖的上下文時,是否能堅守原文信息,研究團隊在 CofCA 基準上進行了測試。這被認為是檢驗模型上下文保真度的“試金石”。CofCA基準將測試中使用的長文檔由維基百科替換為了真實世界中不存在的信息,利用反事實的上下文,測試模型在用戶輸入極度OOD時的幻覺表現。
- 上下文保真度大幅領先:CARE 能夠在給定上下文與模型預訓練知識沖突時,依然準確依據上下文作答,在 LLaMA-3.1 8B 上實現了 13.69% 的性能飛躍。
- 揭示外部搜索的弊端:相比之下,依賴外部搜索引擎的傳統方法在這一任務上表現不佳,因為外部信息反而加劇了模型混淆,導致其忽略了眼前的“標準答案”。這凸顯了 CARE 原生檢索范式的關鍵優勢:優先并忠實于用戶提供的即時信息。

事實檢索能力評估:答得對,更找得準
CARE 的成功不僅體現在最終答案的準確性上。通過在 HotpotQA 基準上對模型檢索出的事實進行直接評估,研究團隊發現:
- 檢索質量更高:與其他方法相比,CARE 在定位和提取關鍵支撐事實方面的能力更強,其檢索內容的 BLEU 和 ROUGE-L 分數均達到最高。 這證明了 CARE 真正學會了如何在推理過程中精準地“引用”原文,為最終答案的可靠性提供了堅實的基礎。

綜合來看,CARE 框架通過其創新的原生檢索增強推理機制,不僅在各項評估中取得了 SOTA 級別的性能,更重要的是,它為解決大型語言模型在實際應用中的“幻覺”和“上下文遺忘”問題,提供了一條高效、低成本且易于部署的全新路徑。
總結
針對 LLM 在上下文中容易丟失事實信息的固有問題,雖然已有借助 RAG 流程或調用檢索引擎進行改進的方式,但使得整體流程更長,耗時更久。CARE 則通過一種結合課程學習策略 + RL 的方法來提升 LLM 自身檢索能力,讓模型更多關注到上下文中的事實信息并進一步回答的更準確。這種使用原生檢索增強推理的范式降低了使用者的對接成本,具備更靈活的落地應用性。

































