當RAG遇上噪聲難題:中科院團隊提出“段落注入”,讓LLMs在推理中辨偽存真

在檢索增強生成(RAG)技術廣泛應用的今天,一個關鍵問題始終困擾著開發者:檢索到的段落往往夾雜噪聲(低質量、無關甚至誤導性內容),這些噪聲會誤導大語言模型(LLMs),導致生成錯誤答案,嚴重削弱RAG系統的可靠性。
中科院的團隊發表于2025年SIGIR-AP會議的一項研究,為解決這一難題提供了新思路。該研究從LLMs的推理與自我反思能力出發,提出“段落注入(Passage Injection)”方法,將檢索段落實例性地融入模型推理過程,既提升了RAG系統的整體性能,又顯著增強了模型對噪聲的抵御能力。
- 論文地址:https://arxiv.org/pdf/2507.19333
- 項目地址:https://github.com/Trustworthy-Information-Access/Passage-Injection
01、研究背景:RAG的痛點與LLMs的新能力
RAG的核心價值與噪聲困境
RAG的核心邏輯是“檢索+生成”:通過檢索器從外部語料庫中獲取與問題相關的段落,再將這些段落作為補充知識輸入LLMs,幫助模型突破“參數知識有限”的瓶頸,在知識密集型任務(如事實問答)中表現更優。
但現實中,檢索器無法保證100%獲取高質量段落——可能檢索到與問題無關的“隨機噪聲”,也可能遇到篡改關鍵信息的“反事實噪聲”(例如將“北愛爾蘭屬于英國”錯誤表述為“屬于美國”)。這些噪聲會讓LLMs“誤入歧途”,生成錯誤答案,成為RAG系統可靠性的最大短板。
推理增強型LLMs的新機遇
近年來,推理增強型LLMs(如Qwen3、DeepSeek-R1)成為研究熱點。這類模型的核心優勢在于:生成最終答案前,會在特定標記(如</think></think>)內生成中間推理步驟,并通過自我反思識別、修正推理中的錯誤。
這一能力為解決RAG噪聲問題提供了靈感:如果能將檢索到的段落(包括噪聲段落)融入模型的推理過程,而非簡單拼接在輸入開頭,模型或許能像審視自身推理一樣,主動辨別段落中的錯誤,從而減少噪聲干擾。
02、方法解析:從“輸入拼接”到“推理注入”
要理解“段落注入”的創新之處,需先明確推理增強型LLMs的工作邏輯,以及傳統RAG的局限。
基礎:推理增強型LLMs的問答流程
對于任意問題q,推理增強型LLMs的問答過程分為三個階段,核心是“顯式推理”:
- 輸入階段(Input Phase):模型接收并編碼問題q;
- 推理階段(Reasoning Phase):模型在
</think></think>標簽內生成推理與自我反思過程(例如“要回答‘Jamie Dornan的國籍’,需先確認他的出生地...”); - 響應階段(Response Phase):在</think></think>標簽后生成最終答案a。
這種流程能讓模型充分利用內部知識,但也可能導致“過度思考”——推理路徑過長、計算開銷增加,甚至產生幻覺。
目前,為LLMs賦予這種推理能力主要有兩種方式:
- 強化學習:讓模型自主探索推理路徑(如Qwen3系列);
- 蒸餾技術:通過教師模型的監督學習獲得推理能力(如DeepSeek-R1-Distill-Qwen)。
傳統RAG的局限:基礎RAG(Vanilla RAG)
傳統RAG的做法非常直接:將檢索到的段落集合DDD與問題qqq拼接后,直接輸入模型的“輸入階段”,即“問題+段落”的固定格式。
這種方式的核心問題是注意力不足:模型可能將段落視為“背景信息”,而非需要仔細校驗的“推理依據”,一旦段落包含噪聲,模型很容易被誤導。
例如在“Jamie Dornan的國籍”問題中,若檢索段落錯誤表述“北愛爾蘭是美國的一部分”,基礎RAG會直接采信這一信息,生成“美國”的錯誤答案(如圖1(a)左側所示)。
創新方案:段落注入(Passage Injection)
“段落注入”的核心改變是將段落從“輸入階段”移至“推理階段”:
- 仍遵循“先檢索后閱讀”流程:用檢索器(如BM25)獲取與問題q相關的段落集合D;
- 輸入階段僅提供問題q,不附加任何段落;
- 推理階段中,模型先將段落集合D嵌入
</think></think>標簽內的推理過程,再結合自身知識分析段落內容; - 最后通過自我反思識別段落中的錯誤(若有),生成正確答案。
以“Jamie Dornan的國籍”問題為例,段落注入會讓模型在推理階段主動分析:“段落提到‘北愛爾蘭屬于美國’,這與我的知識沖突——北愛爾蘭實際是英國的一部分,因此段落此處存在錯誤,正確國籍應為英國”(如圖1(a)右側所示)。
消融實驗:指令注入(Instruction Injection)
為驗證“段落融入推理”的必要性,研究還設計了“指令注入”作為對照:僅將“如何使用段落”的指令(如“需結合段落與自身知識回答”)注入推理階段,段落本身仍留在輸入階段。
這一設置用于排除“僅靠指令提醒”的影響——后續實驗證明,僅注入指令的效果遠不及注入段落,說明“讓模型在推理中直接校驗段落內容”才是關鍵。

03、實驗驗證:從通用場景到噪聲挑戰
為全面驗證“段落注入”的效果,研究設計了三類實驗:通用RAG場景、噪聲場景(隨機噪聲+反事實噪聲)、正確段落場景,覆蓋了RAG的核心應用場景。
通用RAG場景:性能全面提升
在無額外噪聲的通用場景中,“段落注入”展現出顯著優勢:
- 全模型最優:無論模型規模(8B/14B/32B)或類型(原生推理模型/蒸餾模型),段落注入的平均F1分數均高于基礎RAG與指令注入;
- 多跳任務增益更明顯:相較于單跳任務(PopQA),多跳任務(如HotpotQA)的性能提升幅度更大——原因是多跳問題需要更復雜的推理,段落注入能幫助模型更精準地利用段落中的多步關聯信息;
- 蒸餾模型的特殊性:蒸餾模型(DeepSeek-R1-Distill-Qwen-32B)在基礎RAG場景下表現優于原生模型(Qwen3-32B),但段落注入對其提升幅度更小——推測是因為蒸餾模型的推理能力源于“模仿教師模型”,而非自主探索,對推理過程的修改敏感度較低。

噪聲場景:魯棒性顯著增強
噪聲是RAG的核心痛點,研究重點測試了兩種典型噪聲:
- 隨機噪聲:為每個問題隨機匹配3個無關段落(如問“國籍”,給“天氣”相關段落);
- 反事實噪聲:采用ConFiQA數據集,段落表述流暢但關鍵事實錯誤(如“愛因斯坦發明了電燈”)。
實驗結果(如圖2所示)顯示:
- 兩種噪聲下均占優:無論隨機噪聲還是反事實噪聲,段落注入的F1分數均顯著高于基礎RAG,尤其在更難的反事實噪聲場景中,優勢更明顯;
- 抗干擾能力的關鍵:指令注入雖能提升一定魯棒性,但遠不及段落注入——證明“讓模型在推理中直接校驗段落”是抵御噪聲的核心;
- 模型規模不影響優勢:從8B到32B參數模型,段落注入的提升趨勢一致,說明該方法對不同規模的推理增強型LLMs均適用。

正確段落場景:不犧牲有用信息
除了抵御噪聲,RAG還需高效利用“正確段落”(包含答案的高質量段落)。研究在僅提供正確段落的場景中測試發現:
- 與基礎RAG性能相當:段落注入在正確段落場景下,并未因“推理階段融入”而降低效率,說明其在抵御噪聲的同時,不影響對有用信息的利用;
- 小模型更受益:在8B小模型上,段落注入的性能略優于基礎RAG——原因是小模型的參數知識有限,將正確段落融入推理能幫助其更精準地提取關鍵信息,而32B大模型已能直接從輸入中高效獲取正確信息。

額外優勢:減少過度思考,縮短輸出長度
實驗還發現一個意外收獲:段落注入能顯著縮短模型的輸出長度(如表2所示)。例如Qwen3-32B在CWQ數據集上,基礎RAG的平均輸出長度為2267字符,而段落注入僅為1199字符。
這是因為段落注入讓模型的推理更“聚焦”——無需在輸入中反復掃描段落,而是在推理階段直接結合段落分析,減少了冗余的思考過程,既降低計算開銷,又讓答案更簡潔。

04、總結
“段落注入(Passage Injection)” 方法在RAG系統優化中展現出明確價值:不僅能顯著提升系統整體性能,強化模型對噪聲段落的魯棒性,還能在抵御噪聲的同時,兼顧對有用段落的有效利用,為 RAG 系統的可靠性提升提供了新思路。然而,從實際應用場景的適配性來看,該方法在當前多數 RAG 應用中仍存在一定適用性局限,需從模型依賴與時延需求兩方面客觀審視。
從模型適配性角度,段落注入方法的核心優勢高度依賴推理增強型大語言模型(LLMs)的特性 —— 這類模型具備顯式的中間推理與自我反思能力,能夠將檢索段落融入推理過程,主動識別并抵御噪聲。但當前多數 RAG 應用場景為平衡成本與運行效率,更傾向于采用非推理型基礎 LLM(如側重生成速度的輕量型模型)。這類非推理模型缺乏 “顯式中間推理階段” 這一技術前提,既無法實現 “將檢索段落嵌入推理過程” 的操作,也難以發揮段落注入在噪聲識別、錯誤修正上的核心價值,最終導致方法與實際場景的模型基礎不匹配,限制了其應用范圍。
從時延需求角度,段落注入方法在推理階段需額外完成檢索段落的融入、內容分析與錯誤校驗,相較于基礎 RAG(Vanilla RAG)“直接將段落拼接至輸入” 的簡單流程,顯著增加了推理鏈路的復雜度與計算步驟。而多數 RAG 實際應用(如實時問答系統、智能客服對話機器人等)對時延敏感度極高,要求模型在短時間內快速響應并生成結果,段落注入帶來的時延增量可能超出場景可接受范圍,進而影響用戶體驗或系統整體運行效率。
綜上,盡管段落注入在推理增強型 LLM 適配場景與噪聲敏感型任務中表現出突出的性能優勢,但受限于當前多數 RAG 應用對 “非推理模型” 的依賴,以及對 “低時延” 的核心需求,該方法在主流應用場景中的適配性仍有待提升。未來探索檢索端與生成端的協同優化,若推理模型在思考過程中能識別出 “哪些段落是噪聲”“哪些段落對推理有用”,這種來自推理階段的反饋(本質是對檢索結果質量的判斷),理論上可作為強化學習的獎勵信號,反哺檢索器的優化(如調整檢索策略、優化相關性排序算法),從源頭減少噪聲段落的檢索,進一步提升 RAG 系統的整體性能。


































