讓RAG真正讀懂“言外之意”!新框架引入詞匯多樣性,刷新多項基準SOTA
RAG準確率提升10.6%,多項基準拿下新SOTA!
ACL 2025最新研究提出Lexical Diversity-aware RAG (DRAG) 框架,首次系統(tǒng)性地將詞匯多樣性引入RAG的檢索與生成過程,提供了一個輕量、通用且易擴展的解決方案。
在多項基準任務中,該方法帶來了顯著性能提升,尤其在HotpotQA上刷新了當前最優(yōu)結果。

在大語言模型的浪潮下,Retrieval-Augmented Generation(RAG)已經成為提升模型事實性和時效性的重要手段。然而,現(xiàn)有方法普遍忽視了一個看似細微卻極為關鍵的問題——詞匯多樣性(lexical diversity)。
同一個問題,不同的表達方式,往往讓檢索模型“暈頭轉向”,最終導致錯誤答案。
由此,來自北航、北大、中關村實驗室的研究團隊提出了這項最新工作,他們首次將“詞匯多樣性”引入檢索增強生成的相關性評估過程,并通過新穎的風險稀疏校準機制解決了生成階段被無關信息干擾的問題。
團隊認為,該方法對信息檢索、問答系統(tǒng)、專業(yè)領域大模型應用都具有重要價值。未來,他們計劃進一步拓展該方法到更多專業(yè)場景,讓大模型不僅能“讀懂”,更能“理解”復雜的人類語言表達。
詞匯多樣性:RAG的隱形痛點
研究團隊指出,現(xiàn)有RAG方法大多通過“單一標準”判斷檢索文檔是否相關,但現(xiàn)實情況要復雜得多。如圖所示,以問題“What is Hattie McDaniel’s occupation?”為例,其中的語義成分表現(xiàn)出不同程度“詞匯多樣性”:
- 不變詞(Invariant):人名“Hattie McDaniel”一般不會變形;
- 可變詞(Variant):詞語“occupation”可以對應“profession”“actress”甚至“Academy Award”;
- 補充信息(Supplementary):答案可能依賴“American celebrity”等擴展語境。

這種詞匯多樣性往往導致模型錯誤地將部分相似但無關的文檔判為相關,或者忽略了真正有用的信息。
兩大關鍵創(chuàng)新
為解決“詞匯多樣性”帶來的挑戰(zhàn),研究團隊提出了該框架,核心在于兩個互補模塊:
1、Diversity-sensitive Relevance Analyzer (DRA)
傳統(tǒng)檢索相關性評估往往“一刀切”,把整體查詢和檢索文檔進行比較。該方法則進一步拆解查詢語義,針對不同成分采用差異化策略:
- 不變成分:如人名、地名等必須精確匹配的關鍵詞,該方法強調其檢索文檔應與該成分嚴格匹配;
- 可變成分:如“occupation”—“profession”,DRA借助LLM的語義擴展和分析能力,在檢索時允許一定語義靈活性;
- 補充成分:如“American celebrity”,該方法通過檢索需求的明確程度來判斷是否需要真正提供有用的補充證據(jù)。
在此基礎上,該方法通過該模塊對相似度檢索結果進行重排序,輸出一個更細粒度、多維度的相關性評分,避免檢索時存在的“假陽性”和“假陰性”的常見問題。

2. Risk-guided Sparse Calibration
即使有了更精準的檢索,生成階段仍然可能“被干擾”。Risk-guided Sparse Calibration的設計靈感來自“風險控制”:它會實時監(jiān)控每個生成token的“被誤導風險”,并在必要時進行解碼校準。
- 詞匯風險 (Lexical Risk):檢測生成內容是否過度依賴低相關的詞匯;
- 注意力風險 (Attention Risk):評估模型注意力是否集中在無關段落;
- 預測風險 (Prediction Risk):衡量當前預測是否與檢索證據(jù)存在沖突。
RSC的獨特之處在于它的稀疏性 (sparse calibration):只對高風險token動態(tài)干預,而不會對全局輸出強行重寫,從而保證了生成質量與效率的平衡。
最終,DRA負責“挑選更靠譜的材料”,RSC負責“防止模型走偏”,形成了檢索與生成環(huán)節(jié)的雙保險,讓RAG更穩(wěn)健、更準確。
實驗結果:顯著超越現(xiàn)有方法
團隊在多個開放域問答基準上驗證了該方法:

其中,該方法在PopQA/TriviaQA(短文本問答):準確率分別提升4.9%和4.4%;HotpotQA/2WikiMultiHopQA(多跳問答):準確率均提升10.6%,展現(xiàn)出強泛化性;在ASQA(長答案生成):在str-em、QA-F1等指標上刷新SOTA。

不僅如此,該方法在不同類型、大小的模型上均表現(xiàn)出顯著增益,如Llama2-7B, Llama2-13B, Qwen2-7B, Alpaca-7B和Mistral-7B等。

論文鏈接:
https://aclanthology.org/2025.acl-long.1346/代碼(即將開源):
https://github.com/Zhange21/DRAG



























