多階段的多模態RAG幻覺緩解方案:智能眼鏡等實時交互場景比賽方案-MM-RAG
VLMs 在多模態推理中雖表現強大,但在處理特定場景時易產生 “幻覺”,如:復雜場景適配問題:面對第一視角圖像(如智能眼鏡拍攝的實時畫面)、長尾實體(罕見物體 / 概念)、多跳推理問題(需多步邏輯推導)時,模型易因知識不足或誤判生成錯誤結論;知識時效性問題:模型依賴內部先驗知識,對涉及時效性的內容(如實時事件、動態變化的信息)易輸出過時答案。
圖片
比賽鏈接:https://www.aicrowd.com/challenges/meta-crag-mm-challenge-2025
方法
方法pipline
針對多模態RAG中幻覺問題設計了一個多階段驗證中心框架。該框架通過四個核心階段的協同運作,實現“減少幻覺”與“保證信息量”的平衡,同時兼顧效率與可靠性。
1、輕量級查詢路由
目標是通過預先判斷查詢是否需要外部知識,避免不必要的檢索操作,減少 latency(延遲)并降低對模型先驗知識的過度依賴。
方法:使用輕量級語言模型 LLaMA-3.2-1B-Instruct (選擇小參數量模型(1B參數)而非大模型,在保證分類準確性的同時顯著降低計算成本,確保單輪響應符合10秒限時要求)對輸入查詢進行分類,輸出兩個關鍵決策:
- 是否需要外部信息:判斷查詢是否可僅通過模型內部知識回答(如常識性問題“天空是什么顏色”),若無需外部信息則直接跳過檢索階段,減少無效計算。
- 是否需要實時信息:判斷查詢是否涉及時效性內容(如“今天的天氣”),若需實時信息則優先觸發web搜索API,避免依賴模型中過時的知識。
提示詞:
圖片
2、查詢感知檢索
Query-Aware 檢索模塊
Query-Aware 檢索模塊
傳統固定閾值檢索易受數據分布影響(如部分場景下相似度整體偏低),而MAD動態閾值可自適應不同場景。基于查詢語義動態優化檢索結果,減少噪聲信息干擾,構建高質量上下文。
- 步驟1:檢索詞生成對于需要圖像知識的查詢,先通過 BLIP-2(視覺語言模型) 為候選圖像生成簡潔摘要(如“一張包含紅色自行車和藍色圍欄的街道照片”)(提示詞如下),再將圖像摘要與原始查詢融合,生成更精準的檢索詞(而非直接使用原始查詢),提升檢索與查詢的語義匹配度。
圖片
- 步驟2:動態重排序初始檢索通過API返回Top-K相似結果后,引入 MAD(中位數絕對偏差) 動態閾值過濾異常值:
計算所有檢索結果與查詢的相似度得分的中位數,再通過MAD公式(MAD = median(|x - median|))確定合理閾值范圍,剔除得分遠低于閾值的噪聲樣本。
最終保留的結果按相似度排序,構建檢索上下文(圖像元數據+相關文本片段)。
3、雙路徑生成
目的是通過對比兩種生成路徑的一致性,初步驗證答案可靠性,為后續驗證提供依據。 提到單一路徑生成易受檢索噪聲或模型偏見影響,雙路徑對比可暴露知識沖突(如檢索上下文顯示“自行車是紅色”,但模型先驗認為“常見自行車為黑色”),為驗證階段提供明確檢查方向。
- RAG路徑:基于檢索上下文(圖像+文本知識),使用 LLaVA-1.5 生成答案,強制模型優先依賴外部知識。
- 非RAG路徑:僅使用模型內部先驗知識(不輸入檢索上下文),同樣通過LLaVA-1.5生成答案,作為對照基準。
最后對兩條路徑的輸出進行語義一致性評分(使用 Sentence-BERT 計算余弦相似度),若相似度≥0.8則視為“初步一致”,否則標記為“潛在沖突”,需進入后續深度驗證。
提示詞:
圖片
4、驗證與最終確定
CoV通過“整體-局部”兩級驗證,可有效識別細微錯誤(如混淆相似實體);而雙閾值規則平衡了“準確性”與“可用性”,通過多層驗證消除潛在幻覺,基于置信度動態決策最終輸出,避免過度保守(濫用“不知道”)或過度自信(錯誤答案)。
- 步驟1:Chain-of-Verification(CoV)驗證采用兩階段驗證邏輯:
整體檢查:使用 GPT-4o(強推理模型) 作為驗證器,檢查答案是否符合事實準確性(與檢索上下文一致)、邏輯自洽性(無內部矛盾)、完整性(覆蓋查詢關鍵點)。
子問題分解:若整體檢查不通過,將原始查詢分解為多個子問題(如“這張照片中自行車的顏色是什么?”→“照片中是否有自行車?”“自行車的顏色是紅色嗎?”),逐一驗證子問題答案與檢索上下文的匹配度,定位錯誤來源。
- 步驟2:置信度閾值決策驗證器輸出每個答案的置信度分數(0-1.0),并設定雙閾值規則:
高置信度(≥1.0):直接輸出RAG路徑答案(此時一致性檢查與CoV均通過)。
中置信度(0.9-1.0):若雙路徑一致,輸出RAG答案;若不一致,返回“部分信息:[可靠片段]”。
低置信度(<0.9):返回“不知道”,避免幻覺輸出。
提示詞:
圖片
圖片
實驗性能
圖片
參考文獻:Multi-Stage Verification-Centric Framework for Mitigating Hallucination in Multi-Modal RAG,https://arxiv.org/pdf/2507.20136v1repo:https://github.com/Breezelled/KDD-Cup-2025-Meta-CRAG-MM



































