多階段的多模態(tài)RAG幻覺(jué)緩解方案:智能眼鏡等實(shí)時(shí)交互場(chǎng)景比賽方案-MM-RAG 原創(chuàng)
VLMs 在多模態(tài)推理中雖表現(xiàn)強(qiáng)大,但在處理特定場(chǎng)景時(shí)易產(chǎn)生 “幻覺(jué)”,如:復(fù)雜場(chǎng)景適配問(wèn)題:面對(duì)第一視角圖像(如智能眼鏡拍攝的實(shí)時(shí)畫面)、長(zhǎng)尾實(shí)體(罕見(jiàn)物體 / 概念)、多跳推理問(wèn)題(需多步邏輯推導(dǎo))時(shí),模型易因知識(shí)不足或誤判生成錯(cuò)誤結(jié)論;知識(shí)時(shí)效性問(wèn)題:模型依賴內(nèi)部先驗(yàn)知識(shí),對(duì)涉及時(shí)效性的內(nèi)容(如實(shí)時(shí)事件、動(dòng)態(tài)變化的信息)易輸出過(guò)時(shí)答案。

比賽鏈接:https://www.aicrowd.com/challenges/meta-crag-mm-challenge-2025
方法

方法pipline
針對(duì)多模態(tài)RAG中幻覺(jué)問(wèn)題設(shè)計(jì)了一個(gè)多階段驗(yàn)證中心框架。該框架通過(guò)四個(gè)核心階段的協(xié)同運(yùn)作,實(shí)現(xiàn)“減少幻覺(jué)”與“保證信息量”的平衡,同時(shí)兼顧效率與可靠性。
1、輕量級(jí)查詢路由
目標(biāo)是通過(guò)預(yù)先判斷查詢是否需要外部知識(shí),避免不必要的檢索操作,減少 latency(延遲)并降低對(duì)模型先驗(yàn)知識(shí)的過(guò)度依賴。
方法:使用輕量級(jí)語(yǔ)言模型 LLaMA-3.2-1B-Instruct (選擇小參數(shù)量模型(1B參數(shù))而非大模型,在保證分類準(zhǔn)確性的同時(shí)顯著降低計(jì)算成本,確保單輪響應(yīng)符合10秒限時(shí)要求)對(duì)輸入查詢進(jìn)行分類,輸出兩個(gè)關(guān)鍵決策:
- 是否需要外部信息:判斷查詢是否可僅通過(guò)模型內(nèi)部知識(shí)回答(如常識(shí)性問(wèn)題“天空是什么顏色”),若無(wú)需外部信息則直接跳過(guò)檢索階段,減少無(wú)效計(jì)算。
- 是否需要實(shí)時(shí)信息:判斷查詢是否涉及時(shí)效性內(nèi)容(如“今天的天氣”),若需實(shí)時(shí)信息則優(yōu)先觸發(fā)web搜索API,避免依賴模型中過(guò)時(shí)的知識(shí)。
提示詞:

2、查詢感知檢索

Query-Aware 檢索模塊
傳統(tǒng)固定閾值檢索易受數(shù)據(jù)分布影響(如部分場(chǎng)景下相似度整體偏低),而MAD動(dòng)態(tài)閾值可自適應(yīng)不同場(chǎng)景?;诓樵冋Z(yǔ)義動(dòng)態(tài)優(yōu)化檢索結(jié)果,減少噪聲信息干擾,構(gòu)建高質(zhì)量上下文。
- 步驟1:檢索詞生成對(duì)于需要圖像知識(shí)的查詢,先通過(guò)BLIP-2(視覺(jué)語(yǔ)言模型)為候選圖像生成簡(jiǎn)潔摘要(如“一張包含紅色自行車和藍(lán)色圍欄的街道照片”)(提示詞如下),再將圖像摘要與原始查詢?nèi)诤?,生成更精?zhǔn)的檢索詞(而非直接使用原始查詢),提升檢索與查詢的語(yǔ)義匹配度。

- 步驟2:動(dòng)態(tài)重排序初始檢索通過(guò)API返回Top-K相似結(jié)果后,引入MAD(中位數(shù)絕對(duì)偏差)動(dòng)態(tài)閾值過(guò)濾異常值:
a.計(jì)算所有檢索結(jié)果與查詢的相似度得分的中位數(shù),再通過(guò)MAD公式(MAD = median(|x - median|))確定合理閾值范圍,剔除得分遠(yuǎn)低于閾值的噪聲樣本。
b.最終保留的結(jié)果按相似度排序,構(gòu)建檢索上下文(圖像元數(shù)據(jù)+相關(guān)文本片段)。
3、雙路徑生成
目的是通過(guò)對(duì)比兩種生成路徑的一致性,初步驗(yàn)證答案可靠性,為后續(xù)驗(yàn)證提供依據(jù)。 提到單一路徑生成易受檢索噪聲或模型偏見(jiàn)影響,雙路徑對(duì)比可暴露知識(shí)沖突(如檢索上下文顯示“自行車是紅色”,但模型先驗(yàn)認(rèn)為“常見(jiàn)自行車為黑色”),為驗(yàn)證階段提供明確檢查方向。
- RAG路徑:基于檢索上下文(圖像+文本知識(shí)),使用LLaVA-1.5生成答案,強(qiáng)制模型優(yōu)先依賴外部知識(shí)。
- 非RAG路徑:僅使用模型內(nèi)部先驗(yàn)知識(shí)(不輸入檢索上下文),同樣通過(guò)LLaVA-1.5生成答案,作為對(duì)照基準(zhǔn)。
最后對(duì)兩條路徑的輸出進(jìn)行語(yǔ)義一致性評(píng)分(使用 Sentence-BERT 計(jì)算余弦相似度),若相似度≥0.8則視為“初步一致”,否則標(biāo)記為“潛在沖突”,需進(jìn)入后續(xù)深度驗(yàn)證。
提示詞:

4、驗(yàn)證與最終確定
CoV通過(guò)“整體-局部”兩級(jí)驗(yàn)證,可有效識(shí)別細(xì)微錯(cuò)誤(如混淆相似實(shí)體);而雙閾值規(guī)則平衡了“準(zhǔn)確性”與“可用性”,通過(guò)多層驗(yàn)證消除潛在幻覺(jué),基于置信度動(dòng)態(tài)決策最終輸出,避免過(guò)度保守(濫用“不知道”)或過(guò)度自信(錯(cuò)誤答案)。
- 步驟1:Chain-of-Verification(CoV)驗(yàn)證采用兩階段驗(yàn)證邏輯:
- 整體檢查:使用GPT-4o(強(qiáng)推理模型)作為驗(yàn)證器,檢查答案是否符合事實(shí)準(zhǔn)確性(與檢索上下文一致)、邏輯自洽性(無(wú)內(nèi)部矛盾)、完整性(覆蓋查詢關(guān)鍵點(diǎn))。
- 子問(wèn)題分解:若整體檢查不通過(guò),將原始查詢分解為多個(gè)子問(wèn)題(如“這張照片中自行車的顏色是什么?”→“照片中是否有自行車?”“自行車的顏色是紅色嗎?”),逐一驗(yàn)證子問(wèn)題答案與檢索上下文的匹配度,定位錯(cuò)誤來(lái)源。
- 步驟2:置信度閾值決策驗(yàn)證器輸出每個(gè)答案的置信度分?jǐn)?shù)(0-1.0),并設(shè)定雙閾值規(guī)則:
a.高置信度(≥1.0):直接輸出RAG路徑答案(此時(shí)一致性檢查與CoV均通過(guò))。
b.中置信度(0.9-1.0):若雙路徑一致,輸出RAG答案;若不一致,返回“部分信息:[可靠片段]”。
c.低置信度(<0.9):返回“不知道”,避免幻覺(jué)輸出。
提示詞:


實(shí)驗(yàn)性能

參考文獻(xiàn):Multi-Stage Verification-Centric Framework for Mitigating Hallucination in Multi-Modal RAG,https://arxiv.org/pdf/2507.20136v1repo:https://github.com/Breezelled/KDD-Cup-2025-Meta-CRAG-MM
本文轉(zhuǎn)載自??大模型自然語(yǔ)言處理?? 作者:llmnlp

















