mR^2AG:基于知識的多模態(tài)檢索-反思增強生成方法淺嘗

(a1)mR2AG帶檢索:這個過程包括:a)檢索反思,用于確定是否需要檢索;b)相關(guān)性反思,用于識別證據(jù)段落;c)對多個候選答案進行后處理。(a2)mR2AG不帶檢索:當(dāng)不需要檢索時的生成過程。(b)無反思的樸素mRAG:一種沒有反思的基線方法。
在基于知識的視覺問答(Knowledge-based VQA)任務(wù)中,輸入通常是一對圖像和問題 ,并且依賴于可訪問的知識庫。文章提出的框架通過兩個新穎的反思操作來解耦生成過程,從而提高答案的質(zhì)量。將生成過程分為三個步驟:執(zhí)行檢索反思(Retrieval-Reflection)以確定是否需要檢索,執(zhí)行相關(guān)性反思(Relevance-Reflection)以識別證據(jù)段落并生成答案,以及后處理多個候選答案。
方法
檢索反思
用戶查詢可以根據(jù)輸入(I,Q)分為依賴視覺的和基于知識的。為了指導(dǎo)模型區(qū)分不同類型的查詢,定義了兩個特殊標記:[Retrieval] 和 [No Retrieval],用于執(zhí)行檢索反思。具體步驟如下:

相關(guān)性反思

答案后處理
在一個文章中可能存在多個證據(jù)段落,導(dǎo)致生成多個候選答案。因此,后處理是必要的,以便得出一個最終的答案。
層級后處理:使用層級后處理來通過整合三個級別的分數(shù)對候選答案進行排序:

最后,三個級別的分數(shù)綜合考慮了答案生成過程中的每一個步驟,分別在條目、段落和答案級別評估候選答案的可靠性。通過計算這三個分數(shù)的乘積來整合它們的效果,作為排序候選答案的最終標準。模型輸出基于此標準得分最高的答案。
實驗




參考文獻
mR2AG: Multimodal Retrieval-Reflection-Augmented Generation for Knowledge-Based VQA,https://arxiv.org/pdf/2411.15041
本文轉(zhuǎn)載自公眾號大模型自然語言處理 作者:余俊暉

















