NeurIPS'25香港城大+騰訊+浙大Retrv-R1:“壓縮 + 推理“驅(qū)動(dòng)多模態(tài)檢索效率效果新SOTA
搭建跨模態(tài)檢索系統(tǒng)時(shí),有兩個(gè)難題:一是處理圖文混合候選集時(shí),token數(shù)量爆炸導(dǎo)致GPU直接內(nèi)存溢出;二是用RL訓(xùn)練模型時(shí),要么收斂不了,要么推理過程漏洞百出,檢索準(zhǔn)確率始終上不去。直到看到這篇 NeurIPS 2025 的 Retrv-R1 論文,才發(fā)現(xiàn)原來不用復(fù)雜架構(gòu),只要針對(duì)性解決“信息冗余”和“訓(xùn)練不穩(wěn)定”兩個(gè)核心痛點(diǎn),就能讓多模態(tài)檢索的準(zhǔn)確率和效率同時(shí)突破瓶頸——這篇研究給出了新的技術(shù)方案,更提供了“推理驅(qū)動(dòng)檢索”的全新思路。

一、AI多模態(tài)檢索的核心痛點(diǎn):準(zhǔn)確率與效率的兩難困境
信息檢索早已不是單一文本或圖像的匹配任務(wù),現(xiàn)在的搜索引擎、推薦系統(tǒng)、RAG應(yīng)用,都需要處理“文本查圖像”“圖文混合查視頻”等多模態(tài)場(chǎng)景。但實(shí)際落地中,科研和工程團(tuán)隊(duì)都會(huì)遇到兩個(gè)繞不開的難題:
1.復(fù)雜場(chǎng)景檢索不準(zhǔn):傳統(tǒng)MLLM做檢索,要么靠嵌入向量計(jì)算相似度(像盲人摸象,容易忽略關(guān)鍵關(guān)聯(lián)),要么直接當(dāng)QA任務(wù)處理(跳過推理過程,復(fù)雜查詢根本扛不?。?。比如在“找一張和白天照片同角度的夜景圖”這類任務(wù)中,傳統(tǒng)模型要么分不清角度差異,要么忽略“夜景”這個(gè)核心約束。
2.多候選場(chǎng)景效率極低:當(dāng)候選樣本超過20個(gè),尤其是包含圖像、視頻等模態(tài)時(shí),token數(shù)量會(huì)呈指數(shù)級(jí)增長,不僅推理時(shí)間拉長(我們之前測(cè)試過,K=50時(shí)單條查詢要10秒),還容易超出模型上下文窗口,導(dǎo)致檢索失敗。
3.RL訓(xùn)練水土不服:之前DeepSeek-R1用RL提升LLM推理能力的思路很火,但直接套用到檢索任務(wù)上完全行不通——一方面多候選+推理過程的token消耗太大,計(jì)算成本扛不?。涣硪环矫婺P腿菀咨慑e(cuò)誤推理鏈,越訓(xùn)練越跑偏,準(zhǔn)確率反而下降。
這些問題本質(zhì)上是“檢索任務(wù)的特殊性”與“通用MLLM框架”的不匹配:檢索需要快速篩選海量候選,而MLLM的推理過程天然需要充足上下文,兩者就像“要快速跑馬拉松”和“帶著沉重背包”的矛盾。
二、傳統(tǒng)方案的局限:為什么之前的嘗試都失敗了?
我們?cè)赗etrv-R1之前,也試過三種主流方案,結(jié)果都不盡如人意:
?方案1:基于CLIP的嵌入檢索:優(yōu)點(diǎn)是快,但只能捕捉表面特征,比如無法理解“同角度不同時(shí)間”這種深層關(guān)聯(lián),在M-BEIR數(shù)據(jù)集的復(fù)雜任務(wù)上,根本達(dá)不到實(shí)用標(biāo)準(zhǔn)。
?方案2:MLLM直接QA式檢索:把查詢和候選拼成指令,讓模型直接輸出結(jié)果。這種方式準(zhǔn)確率稍高,但完全沒有推理過程,遇到“排除明顯負(fù)樣本后再對(duì)比相似候選”的場(chǎng)景就歇菜,而且候選超過10個(gè)就會(huì)嚴(yán)重卡頓。
?方案3:直接套用DeepSeek-R1的RL訓(xùn)練:我們用GRPO算法訓(xùn)練Qwen2.5-VL,結(jié)果訓(xùn)練了3個(gè)epoch都沒收斂,而且錯(cuò)誤推理鏈占比高達(dá)30%——就像讓新手直接上戰(zhàn)場(chǎng),不僅不會(huì)打仗,還會(huì)拖慢整體節(jié)奏。

這些失敗讓我們意識(shí)到:檢索任務(wù)需要的“推理”,不是像數(shù)學(xué)題那樣的復(fù)雜推導(dǎo),而是“快速篩選-重點(diǎn)核查-精準(zhǔn)匹配”的高效流程;同時(shí),多模態(tài)候選的信息必須“瘦身”,但不能丟關(guān)鍵信息。而Retrv-R1恰好踩中了這兩個(gè)關(guān)鍵點(diǎn)。
三、Retrv-R1的核心創(chuàng)新:用“信息壓縮+分階段訓(xùn)練”破局
Retrv-R1的本質(zhì)是“為檢索任務(wù)量身定制的R1風(fēng)格MLLM框架”,核心思路很簡(jiǎn)單:讓模型只處理關(guān)鍵信息,讓訓(xùn)練循序漸進(jìn)貼合檢索場(chǎng)景。整個(gè)框架的創(chuàng)新點(diǎn)集中在兩個(gè)模塊,既好理解又好實(shí)現(xiàn):
1. 信息壓縮模塊(ICM):給候選樣本“瘦身后備重點(diǎn)”
如果把每個(gè)候選樣本比作一篇實(shí)驗(yàn)報(bào)告,傳統(tǒng)模型會(huì)逐字逐句讀完所有報(bào)告,而ICM做的是“提煉摘要+標(biāo)注重點(diǎn)”——既減少閱讀量,又不會(huì)錯(cuò)過關(guān)鍵信息。
?核心設(shè)計(jì):把每個(gè)候選樣本壓縮成2個(gè)token:
內(nèi)容token(t_con):提煉樣本核心內(nèi)容,比如一張夜景圖的“地點(diǎn)+構(gòu)圖+光線”,就像實(shí)驗(yàn)報(bào)告的“核心發(fā)現(xiàn)”;
關(guān)系token(t_rel):捕捉樣本與查詢的關(guān)聯(lián),比如“這張圖和查詢的角度一致但時(shí)間不同”,就像實(shí)驗(yàn)報(bào)告的“與研究目標(biāo)的相關(guān)性分析”。
?自對(duì)齊預(yù)訓(xùn)練:為了避免壓縮后丟關(guān)鍵信息,作者用了一個(gè)巧妙的方法:讓MLLM根據(jù)壓縮后的2個(gè)token,還原出完整樣本的描述。這就像讓研究員根據(jù)摘要還原實(shí)驗(yàn)報(bào)告,確保摘要里包含所有關(guān)鍵信息——這個(gè)預(yù)訓(xùn)練過程讓ICM的壓縮損失降到最低。
?細(xì)節(jié)檢查機(jī)制:最妙的是,模型在推理時(shí)如果發(fā)現(xiàn)某個(gè)候選“不好判斷”(比如兩個(gè)樣本看起來都符合查詢),會(huì)自動(dòng)觸發(fā)“查原文”機(jī)制,調(diào)用該候選的完整token序列進(jìn)一步分析。這就像研究員看摘要拿不準(zhǔn)時(shí),再翻完整實(shí)驗(yàn)記錄,既保證效率又不犧牲準(zhǔn)確率。
用生活化的比喻來說,ICM就像快遞分揀系統(tǒng):大部分包裹(候選樣本)通過標(biāo)簽(壓縮token)快速分流,只有少數(shù)模糊包裹(難判斷樣本)需要拆開檢查,既快又準(zhǔn)。

2. 三階段訓(xùn)練:讓模型“先會(huì)做再做好”
直接用RL訓(xùn)練檢索模型,就像讓新手直接參加競(jìng)賽;而Retrv-R1的訓(xùn)練過程,更像科研人員的成長路徑:先打基礎(chǔ),再練技巧,最后沖成績。

?階段1:ICM預(yù)訓(xùn)練:先凍結(jié)MLLM,單獨(dú)訓(xùn)練ICM的壓縮能力,確保它能提煉出關(guān)鍵信息——這一步解決“信息冗余”的基礎(chǔ)問題。
?階段2:合成CoT的SFT激活:由于沒有現(xiàn)成的“檢索推理數(shù)據(jù)集”,作者用Qwen2.5-VL-72B生成了10萬條合成CoT數(shù)據(jù),每條數(shù)據(jù)包含四步推理:
推測(cè)理想結(jié)果(比如“用戶要的是同角度夜景圖,應(yīng)該有XX特征”);
快速排除負(fù)樣本(比如“這張是白天的,直接排除”);
重點(diǎn)核查難樣本(比如“這兩張都是夜景,調(diào)用完整信息對(duì)比角度”);
輸出最終結(jié)果。這一步讓模型先學(xué)會(huì)“檢索該怎么推理”,避免RL訓(xùn)練時(shí)跑偏。

?階段3:課程獎(jiǎng)勵(lì)RL增強(qiáng):用GRPO算法訓(xùn)練,但設(shè)計(jì)了一個(gè)“漸進(jìn)式獎(jiǎng)勵(lì)”:
獎(jiǎng)勵(lì)包含兩部分:結(jié)果準(zhǔn)確率(有沒有找對(duì))+ 效率(少調(diào)用完整token);
效率權(quán)重λ從0逐漸增加到1:訓(xùn)練初期讓模型優(yōu)先保證準(zhǔn)確率,后期再強(qiáng)調(diào)效率。這就像科研任務(wù):初期先把實(shí)驗(yàn)做對(duì),熟練后再優(yōu)化流程提效率,避免一開始就追求速度而犯低級(jí)錯(cuò)誤。
四、實(shí)驗(yàn)驗(yàn)證:準(zhǔn)確率和效率雙突破,泛化性拉滿
作者在16張A100上做了全面實(shí)驗(yàn),無論是核心指標(biāo)還是泛化能力,都證明了方案的有效性—。
1. 核心指標(biāo):M-BEIR數(shù)據(jù)集SOTA
在包含16個(gè)亞任務(wù)的多模態(tài)檢索基準(zhǔn)M-BEIR上,Retrv-R1-7B在K=50時(shí)的R@5達(dá)到72.3,比之前的SOTA模型LamRA高6.1個(gè)百分點(diǎn);而推理時(shí)間只有1秒,是Qwen2.5-VL的1/4.79,GPU內(nèi)存占用也只有后者的1/2.44。

更關(guān)鍵的是,即使是3B參數(shù)的Retrv-R1-3B,也能超過7B參數(shù)的LamRA——這說明“推理驅(qū)動(dòng)+信息壓縮”的架構(gòu),比單純堆參數(shù)更有效。在“圖文混合查圖像”這種最難的任務(wù)上,Retrv-R1的優(yōu)勢(shì)更明顯,R@5比Vision-R1高14.6個(gè)百分點(diǎn),因?yàn)樗芡ㄟ^推理排除角度、時(shí)間等干擾因素。
2. 泛化性:跨任務(wù)、跨數(shù)據(jù)集都能打
?不可見數(shù)據(jù)集:在沒訓(xùn)練過的對(duì)話檢索、 interleaved圖文檢索任務(wù)上,Retrv-R1的R@5比基線模型高10個(gè)百分點(diǎn)以上,說明它學(xué)到的推理能力可以遷移。

?推薦系統(tǒng)任務(wù):把Retrv-R1用到多模態(tài)推薦上,不用改模型結(jié)構(gòu),只調(diào)整輸入指令,HR@10就達(dá)到12.71,比專門的推薦模型ICSRec高3.11個(gè)百分點(diǎn)——這意味著它不僅能做檢索,還能適配需要關(guān)聯(lián)匹配的其他任務(wù)。

?文本檢索任務(wù):在BEIR文本檢索基準(zhǔn)上,Retrv-R1的平均NDCG@10達(dá)到0.5267,超過專門的文本檢索模型,證明它的框架是“通用”的,不是只適用于多模態(tài)。

3. 消融實(shí)驗(yàn):關(guān)鍵模塊不可或缺
作者做的消融實(shí)驗(yàn),也驗(yàn)證了我們之前的猜想:

? 去掉ICM:推理時(shí)間增加7倍,R@5只提升0.9個(gè)百分點(diǎn),完全得不償失;
? 去掉細(xì)節(jié)檢查機(jī)制:R@5下降5.6個(gè)百分點(diǎn),說明難樣本的完整信息對(duì)準(zhǔn)確率至關(guān)重要;
? 跳過SFT直接RL:模型收斂不了,R@5下降6.8個(gè)百分點(diǎn),證明“先激活推理能力”是必要的;
? 不用課程獎(jiǎng)勵(lì):R@5下降4.2個(gè)百分點(diǎn),說明漸進(jìn)式優(yōu)化能平衡準(zhǔn)確率和效率。
五、落地前景與挑戰(zhàn):誰該用Retrv-R1?
這篇研究的價(jià)值,不僅在于提出了一個(gè)SOTA模型,更在于提供了一套“推理驅(qū)動(dòng)檢索”的工程化方案——無論是科研團(tuán)隊(duì)還是產(chǎn)業(yè)界,都能值得借鑒:
1. 適用場(chǎng)景
? 搜索引擎:處理圖文混合查詢、跨模態(tài)檢索(比如“找一個(gè)和這段文字描述相符的視頻片段”);
? 推薦系統(tǒng):多模態(tài)商品推薦、內(nèi)容推薦(比如根據(jù)用戶瀏覽的圖文內(nèi)容,推薦相關(guān)視頻);
? RAG應(yīng)用:處理多模態(tài)知識(shí)庫檢索(比如在包含論文、圖表、數(shù)據(jù)的知識(shí)庫中,查找相關(guān)信息);
? 低資源場(chǎng)景:3B參數(shù)的Retrv-R1性能就足夠強(qiáng),中小團(tuán)隊(duì)不用堆大算力也能部署。
2. 現(xiàn)存挑戰(zhàn)
? 輕微性能損失:ICM壓縮會(huì)導(dǎo)致部分場(chǎng)景的R@5下降0.9%-1.1%,雖然效率提升7倍,但對(duì)極致準(zhǔn)確率場(chǎng)景(比如醫(yī)療檢索)可能需要權(quán)衡;
? 合成數(shù)據(jù)依賴:SFT階段依賴Qwen2.5-VL-72B生成CoT數(shù)據(jù),沒有大模型的團(tuán)隊(duì)可能難以復(fù)現(xiàn)——不過作者提供了詳細(xì)的生成prompt,用其他大模型也能嘗試;
? 長視頻檢索適配:目前實(shí)驗(yàn)主要針對(duì)圖像和文本,長視頻的token壓縮和推理邏輯可能需要進(jìn)一步優(yōu)化。
六、總結(jié):推理驅(qū)動(dòng)檢索的未來方向
Retrv-R1的成功,本質(zhì)上是“任務(wù)適配”的勝利——它沒有盲目跟風(fēng)大模型堆參數(shù),而是針對(duì)檢索任務(wù)的“效率+準(zhǔn)確率”核心需求,做了精準(zhǔn)的架構(gòu)和訓(xùn)練優(yōu)化。這給我們的啟發(fā)是:未來的多模態(tài)檢索,不再是“嵌入匹配”或“單純推理”的二選一,而是“高效篩選+精準(zhǔn)推理”的結(jié)合。
對(duì)于科研人員來說,這篇論文提供了兩個(gè)可復(fù)用的思路:一是用“壓縮+按需解壓”解決多模態(tài)信息冗余問題;二是用“合成CoT激活+課程RL”解決檢索模型的訓(xùn)練不穩(wěn)定問題。對(duì)于產(chǎn)業(yè)界來說,Retrv-R1的工程化成本低,3B參數(shù)版本就能滿足大部分場(chǎng)景需求,部署門檻遠(yuǎn)低于其他大模型檢索方案。
最后想問大家:你們?cè)谧鰴z索模型時(shí),是否遇到過token爆炸或訓(xùn)練不收斂的問題?如果用Retrv-R1的方案,你覺得最需要調(diào)整的是哪個(gè)模塊?歡迎在評(píng)論區(qū)交流你的復(fù)現(xiàn)經(jīng)驗(yàn)或改進(jìn)思路!
參考資料
? 標(biāo)題:Retrv-R1: A Reasoning-Driven MLLM Framework for Universal and Efficient Multimodal Retrieval
? 原作者:Lanyun Zhu, Deyi Ji, Tianrun Chen, Haiyang Wu, Shiqi Wang
? 機(jī)構(gòu):香港城市大學(xué)、騰訊、浙江大學(xué)
? 鏈接:https://openreview.net/pdf?id=8y18QBU2s6
本文轉(zhuǎn)載自???旺知識(shí)???,作者:旺知識(shí)

















