多模態(tài)大模型中高分辨率處理trick-通過自適應(yīng)路由選擇模塊動(dòng)態(tài)選擇合適粒度 原創(chuàng)
前期幾篇內(nèi)容介紹了原生分辨率及相關(guān)評(píng)估:《??多模態(tài)大模型中圖像分辨率packing策略及原生分辨率NaViT的部分結(jié)論????》和《???多模態(tài)大模型中不同分辨率策略研究與原生分辨率的有效性評(píng)估???》,再來看一個(gè)關(guān)于多模態(tài)大模型處理不同分辨率的trick,提到現(xiàn)有多模態(tài)大模型在處理高分辨率圖像時(shí),因固定劃分圖像為全局和局部區(qū)域?qū)е乱曈Xtoken數(shù)量過多、推理效率低下,且無法根據(jù)任務(wù)需求自適應(yīng)調(diào)整視覺粒度的問題。因此提出通過視覺粒度縮放器生成多粒度視覺token,并利用視覺粒度路由器結(jié)合圖像和指令動(dòng)態(tài)選擇合適粒度。
方法
AVG-LLaVA模型結(jié)構(gòu)主要在LLaVA-NeXT的基礎(chǔ)上新增了兩個(gè)核心模塊:視覺粒度縮放器 和視覺粒度路由器,整體架構(gòu)如下圖:

視覺粒度縮放器
- 多粒度特征生成:token采用空間金字塔池化思想,通過堆疊1×2和2×1的平均池化層,逐步降低視覺token數(shù)量(每次減半),生成從細(xì)到粗的多粒度視覺特征。 例如,對(duì)于CLIP-ViT-L-336編碼的24×24token網(wǎng)格,通過縮放器可生成24×12、12×12、12×6、6×6等不同粒度的token。
- 優(yōu)點(diǎn):無需額外訓(xùn)練即可生成多粒度特征,同時(shí)保留空間信息,為后續(xù)動(dòng)態(tài)選擇提供基礎(chǔ)。
視覺粒度路由器
路由器基于輸入圖像和指令,從多粒度特征中選擇最合適的粒度,結(jié)構(gòu)借鑒MoE,包含三個(gè)子層:
- 輸入處理

- 特征融合與預(yù)測(cè)

- 輸出選擇概率最高的粒度對(duì)應(yīng)的視覺token輸入到LLM進(jìn)行推理。
訓(xùn)練方法簡(jiǎn)述

各粒度視覺 token 與指令 token連結(jié)后,由 LMM 處理以估算相應(yīng)獎(jiǎng)勵(lì)。視覺粒度路由器依據(jù) LMM 反饋優(yōu)化粒度選擇。
AVG-LLaVA的訓(xùn)練分為兩個(gè)階段,采用多階段訓(xùn)練策略:
- 階段1:多粒度視覺指令微調(diào)訓(xùn)練視覺編碼器、視覺-語言連接器和LLM,使其具備處理N種不同粒度視覺特征的能力。通過不同粒度的視覺token進(jìn)行下一個(gè)token預(yù)測(cè),僅對(duì)回答部分應(yīng)用交叉熵?fù)p失,讓模型學(xué)習(xí)感知和處理多粒度視覺信息。
- 階段2:基于LMM反饋的粒度排序(RGLF)凍結(jié)其他模塊,僅訓(xùn)練視覺粒度路由器。利用LLM對(duì)不同粒度視覺token生成回答的log概率作為反饋,通過排序損失使路由器對(duì)更優(yōu)粒度賦予更高評(píng)分,并結(jié)合交叉熵?fù)p失讓路由器學(xué)習(xí)LLM偏好的最優(yōu)粒度,最終通過加權(quán)求和得到總損失,實(shí)現(xiàn)路由器與LLM偏好的對(duì)齊,無需額外人工標(biāo)注數(shù)據(jù)。
實(shí)驗(yàn)


AVG-LLaVA: An Efficient Large Multimodal Model with Adaptive Visual Granularity,https://arxiv.org/pdf/2410.02745v3
本文轉(zhuǎn)載自???大模型自然語言處理??? 作者:llmnlp

















