精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

多模態(tài)LLM統(tǒng)一嵌入學(xué)習(xí);基于心理意象模擬的感知視角推理;動(dòng)態(tài)視覺(jué)token壓縮框架

發(fā)布于 2025-4-27 23:54
瀏覽
0收藏

Breaking the Modality Barrier: Universal Embedding Learning with Multimodal LLMs

2025-04-24|USYD, Deep Glint, Alibaba Group, ICL(Imperial)|??28

??http://arxiv.org/abs/2504.17432v1???
???https://huggingface.co/papers/2504.17432???
???https://garygutc.github.io/UniME??

研究背景與意義

多模態(tài)LLM統(tǒng)一嵌入學(xué)習(xí);基于心理意象模擬的感知視角推理;動(dòng)態(tài)視覺(jué)token壓縮框架-AI.x社區(qū)

  • 背景概述:當(dāng)前多模態(tài)表示學(xué)習(xí)領(lǐng)域,CLIP框架因其跨模態(tài)對(duì)比學(xué)習(xí)能力被廣泛采用,尤其在圖文檢索和聚類任務(wù)中表現(xiàn)突出。然而,CLIP存在文本長(zhǎng)度限制、圖文編碼解耦以及組合性不足等瓶頸,限制了其在復(fù)雜多模態(tài)任務(wù)中的表現(xiàn)。
  • 挑戰(zhàn)點(diǎn):現(xiàn)有模型難以有效捕捉細(xì)粒度語(yǔ)義和復(fù)雜指令,且在區(qū)分難負(fù)樣本時(shí)表現(xiàn)不佳,影響了多模態(tài)表示的判別能力和泛化性能。
  • 研究目標(biāo):本文提出UniME框架,旨在突破模態(tài)壁壘,利用多模態(tài)大語(yǔ)言模型(MLLMs)學(xué)習(xí)通用且具備強(qiáng)判別能力的多模態(tài)嵌入,提升跨任務(wù)的表現(xiàn)力和組合理解能力。

研究方法與創(chuàng)新

多模態(tài)LLM統(tǒng)一嵌入學(xué)習(xí);基于心理意象模擬的感知視角推理;動(dòng)態(tài)視覺(jué)token壓縮框架-AI.x社區(qū)

多模態(tài)LLM統(tǒng)一嵌入學(xué)習(xí);基于心理意象模擬的感知視角推理;動(dòng)態(tài)視覺(jué)token壓縮框架-AI.x社區(qū)

技術(shù)框架:UniME采用兩階段訓(xùn)練策略:

  • 文本判別知識(shí)蒸餾:從強(qiáng)大的LLM教師模型遷移判別知識(shí),增強(qiáng)MLLM語(yǔ)言組件的嵌入能力。該階段通過(guò)文本輸入訓(xùn)練,利用KL散度對(duì)齊學(xué)生模型與教師模型的嵌入分布,有效克服因自回歸結(jié)構(gòu)導(dǎo)致的判別力不足。
  • 難負(fù)樣本增強(qiáng)指令調(diào)優(yōu):通過(guò)過(guò)濾偽負(fù)樣本和采樣多樣化的難負(fù)樣本,強(qiáng)化模型對(duì)細(xì)粒度差異的敏感性,提升跨模態(tài)對(duì)齊和指令執(zhí)行能力。該階段結(jié)合多模態(tài)輸入和任務(wù)特定指令,進(jìn)一步優(yōu)化嵌入判別力。

創(chuàng)新點(diǎn)

  • 引入基于教師模型的判別知識(shí)蒸餾,顯著提升語(yǔ)言組件嵌入的判別力。
  • 設(shè)計(jì)偽負(fù)樣本過(guò)濾機(jī)制和多難負(fù)樣本采樣策略,有效解決難負(fù)樣本辨識(shí)難題,增強(qiáng)模型泛化能力。
  • 結(jié)合任務(wù)指令調(diào)優(yōu),提升復(fù)雜檢索和視覺(jué)問(wèn)答等任務(wù)的執(zhí)行效果。

理論基礎(chǔ):結(jié)合信息論中的KL散度優(yōu)化和對(duì)比學(xué)習(xí)中的InfoNCE損失,理論上保證了模型在判別性和對(duì)齊能力上的提升。

實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析

多模態(tài)LLM統(tǒng)一嵌入學(xué)習(xí);基于心理意象模擬的感知視角推理;動(dòng)態(tài)視覺(jué)token壓縮框架-AI.x社區(qū)

實(shí)驗(yàn)設(shè)計(jì)

  • 訓(xùn)練數(shù)據(jù)涵蓋273k自然語(yǔ)言推理文本對(duì)和MMEB基準(zhǔn)中的20個(gè)多模態(tài)任務(wù)數(shù)據(jù),保證多樣性和任務(wù)覆蓋。
  • 評(píng)估指標(biāo)主要為Precision@1和Recall@1,覆蓋分類、視覺(jué)問(wèn)答、檢索和視覺(jué)定位等多種任務(wù)。
  • 對(duì)比基線包括CLIP、EVA-CLIP、E5-V、VLM2Vec等多模態(tài)模型,涵蓋不同規(guī)模和結(jié)構(gòu)。

主要結(jié)果

  • UniME在MMEB基準(zhǔn)上平均提升4.1%-4.2%的性能,尤其在視覺(jué)問(wèn)答和檢索任務(wù)中表現(xiàn)突出。
  • 在短文本和長(zhǎng)文本圖文檢索任務(wù)中,UniME通過(guò)兩階段訓(xùn)練分別帶來(lái)顯著提升,最終性能超過(guò)VLM2Vec和EVA-CLIP。
  • 組合性檢索任務(wù)中,UniME展示了更強(qiáng)的語(yǔ)義理解和判別能力,部分指標(biāo)提升幅度達(dá)15.9%以上。
  • 統(tǒng)計(jì)顯著性:訓(xùn)練過(guò)程中,硬負(fù)樣本帶來(lái)的梯度顯著高于易負(fù)樣本,訓(xùn)練損失穩(wěn)定且收斂良好,表明模型有效學(xué)習(xí)了更具挑戰(zhàn)性的判別信息。
  • 多場(chǎng)景表現(xiàn):UniME在跨模態(tài)多任務(wù)、不同數(shù)據(jù)分布(內(nèi)外部分布)下均表現(xiàn)出穩(wěn)健性和優(yōu)越性,驗(yàn)證了其通用嵌入的有效性。

結(jié)論與展望

研究貢獻(xiàn)總結(jié)

  • 提出了一種創(chuàng)新的兩階段訓(xùn)練框架,成功提升了MLLM的多模態(tài)判別嵌入能力。
  • 通過(guò)知識(shí)蒸餾與難負(fù)樣本增強(qiáng),顯著改善了模型在細(xì)粒度語(yǔ)義理解和復(fù)雜指令執(zhí)行上的表現(xiàn)。
  • 實(shí)驗(yàn)驗(yàn)證了UniME在多任務(wù)、多數(shù)據(jù)集上的優(yōu)越性能,推動(dòng)了多模態(tài)大語(yǔ)言模型在通用嵌入學(xué)習(xí)領(lǐng)域的應(yīng)用。

局限性分析

  • 訓(xùn)練過(guò)程對(duì)計(jì)算資源需求較高,尤其是在大規(guī)模硬負(fù)樣本采樣階段。
  • 目前模型在極長(zhǎng)文本處理和極端復(fù)雜組合任務(wù)上仍有提升空間。

未來(lái)展望

  • 探索更高效的硬負(fù)樣本采樣與過(guò)濾機(jī)制,降低訓(xùn)練成本。
  • 結(jié)合更先進(jìn)的視覺(jué)編碼器和更大規(guī)模預(yù)訓(xùn)練數(shù)據(jù),進(jìn)一步提升模型泛化能力。
  • 拓展模型在跨模態(tài)生成、交互式多模態(tài)理解等更廣泛應(yīng)用場(chǎng)景中的表現(xiàn)。

Perspective-Aware Reasoning in Vision-Language Models via Mental Imagery Simulation

2025-04-24|KAIST, Stanford U, NVIDIA|??18

??http://arxiv.org/abs/2504.17207v1???
???https://huggingface.co/papers/2504.17207???
???https://apc-vlm.github.io/??

研究背景與意義

多模態(tài)LLM統(tǒng)一嵌入學(xué)習(xí);基于心理意象模擬的感知視角推理;動(dòng)態(tài)視覺(jué)token壓縮框架-AI.x社區(qū)

  • 問(wèn)題定義與挑戰(zhàn)視覺(jué)語(yǔ)言模型(VLMs)在空間推理方面取得了顯著進(jìn)展,但仍存在嚴(yán)重的視角偏見(jiàn),主要局限于攝像頭視角的自我中心(egocentric)空間理解,難以實(shí)現(xiàn)從任意參考視角(allocentric)進(jìn)行空間推理。該缺陷限制了VLMs在導(dǎo)航、環(huán)境交互和協(xié)作等高階智能任務(wù)中的應(yīng)用能力。
  • 現(xiàn)狀概述現(xiàn)有研究多聚焦提升VLMs的自我中心空間推理能力,盡管通過(guò)深度學(xué)習(xí)和視覺(jué)適配器等技術(shù)增強(qiáng)了模型對(duì)空間關(guān)系的感知,但對(duì)視角轉(zhuǎn)換的支持仍極其有限。即使有指令調(diào)優(yōu)嘗試,模型仍傾向于回歸攝像頭視角,缺乏真正的多視角空間理解能力。
  • 研究意義該論文提出通過(guò)模擬人類“心理意象”(mental imagery)機(jī)制,構(gòu)建抽象的場(chǎng)景表示,使VLMs能夠從任意視角進(jìn)行空間推理,突破了傳統(tǒng)VLMs的視角限制。這不僅提升了模型的空間認(rèn)知能力,也為實(shí)現(xiàn)更接近人類的視覺(jué)理解和智能交互奠定了基礎(chǔ)。

研究方法與創(chuàng)新

多模態(tài)LLM統(tǒng)一嵌入學(xué)習(xí);基于心理意象模擬的感知視角推理;動(dòng)態(tài)視覺(jué)token壓縮框架-AI.x社區(qū)

多模態(tài)LLM統(tǒng)一嵌入學(xué)習(xí);基于心理意象模擬的感知視角推理;動(dòng)態(tài)視覺(jué)token壓縮框架-AI.x社區(qū)

核心方法框架——APC(Abstract Perspective Change)APC框架由三個(gè)關(guān)鍵階段構(gòu)成:

  • 數(shù)值文本提示,直接提供3D坐標(biāo)和方向信息;
  • 抽象視覺(jué)提示,將對(duì)象以彩色立方體形式渲染,形成簡(jiǎn)化視覺(jué)場(chǎng)景,輔以對(duì)應(yīng)的文本映射,強(qiáng)化模型的空間感知。
  1. 場(chǎng)景抽象構(gòu)建:利用現(xiàn)成的視覺(jué)基礎(chǔ)模型(如目標(biāo)檢測(cè)、圖像分割、方向估計(jì))從輸入圖像中提取對(duì)象,構(gòu)建包含對(duì)象3D位置和朝向的粗略三維抽象表示。
  2. 視角轉(zhuǎn)換:選定參考視角(參考觀察者),將抽象場(chǎng)景從攝像頭坐標(biāo)系轉(zhuǎn)換到該視角的自我中心坐標(biāo)系,實(shí)現(xiàn)視角的“重新定位”。
  3. 視角提示生成:將轉(zhuǎn)換后的抽象場(chǎng)景以兩種形式輸入VLM:

創(chuàng)新點(diǎn)

  • 模擬人類心理意象,通過(guò)構(gòu)建抽象的三維場(chǎng)景表示,使VLMs擺脫對(duì)原始攝像頭視角的依賴,實(shí)現(xiàn)多視角空間推理。
  • 視角轉(zhuǎn)換機(jī)制,將復(fù)雜的allocentric問(wèn)題轉(zhuǎn)化為VLM擅長(zhǎng)處理的egocentric問(wèn)題,巧妙利用現(xiàn)有模型的能力。
  • 多模態(tài)提示設(shè)計(jì),數(shù)值與視覺(jué)提示的結(jié)合,既提供精確的空間信息,又保留視覺(jué)直觀性,提升推理準(zhǔn)確性和魯棒性。
  • 通用性強(qiáng),框架適用于多種空間推理任務(wù)和數(shù)據(jù)集,無(wú)需專門針對(duì)特定任務(wù)或視角進(jìn)行微調(diào)。

理論基礎(chǔ)

     研究借鑒認(rèn)知科學(xué)中關(guān)于心理意象的理論,強(qiáng)調(diào)人類通過(guò)抽象視覺(jué)和空間表征實(shí)現(xiàn)視角切換的能力,為計(jì)算機(jī)視覺(jué)提供了新的啟發(fā)。

實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析

多模態(tài)LLM統(tǒng)一嵌入學(xué)習(xí);基于心理意象模擬的感知視角推理;動(dòng)態(tài)視覺(jué)token壓縮框架-AI.x社區(qū)

多模態(tài)LLM統(tǒng)一嵌入學(xué)習(xí);基于心理意象模擬的感知視角推理;動(dòng)態(tài)視覺(jué)token壓縮框架-AI.x社區(qū)

實(shí)驗(yàn)設(shè)計(jì)

  • 采用兩個(gè)主流空間推理基準(zhǔn):
  • 對(duì)比對(duì)象包括多款開(kāi)源和專有VLM(如Qwen2.5-VL、LLaVA、GPT-4o等)、專門針對(duì)空間推理設(shè)計(jì)的模型(SpatialVLM、SpatialRGPT、SpatialPIN)以及基于密集重建的視角合成方法(SpatialPIN*、ViewCrafter)。
  • 評(píng)估指標(biāo)為空間推理準(zhǔn)確率,特別關(guān)注模型在不同視角偏差(角度θ)下的表現(xiàn),以測(cè)試視角感知能力的魯棒性。
  1. **COMFORT++**(合成場(chǎng)景,評(píng)估左/右、遠(yuǎn)近、可見(jiàn)性和朝向等多種空間關(guān)系);
  2. 3DSRBench(真實(shí)圖像,涉及多視角空間推理)。

結(jié)果分析

  • APC顯著超越所有基線,視覺(jué)提示版本(APC-Vis)在COMFORT++左/右任務(wù)中達(dá)到近90%準(zhǔn)確率,較最佳基線提升約40個(gè)百分點(diǎn)。
  • 在更復(fù)雜的可見(jiàn)性和朝向任務(wù)中,APC依然保持60%以上準(zhǔn)確率,表現(xiàn)優(yōu)于多數(shù)基線。
  • 數(shù)值提示版本雖稍遜于視覺(jué)提示,但也大幅領(lǐng)先傳統(tǒng)方法。
  • 在3DSRBench真實(shí)圖像任務(wù)中,APC同樣展示出強(qiáng)勁性能,表明框架對(duì)現(xiàn)實(shí)場(chǎng)景具備良好適應(yīng)性。
  • 視角偏差實(shí)驗(yàn)顯示,傳統(tǒng)模型準(zhǔn)確率隨視角偏移顯著下降,而APC在整個(gè)角度范圍內(nèi)均保持高準(zhǔn)確率,驗(yàn)證了其強(qiáng)大的視角轉(zhuǎn)換和多視角推理能力。
  • 視覺(jué)提示能夠有效緩解數(shù)值提示中模型出現(xiàn)的邏輯錯(cuò)誤,提升推理的準(zhǔn)確性和穩(wěn)定性。

結(jié)論與展望

總結(jié)貢獻(xiàn)

  • 本文提出的APC框架通過(guò)模擬人類心理意象機(jī)制,實(shí)現(xiàn)了VLM的視角感知能力突破,支持任意參考視角的空間推理。該方法有效結(jié)合視覺(jué)基礎(chǔ)模型和VLM的優(yōu)勢(shì),通過(guò)抽象場(chǎng)景構(gòu)建和視角轉(zhuǎn)換,將allocentric推理轉(zhuǎn)化為egocentric推理,顯著提升多項(xiàng)空間推理任務(wù)的性能。實(shí)驗(yàn)驗(yàn)證了APC在合成及真實(shí)數(shù)據(jù)集上的優(yōu)越性和魯棒性,展示了其廣泛的應(yīng)用潛力。

局限性分析

  • 場(chǎng)景抽象依賴于視覺(jué)基礎(chǔ)模型的準(zhǔn)確性,深度估計(jì)、對(duì)象定位和方向估計(jì)的誤差會(huì)影響最終推理效果。
  • 當(dāng)前方法對(duì)復(fù)雜動(dòng)態(tài)場(chǎng)景和大規(guī)模對(duì)象環(huán)境的適應(yīng)性尚需進(jìn)一步驗(yàn)證。
  • 數(shù)值提示存在邏輯推理錯(cuò)誤的風(fēng)險(xiǎn),視覺(jué)提示雖有效緩解但仍有提升空間。

方法展望

  • 未來(lái)可探索更精細(xì)的場(chǎng)景抽象技術(shù),結(jié)合多模態(tài)傳感器數(shù)據(jù)提升三維重建精度。
  • 結(jié)合強(qiáng)化學(xué)習(xí)或自監(jiān)督學(xué)習(xí),增強(qiáng)模型對(duì)視角轉(zhuǎn)換的內(nèi)在理解和泛化能力。
  • 擴(kuò)展至動(dòng)態(tài)場(chǎng)景和視頻數(shù)據(jù),實(shí)現(xiàn)連續(xù)視角切換和時(shí)空推理。
  • 探索與機(jī)器人導(dǎo)航、增強(qiáng)現(xiàn)實(shí)等實(shí)際應(yīng)用的深度融合,推動(dòng)VLM在真實(shí)環(huán)境中的智能交互能力。

DyMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs

2025-04-23|UIUC, Salesforce Research|??8

??http://arxiv.org/abs/2504.17040v1???
???https://huggingface.co/papers/2504.17040???
???https://mikewangwzhl.github.io/dymu??

研究背景與意義

多模態(tài)LLM統(tǒng)一嵌入學(xué)習(xí);基于心理意象模擬的感知視角推理;動(dòng)態(tài)視覺(jué)token壓縮框架-AI.x社區(qū)

  1. 問(wèn)題定義與現(xiàn)狀概述視覺(jué)-語(yǔ)言模型(Vision-Language Models,VLMs)通過(guò)視覺(jué)編碼器將圖像轉(zhuǎn)換為固定長(zhǎng)度的視覺(jué)token序列,再與文本token結(jié)合進(jìn)行多模態(tài)理解。然而,當(dāng)前主流的視覺(jué)編碼器(如ViT架構(gòu))為固定分辨率的圖像生成固定數(shù)量的視覺(jué)token,不論圖像內(nèi)容復(fù)雜度如何,token數(shù)量均不變,導(dǎo)致計(jì)算資源浪費(fèi),尤其在處理簡(jiǎn)單圖像時(shí)效率低下。
  2. 挑戰(zhàn)點(diǎn)
  • 固定長(zhǎng)度的視覺(jué)token導(dǎo)致計(jì)算資源與圖像內(nèi)容不匹配,簡(jiǎn)單圖像無(wú)法減少計(jì)算負(fù)擔(dān)。
  • 現(xiàn)有減少token數(shù)量的方法多為固定壓縮比例,缺乏對(duì)圖像復(fù)雜度的動(dòng)態(tài)適應(yīng)。
  • 訓(xùn)練自由(training-free)方法多忽視視覺(jué)編碼器本身的token冗余,且在減少token時(shí),保持下游任務(wù)性能是一大難題。
  1. 研究目標(biāo)本文旨在提出一種訓(xùn)練自由的動(dòng)態(tài)視覺(jué)token壓縮框架DYMU(Dynamic Merging and Virtual Unmerging),根據(jù)圖像復(fù)雜度動(dòng)態(tài)調(diào)整視覺(jué)token數(shù),既減少計(jì)算開(kāi)銷,又保持VLM性能,且適用于多種主流視覺(jué)編碼器和語(yǔ)言模型架構(gòu)。

研究方法與創(chuàng)新

多模態(tài)LLM統(tǒng)一嵌入學(xué)習(xí);基于心理意象模擬的感知視角推理;動(dòng)態(tài)視覺(jué)token壓縮框架-AI.x社區(qū)

  1. 核心技術(shù)描述
  • 動(dòng)態(tài)token合并(Dynamic Token Merging,DToMe)通過(guò)基于視覺(jué)token的相似度,采用層級(jí)雙邊匹配算法,動(dòng)態(tài)合并冗余的視覺(jué)token。閾值由大規(guī)模圖像數(shù)據(jù)統(tǒng)計(jì)獲得,支持根據(jù)圖像復(fù)雜度自適應(yīng)調(diào)整token數(shù)量,避免固定壓縮比例帶來(lái)的性能損失。
  • 虛擬token解合(Virtual Token Unmerging,VTU)解決語(yǔ)言模型對(duì)固定長(zhǎng)度視覺(jué)token序列的依賴。VTU通過(guò)稀疏矩陣映射和旋轉(zhuǎn)位置編碼(RoPE)線性特性,重構(gòu)完整的視覺(jué)token序列的注意力矩陣,從而在不增加訓(xùn)練的前提下,保持語(yǔ)言模型對(duì)視覺(jué)信息的完整感知。
  1. 創(chuàng)新點(diǎn)詳解
  • 內(nèi)容感知的動(dòng)態(tài)token壓縮不同于傳統(tǒng)固定長(zhǎng)度token,DToMe根據(jù)圖像內(nèi)容復(fù)雜度動(dòng)態(tài)調(diào)整token數(shù),提升資源利用率。
  • 訓(xùn)練自由且兼容主流模型DYMU無(wú)需額外訓(xùn)練,直接應(yīng)用于現(xiàn)有ViT視覺(jué)編碼器和RoPE-based語(yǔ)言模型,方便快速部署。
  • 高效的虛擬token重構(gòu)機(jī)制VTU利用矩陣稀疏性和RoPE旋轉(zhuǎn)編碼的數(shù)學(xué)性質(zhì),實(shí)現(xiàn)在減少token數(shù)的同時(shí),準(zhǔn)確模擬完整token序列的注意力機(jī)制,兼顧效率與性能。
  • 層級(jí)閾值統(tǒng)計(jì)方法采用大規(guī)模圖像集統(tǒng)計(jì),針對(duì)每個(gè)Transformer層計(jì)算合并閾值,確保動(dòng)態(tài)合并的穩(wěn)定性和泛化能力。
  1. 方法優(yōu)勢(shì)與理論基礎(chǔ)
  • 計(jì)算復(fù)雜度降低通過(guò)減少視覺(jué)token數(shù)量,顯著降低視覺(jué)編碼器及后續(xù)自注意力層的計(jì)算開(kāi)銷,理論上計(jì)算量與token數(shù)線性相關(guān),實(shí)踐中實(shí)現(xiàn)近線性加速。
  • 性能保持與提升結(jié)合DToMe和VTU,DYMU在多種視覺(jué)任務(wù)中保持甚至超越固定長(zhǎng)度token方法的性能,尤其在復(fù)雜圖像上表現(xiàn)更優(yōu)。
  • 理論嚴(yán)謹(jǐn)充分利用Transformer注意力機(jī)制的線性代數(shù)性質(zhì)和RoPE旋轉(zhuǎn)編碼的數(shù)學(xué)結(jié)構(gòu),保證重構(gòu)注意力矩陣的準(zhǔn)確性和效率。

實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析

多模態(tài)LLM統(tǒng)一嵌入學(xué)習(xí);基于心理意象模擬的感知視角推理;動(dòng)態(tài)視覺(jué)token壓縮框架-AI.x社區(qū)

多模態(tài)LLM統(tǒng)一嵌入學(xué)習(xí);基于心理意象模擬的感知視角推理;動(dòng)態(tài)視覺(jué)token壓縮框架-AI.x社區(qū)

  1. 實(shí)驗(yàn)設(shè)置
  • 視覺(jué)編碼器采用CLIP和SigLIP等主流ViT架構(gòu),語(yǔ)言模型包括Vicuna-7B和Qwen2。
  • 評(píng)測(cè)基準(zhǔn)涵蓋多模態(tài)理解和推理任務(wù),如GQA、MMBench、MME、POPE、TextVQA、ScienceQA等,以及視頻理解任務(wù)。
  • 采用大規(guī)模多樣化圖像數(shù)據(jù)集(如LLaVA指令調(diào)優(yōu)數(shù)據(jù)集)統(tǒng)計(jì)合并閾值,保證方法泛化。
  • 對(duì)比對(duì)象涵蓋固定長(zhǎng)度壓縮(如ToMe)和其他訓(xùn)練自由壓縮方法。
  1. 結(jié)果表現(xiàn)
  • DYMU在減少視覺(jué)token數(shù)達(dá)32%-85%的同時(shí),保持了97.7%-100.4%的平均性能,相較于固定長(zhǎng)度壓縮方法在復(fù)雜圖像上有明顯優(yōu)勢(shì)。
  • VTU顯著提升了語(yǔ)言模型處理動(dòng)態(tài)token序列的性能穩(wěn)定性,消除了token數(shù)變化帶來(lái)的性能波動(dòng)。
  • 通過(guò)圖像復(fù)雜度與token數(shù)的強(qiáng)相關(guān)性驗(yàn)證,DYMU能夠根據(jù)圖像內(nèi)容智能分配token預(yù)算。
  • 在Any-Resolution模型(LLaVA-OneVision)和視頻任務(wù)中,DYMU同樣展現(xiàn)出良好的適配性和性能保持能力。
  • 不同閾值設(shè)定(低、中、高)實(shí)現(xiàn)了性能與計(jì)算資源的靈活權(quán)衡,滿足多場(chǎng)景需求。
  1. 統(tǒng)計(jì)顯著性與多場(chǎng)景表現(xiàn)
  • 通過(guò)多任務(wù)、多數(shù)據(jù)集驗(yàn)證,DYMU表現(xiàn)穩(wěn)定,且對(duì)閾值估計(jì)數(shù)據(jù)集的選擇不敏感,體現(xiàn)了方法的魯棒性。
  • 結(jié)合背景移除、OCR、目標(biāo)檢測(cè)等視覺(jué)預(yù)處理工具,DYMU進(jìn)一步降低token數(shù),展示了良好的擴(kuò)展性和靈活性。

結(jié)論與展望

  1. 研究貢獻(xiàn)總結(jié)
  • 提出了首個(gè)訓(xùn)練自由、動(dòng)態(tài)視覺(jué)token壓縮框架DYMU,解決了視覺(jué)token固定長(zhǎng)度帶來(lái)的計(jì)算資源浪費(fèi)問(wèn)題。
  • 創(chuàng)新設(shè)計(jì)了動(dòng)態(tài)token合并與虛擬token解合兩大模塊,實(shí)現(xiàn)了內(nèi)容感知的token壓縮與語(yǔ)言模型對(duì)變長(zhǎng)token序列的高效處理。
  • 在多種視覺(jué)語(yǔ)言模型和任務(wù)上驗(yàn)證了DYMU的有效性和泛化能力,顯著提升了計(jì)算效率且保持甚至提升了性能。
  • 通過(guò)大規(guī)模圖像統(tǒng)計(jì)方法確定合并閾值,保證了動(dòng)態(tài)合并的穩(wěn)定性和實(shí)用性。
  1. 局限性分析
  • 對(duì)空間敏感的任務(wù)(如TextVQA和空間推理)性能仍有一定下降,提示token合并可能破壞部分細(xì)粒度空間信息。
  • 虛擬token解合雖然有效,但仍存在輕微的性能折損,未來(lái)可進(jìn)一步優(yōu)化重構(gòu)精度。
  • 目前主要針對(duì)視覺(jué)token壓縮,視頻時(shí)間維度冗余尚未充分利用。
  1. 未來(lái)工作展望
  • 探索針對(duì)空間敏感任務(wù)的自適應(yīng)token合并策略,提升細(xì)粒度空間信息保留能力。
  • 優(yōu)化虛擬token解合算法,減少重構(gòu)誤差,進(jìn)一步提升下游任務(wù)性能。
  • 擴(kuò)展DYMU至視頻時(shí)序token壓縮,結(jié)合時(shí)空冗余,提升視頻理解效率。
  • 結(jié)合更多視覺(jué)預(yù)處理和任務(wù)特定模塊,實(shí)現(xiàn)更靈活的計(jì)算資源分配和性能優(yōu)化。

綜上,DYMU以其創(chuàng)新的動(dòng)態(tài)視覺(jué)token合并與虛擬token解合技術(shù),為視覺(jué)語(yǔ)言模型的高效推理提供了全新思路和實(shí)用方案,具有廣泛的應(yīng)用前景和研究?jī)r(jià)值。

本文轉(zhuǎn)載自??AI研究前瞻??,作者:胡耀淇

已于2025-4-28 09:41:51修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
社區(qū)精華內(nèi)容

目錄

    久久综合欧美| 午夜视频久久久| 亚洲一区二区三区午夜| 中文字幕第66页| 六月丁香综合网| 国产99亚洲| 中文字幕在线观看不卡| 欧美激情视频在线观看| 9色porny| 一二三区中文字幕| 日本欧美高清| 亚洲国产另类av| 92国产精品久久久久首页 | av男人的天堂在线观看| 国产影视一区| 91精品综合久久久久久| 免费在线成人av电影| 欧美精品色哟哟| 日韩美女在线| 国产偷v国产偷v亚洲高清| 亚州欧美日韩中文视频| 91欧美一区二区三区| 国产高清免费av在线| 亚洲欧洲日韩| 一二三区精品福利视频| 亚洲free性xxxx护士hd| 国产欧美一区二区三区在线看蜜臂| 国产精品色婷婷在线观看| 国产精品久久久久久久久晋中 | 一区av在线播放| 色噜噜一区二区| 日韩电影免费| 一本久久知道综合久久| 日韩视频免费直播| 最新中文字幕久久| 中文字幕永久免费视频| 日韩欧美二区| 欧美日韩另类一区| 在线精品亚洲一区二区| aaa一区二区三区| 午夜片欧美伦| 精品区一区二区| 精品无码国产一区二区三区av| 国产黄色片av| 久久成人综合网| 久久精品精品电影网| 一级在线免费视频| 秋霞a级毛片在线看| 久久69国产一区二区蜜臀| 欧美中文字幕视频| 国产在线观看h| 中文字幕一区久| 国产午夜精品福利| 欧美亚洲另类久久综合| 91精品国产乱码久久久久| 中文字幕人成人乱码| 中文字幕亚洲综合| 九九九久久久久久久| 婷婷久久免费视频| 欧美疯狂做受xxxx富婆| 欧美无砖专区免费| 欧美xxxx免费虐| 91丨porny丨蝌蚪视频| 国产精品久久99久久| 亚洲精品一区二区三区在线播放| 国产激情一区| 欧美一区二区三区小说| 黄www在线观看| 成年人视频在线看| 国产福利一区在线| 欧美在线视频免费播放| 狠狠人妻久久久久久综合| 999久久久亚洲| 亚洲大尺度美女在线| 国产福利影院在线观看| 男女在线视频| 亚洲成人手机在线| 国产免费一区二区三区视频| 欧美最新精品| 亚洲动漫第一页| 日本www在线视频| 免费a级毛片在线播放| 中文字幕一区二区三| 久久久99精品视频| 淫片在线观看| 久久夜色精品国产欧美乱极品| 成人信息集中地欧美| 人人干人人干人人干| 日韩欧美一区二区三区免费看| 精品国产一区二区三区久久| 日韩av一二区| 我要色综合中文字幕| 欧美性淫爽ww久久久久无| 国产在线xxxx| 不卡一二三区| 欧美一区二区三区四区在线观看| 制服丝袜第一页在线观看| 在线免费观看亚洲| 欧美羞羞免费网站| 国产大学生av| 精品69视频一区二区三区| 午夜精品久久久久久久99水蜜桃| 成年人黄色在线观看| 蜜臀av在线| 欧美在线免费视屏| 乱子伦视频在线看| 精品极品在线| 亚洲一级片在线观看| 中文字幕一区二区三区最新| av福利导福航大全在线| 精品视频在线免费看| 欧美伦理片在线看| 户外露出一区二区三区| 日韩欧美国产三级电影视频| 色姑娘综合天天| 伊人久久综合影院| 亚洲毛茸茸少妇高潮呻吟| 精品一区二区视频在线观看| 久久国产精品亚洲人一区二区三区 | 欧美日韩日本网| 日本最新在线视频| 一本久久a久久精品亚洲| 女人被男人躁得好爽免费视频 | 国产aⅴ爽av久久久久| 日韩av大片站长工具| 欧美丝袜第一区| 国产高清av在线播放| 黄色成人在线网| 亚洲成人综合在线| 亚洲色图欧美自拍| 日韩精品91| 国产91免费看片| 亚洲黄网在线观看| 国产精品美女久久久浪潮软件| 97免费视频在线| 国产美女永久免费| 国产精品一级黄| 国产精品一区二| 天堂在线资源网| 99精品国产热久久91蜜凸| 久久国产手机看片| 国产露出视频在线观看| 欧美日韩国产色| xxxx一级片| 国产精品亚洲无码| 久久久久亚洲av无码网站| 亚洲国产aⅴ精品一区二区三区| 国产午夜精品久久久| 三级黄色片网站| 欧美日韩一卡| 8050国产精品久久久久久| 国产专区第一页| 不卡电影一区二区三区| 日本不卡一二三区| 麻豆影视国产在线观看| 欧美午夜寂寞影院| 欧美巨胸大乳hitomi| 91亚洲国产| 国产精品视频内| 亚洲av少妇一区二区在线观看 | 亚洲综合在线视频| 国产成人强伦免费视频网站| 亚洲精品久久久| 97视频资源在线观看| 婷婷色在线观看| 亚洲va在线va天堂| 亚洲av无码一区东京热久久| 国产成人短视频在线观看| 日韩av第一页| 91精品国产综合久久久久久豆腐| 怡红院av一区二区三区| 国产午夜伦鲁鲁| 无码日韩精品一区二区免费| 日韩中文字幕精品视频| 一级黄色a毛片| 亚洲精品国产一区二区精华液 | 5566日本婷婷色中文字幕97| 涩涩视频在线观看| 岛国精品一区二区| 免费日韩av电影| 超薄肉色丝袜脚交一区二区| 日韩精品一区二区在线| 精品无码黑人又粗又大又长| 免费视频一区二区| 国产伦精品一区二区三区视频黑人 | www免费在线观看| 亚洲第一成人在线| 草草影院第一页| 一区二区电影在线观看| 91在线观看免费网站| 国产视频精选在线| 欧美另类久久久品| 日韩激情在线播放| 国产精品自拍在线| 国产午夜福利100集发布| 精品香蕉视频| 日本91av在线播放| 黄色网址免费在线观看| 欧美视频中文字幕| 精品无码久久久久久久久| 国产无一区二区| 精人妻一区二区三区| 日本女人一区二区三区| 免费成人av网站| 91成人小视频| 日本欧美一二三区| 日韩精品分区| 日韩精品一区二区三区在线| 一本一道无码中文字幕精品热| 综合av第一页| 日韩av自拍偷拍| 99久久亚洲精品| 国产精品一二三视频| 欧美69xxxxx| 一本一本大道香蕉久在线精品| 我要看一级黄色录像| 99re66热这里只有精品3直播| 精品综合久久久久| 丝袜美腿亚洲色图| 日本一区二区不卡高清更新| 日韩三级av高清片| 国产欧美日韩亚洲精品| 日韩精品毛片| 亚洲精品自在久久| 亚洲经典一区二区三区| 3d成人动漫网站| 亚洲 小说区 图片区| 精品欧美aⅴ在线网站| 精品国产欧美日韩不卡在线观看| 黄色精品一二区| 国产又黄又爽免费视频| 免费成人av| 精品国产日本| 美女福利一区二区| 国自产精品手机在线观看视频| 免费观看a视频| 婷婷久久综合九色国产成人| 7788色淫网站小说| 日韩在线播放一区二区| 亚洲国产日韩综合一区| 四虎国产精品免费久久5151| 国产成人极品视频| 久久bbxx| 日韩少妇与小伙激情| 午夜免费福利在线观看| 正在播放亚洲1区| 二区在线观看| 在线视频中文亚洲| 成人免费在线观看| 中文字幕久精品免费视频| 国产免费永久在线观看| 伊人男人综合视频网| 91丨porny丨在线中文 | 亚洲综合一区中| 欧美日韩色一区| 888奇米影视| 欧美一区二区三区视频| av免费观看在线| 日韩精品一区二区三区视频在线观看 | 91青青草免费在线看| 亚洲91在线| 国产精选久久久久久| 国产精品99精品一区二区三区∴| 日韩精品一区二区三区老鸭窝| 136福利视频导航| 欧美一区二区三区免费视频| 精品国产乱码一区二区三 | 在线视频 中文字幕| 欧美日韩一区小说| 国产三级漂亮女教师| 精品国产乱码久久久久久老虎| chinese国产精品| 色狠狠av一区二区三区| 午夜爱爱毛片xxxx视频免费看| 亚洲图片欧美激情| 人妻无码一区二区三区| 久久久久免费观看| 制服下的诱惑暮生| 日本不卡一区二区| 婷婷激情综合五月天| 国产91在线观看| 日韩欧美国产片| 免费欧美在线| 久久久久99精品成人片| 国产日韩高清一区二区三区在线| 欧美成人免费高清视频| 久久草av在线| 国产综合内射日韩久| 久久久精品tv| 欧美老熟妇一区二区三区| 性欧美大战久久久久久久久| 波多野结衣一区二区三区在线| 午夜精品久久久久久久| 国产情侣呻吟对白高潮| 日韩欧美亚洲国产另类| 天堂影院在线| 精品99999| 成年人视频在线免费观看| 欧美大荫蒂xxx| 91精品韩国| 国产99午夜精品一区二区三区| 国产成人免费视频网站视频社区| 成人黄色在线免费观看| 国产精品3区| 精品一区二区日本| 久久久久久美女精品| 国产亚洲天堂网| 欧美中文日韩| 中国丰满人妻videoshd| 激情另类小说区图片区视频区| 一出一进一爽一粗一大视频| 国产精品成人一区二区艾草| 精品国产免费观看| 欧美日韩中文字幕在线| 国产免费无遮挡| 国产一区av在线| 成av人电影在线观看| 午夜精品一区二区三区av| 日韩黄色三级| 日韩国产欧美一区| 久久免费大视频| www.四虎成人| 不卡一二三区首页| 欧美又粗又大又长| 亚洲狠狠爱一区二区三区| 在线免费看91| 亚洲一区第一页| 亚洲第一av| 国产精品美女久久久久av超清| 牛牛精品成人免费视频| 超碰97在线看| 亚洲三级免费| 成人小视频在线看| 97成人超碰视| 日本熟伦人妇xxxx| 日韩欧美不卡一区| 成人免费看片| 成人伊人精品色xxxx视频| 日韩精品一区二区三区免费观影 | 校园春色亚洲| 精品久久久久久中文字幕动漫 | 97超碰人人爽| 国产精品女主播av| 中文字幕av播放| 欧美精品精品一区| 秋霞午夜在线观看| 成人在线免费观看视视频| 国产精品国产一区| 手机免费av片| 亚洲男人的天堂在线观看| www成人在线| 亚洲成在人线av| 神马久久午夜| 91久久国产精品91久久性色| 久久网站免费观看| 天堂av8在线| 亚洲免费观看高清| 亚洲爆乳无码一区二区三区| 欧美激情伊人电影| 奇米影视777在线欧美电影观看| 3d动漫一区二区三区| 99国产精品久久久久久久久久久| 成人免费视频毛片| 亚洲毛片在线看| 久久人体av| 亚洲自拍偷拍二区| 国产精品77777竹菊影视小说| 久久久久久久久久久久久久久久久| 精品国产成人系列| 另类图片综合电影| 在线观看日韩片| 处破女av一区二区| 国产精品久免费的黄网站| 在线性视频日韩欧美| av在线成人| 国产在线精品91| 中文字幕av一区二区三区免费看 | 久草免费在线| av在线不卡一区| 性欧美长视频| 三级黄色免费观看| 精品久久久久久久久久久久久久久| 538国产精品一区二区在线| 三级无遮挡在线观看| 国产精品久久久亚洲| 国产精品videosex性欧美| 午夜福利三级理论电影| 岛国视频午夜一区免费在线观看| 国产视频精选在线| 97人人香蕉| 青娱乐精品在线视频| 久久久久久久9999| 国产亚洲精品美女| 一区二区三区四区精品视频 | 日韩综合在线观看| 久久精品视频99| 神马久久影院| 色婷婷综合在线观看| 欧美性xxxxx| 羞羞的视频在线观看|