InternVL3.5多模態大模型改進點及視覺分辨率理由模塊技術淺嘗原創

大模型自然語言處理

發布于 2025-8-27 08:02

瀏覽

0收藏

改進點概述：

InternVL3.5多模態大模型改進點及視覺分辨率理由模塊技術淺嘗-AI.x社區

InternVL3.5系列

縫合最新開源模型：主要是語言模型側的替換，如：qwen3和GPT-OSS
引入視覺分辨率路由器（ViR）模塊，該模塊可動態選擇視覺 token 的最小分辨率，從而實現更好的推理效率
解耦視覺-語言部署（DvD），提升推理速度
級聯強化學習，提升模型性能

InternVL3.5多模態大模型改進點及視覺分辨率理由模塊技術淺嘗-AI.x社區

InternVL3.5模型架構延續了 InternVL 的 “ViT–MLP–LLM” 范式，同時針對性能增強和效率優化目標，衍生出基礎版 InternVL3.5 和高效版 InternVL3.5-Flash 兩個分支。

本文僅看下這個ViR模塊，因為從之前介紹的多個模型如：《??Kimi-VL開源多模態大模型結構、訓練方法、訓練數據淺析????》、《???Qwen-VL系列多模態大模型技術演進-模型架構、訓練方法、數據細節???》等多模態大模型及《???多模態大模型中不同分辨率策略研究與原生分辨率的有效性評估???》的結論看，原生分辨率能夠有效提升多模態大模型的性能，并廣泛得到使用，InternVL3.5仍然使用著動態高分辨率，但這會帶來token數量的增加，從而影響推理效率，但這次增加了一個ViR模塊，讓其可動態選擇視覺 token 的最小分辨率，從而實現更好的推理效率。

視覺分辨率路由器（ViR）模塊

Visual Consistency Learning（ViCO）是 InternVL3.5 為構建高效變體 InternVL3.5-Flash 設計的核心訓練技術，其核心目標是：在將視覺 token 數量減少 50% 的同時，保持模型輸出與原始高分辨率模型的一致性（近 100% 性能），為 “Visual Resolution Router（ViR，視覺分辨率路由器）” 的動態壓縮策略提供訓練支撐。

在 InternVL3.5-Flash 中，ViR 模塊需要實現“語義感知的動態token壓縮”（如將部分圖像patch從256token壓縮至64token），但直接引入動態壓縮會面臨兩個關鍵問題：

輸出不一致：不同壓縮率（1/4 vs 1/16）會導致視覺token的語義信息損失差異，若模型對同一圖像的不同壓縮輸入輸出差異過大，會直接導致性能下降；
路由決策無依據：ViR 需判斷“哪些patch該高壓縮、哪些該低壓縮”，但缺乏量化標準（如“語義豐富度”無法直接測量）。

因此，ViCO 目標：

目標1：輸出一致性：通過訓練讓模型對“低壓縮率（保留細節）”和“高壓縮率（減少冗余）”的視覺輸入，生成盡可能一致的輸出（如回答、推理結果）；
目標2：路由可學習：構建量化指標（語義壓縮敏感性），訓練 ViR 成為“智能路由器”，精準選擇壓縮率。

ViCO 的雙階段訓練流程

ViCO 分為兩個遞進的訓練階段，先優化模型輸出一致性，再訓練 ViR 的路由策略，且兩個階段均基于“凍結主模型+輕量微調”的思路，避免破壞基礎模型性能。

第一階段：一致性訓練（Consistency Training）

讓 InternVL3.5-Flash 的“Policy Model”對不同壓縮率的視覺輸入（64token 或 256token），輸出分布與“Reference Model”（即原始 InternVL3.5）盡可能一致，最小化因壓縮導致的性能損失。具體的：凍結的 InternVL3.5 基礎模型，固定使用 1/4 壓縮率（將1024視覺token壓縮至256token），作為“高保真輸出基準”；待訓練的 InternVL3.5-Flash 模型，輸入圖像patch會隨機采用 1/4 或 1/16 壓縮率（對應256token或64token），目標是讓其輸出向參考模型對齊。

訓練數據復用 SFT 階段的數據（如多模態問答、OCR、文檔理解數據），確保訓練場景與主任務一致；輸入構造：對每張圖像的每個patch，隨機采樣壓縮率 ξ（ξ ∈ {1/4, 1/16}）：

ξ=1/4 時，圖像 I_ξ 表示為 256 個視覺token；
ξ=1/16 時，圖像 I_ξ 表示為 64 個視覺token。

損失函數：KL散度最小化：通過 KL 散度約束，強制政策模型無論輸入是64token還是256token，輸出都與參考模型（256token）保持一致，從而避免壓縮導致的語義偏移。

InternVL3.5多模態大模型改進點及視覺分辨率理由模塊技術淺嘗-AI.x社區

訓練方式：僅微調政策模型的 MLP投影器 和 LLM的部分層（不微調ViT和ViR），確保視覺編碼能力不被破壞，同時高效對齊輸出分布；訓練過程中，所有圖像patch采用隨機壓縮率，保證模型對兩種壓縮率都能適應。

第二階段：路由器訓練

訓練 ViR 模塊（二分類器）學會“語義感知的壓縮率選擇”——對語義豐富的patch（如文字、圖表細節）選1/4壓縮率（保留細節），對語義簡單的patch（如純色背景）選1/16壓縮率（減少冗余）。ViR 結構：輕量卷積神經網絡（CNN），作為二進制分類器（輸出0或1）；

InternVL3.5多模態大模型改進點及視覺分辨率理由模塊技術淺嘗-AI.x社區

ViR 的訓練方式：訓練時凍結政策模型的 ViT、MLP、LLM 部分，僅微調 ViR 模塊，避免影響已對齊的輸出一致性。使用 SFT 階段中“視覺信息密集”的數據（如 OCR、VQA、圖表理解數據），這類數據包含大量語義豐富的patch（如文字、公式），能更精準訓練 ViR 的語義判斷能力。

InternVL3.5 的訓練方案概述

InternVL3.5多模態大模型改進點及視覺分辨率理由模塊技術淺嘗-AI.x社區

InternVL3.5 的訓練方案。InternVL3.5 包含三個訓練階段：（1）用于視覺-語言對齊的原生預訓練，（2）用于適配下游任務的監督微調，（3）用于提升推理能力的級聯強化學習。InternVL3.5-Flash 是 InternVL3.5 的高效版本，通過一致性訓練和路由訓練進一步集成了視覺分辨率路由模塊（ViR）

加速部署的解決方案：

InternVL3.5多模態大模型改進點及視覺分辨率理由模塊技術淺嘗-AI.x社區

解耦視覺-語言部署概述。DvD 將視覺模型和語言模型分離，并將其部署在不同的服務器上。右側展示了流水線的時間消耗跡線。(a) 在原始部署中，ViT、MLP 和 LLM 是順序執行的。由于它們在大小和計算模式上存在顯著差異，這種串行設計會顯著降低推理速度。(b) 使用 DvD 后，ViT 和 LLM 的推理并行且異步地進行。因此，ViT 的計算可以與 LLM 的預填充和解碼重疊，減少資源沖突，提高推理速度。