InternVL3.5多模態大模型改進點及視覺分辨率理由模塊技術淺嘗 原創
改進點概述:

InternVL3.5系列
- 縫合最新開源模型:主要是語言模型側的替換,如:qwen3和GPT-OSS
- 引入視覺分辨率路由器(ViR)模塊,該模塊可動態選擇視覺 token 的最小分辨率,從而實現更好的推理效率
- 解耦視覺-語言部署(DvD),提升推理速度
- 級聯強化學習,提升模型性能

InternVL3.5模型架構延續了 InternVL 的 “ViT–MLP–LLM” 范式,同時針對性能增強和效率優化目標,衍生出基礎版 InternVL3.5 和高效版 InternVL3.5-Flash 兩個分支。
本文僅看下這個ViR模塊,因為從之前介紹的多個模型如:《??Kimi-VL開源多模態大模型結構、訓練方法、訓練數據淺析????》、《???Qwen-VL系列多模態大模型技術演進-模型架構、訓練方法、數據細節???》等多模態大模型及《???多模態大模型中不同分辨率策略研究與原生分辨率的有效性評估???》的結論看,原生分辨率能夠有效提升多模態大模型的性能,并廣泛得到使用,InternVL3.5仍然使用著動態高分辨率,但這會帶來token數量的增加,從而影響推理效率,但這次增加了一個ViR模塊,讓其可動態選擇視覺 token 的最小分辨率,從而實現更好的推理效率。
視覺分辨率路由器(ViR)模塊
Visual Consistency Learning(ViCO)是 InternVL3.5 為構建高效變體 InternVL3.5-Flash 設計的核心訓練技術,其核心目標是:在將視覺 token 數量減少 50% 的同時,保持模型輸出與原始高分辨率模型的一致性(近 100% 性能),為 “Visual Resolution Router(ViR,視覺分辨率路由器)” 的動態壓縮策略提供訓練支撐。
在 InternVL3.5-Flash 中,ViR 模塊需要實現“語義感知的動態token壓縮”(如將部分圖像patch從256token壓縮至64token),但直接引入動態壓縮會面臨兩個關鍵問題:
- 輸出不一致:不同壓縮率(1/4 vs 1/16)會導致視覺token的語義信息損失差異,若模型對同一圖像的不同壓縮輸入輸出差異過大,會直接導致性能下降;
- 路由決策無依據:ViR 需判斷“哪些patch該高壓縮、哪些該低壓縮”,但缺乏量化標準(如“語義豐富度”無法直接測量)。
因此,ViCO 目標:
- 目標1:輸出一致性:通過訓練讓模型對“低壓縮率(保留細節)”和“高壓縮率(減少冗余)”的視覺輸入,生成盡可能一致的輸出(如回答、推理結果);
- 目標2:路由可學習:構建量化指標(語義壓縮敏感性),訓練 ViR 成為“智能路由器”,精準選擇壓縮率。
ViCO 的雙階段訓練流程
ViCO 分為兩個遞進的訓練階段,先優化模型輸出一致性,再訓練 ViR 的路由策略,且兩個階段均基于“凍結主模型+輕量微調”的思路,避免破壞基礎模型性能。
第一階段:一致性訓練(Consistency Training)
讓 InternVL3.5-Flash 的“Policy Model”對不同壓縮率的視覺輸入(64token 或 256token),輸出分布與“Reference Model”(即原始 InternVL3.5)盡可能一致,最小化因壓縮導致的性能損失。具體的:凍結的 InternVL3.5 基礎模型,固定使用 1/4 壓縮率(將1024視覺token壓縮至256token),作為“高保真輸出基準”;待訓練的 InternVL3.5-Flash 模型,輸入圖像patch會隨機采用 1/4 或 1/16 壓縮率(對應256token或64token),目標是讓其輸出向參考模型對齊。
訓練數據復用 SFT 階段的數據(如多模態問答、OCR、文檔理解數據),確保訓練場景與主任務一致; 輸入構造:對每張圖像的每個patch,隨機采樣壓縮率 ξ(ξ ∈ {1/4, 1/16}):
- ξ=1/4 時,圖像 I_ξ 表示為 256 個視覺token;
- ξ=1/16 時,圖像 I_ξ 表示為 64 個視覺token。
損失函數:KL散度最小化:通過 KL 散度約束,強制政策模型無論輸入是64token還是256token,輸出都與參考模型(256token)保持一致,從而避免壓縮導致的語義偏移。

訓練方式:僅微調政策模型的 MLP投影器 和 LLM的部分層(不微調ViT和ViR),確保視覺編碼能力不被破壞,同時高效對齊輸出分布;訓練過程中,所有圖像patch采用隨機壓縮率,保證模型對兩種壓縮率都能適應。
第二階段:路由器訓練
訓練 ViR 模塊(二分類器)學會“語義感知的壓縮率選擇”——對語義豐富的patch(如文字、圖表細節)選1/4壓縮率(保留細節),對語義簡單的patch(如純色背景)選1/16壓縮率(減少冗余)。ViR 結構:輕量卷積神經網絡(CNN),作為二進制分類器(輸出0或1);

ViR 的訓練方式:訓練時凍結政策模型的 ViT、MLP、LLM 部分,僅微調 ViR 模塊,避免影響已對齊的輸出一致性。使用 SFT 階段中“視覺信息密集”的數據(如 OCR、VQA、圖表理解數據),這類數據包含大量語義豐富的patch(如文字、公式),能更精準訓練 ViR 的語義判斷能力。
InternVL3.5 的訓練方案概述

InternVL3.5 的訓練方案。InternVL3.5 包含三個訓練階段:(1)用于視覺-語言對齊的原生預訓 練,(2)用于適配下游任務的監督微調,(3)用于提升推理能力的級聯強化學習。InternVL3.5-Flash 是 InternVL3.5 的高效版本,通過一致性訓練和路由訓練進一步集成了視覺分辨率路由模塊(ViR)
加速部署的解決方案:

解耦視覺-語言部署概述。DvD 將視覺模型和語言模型分離,并將其部署在不同的服務器上。右 側展示了流水線的時間消耗跡線。(a) 在原始部署中,ViT、MLP 和 LLM 是順序執行的。由于它們 在大小和計算模式上存在顯著差異,這種串行設計會顯著降低推理速度。(b) 使用 DvD 后,ViT 和 LLM 的推理并行且異步地進行。因此,ViT 的計算可以與 LLM 的預填充和解碼重疊,減少資源沖突, 提高推理速度。
InternVL3.5: Advancing Open-Source Multimodal Models in Versatility, Reasoning, and Efficiency,https://arxiv.org/pdf/2508.18265
本文轉載自????大模型自然語言處理???? 作者:llmnlp

















