NVIDIA Nemotron Nano V2 VL:面向文檔與視頻理解的新一代視覺-語言模型
NVIDIA推出了Nemotron Nano V2 VL,這是一個高效的12B參數視覺-語言模型,專為強大的真實世界文檔理解、長視頻理解和推理任務而設計。
Nemotron Nano V2 VL通過模型架構、數據集和訓練方案的重大增強,在所有視覺和文本領域都實現了相比前代模型Llama-3.1-Nemotron-Nano-VL-8B的顯著改進。在OCRBench v2私有數據排行榜上取得了領先的準確率,同時在推理、文檔理解、長視頻理解、視覺問答和STEM推理方面表現強勁。
Nemotron Nano V2 VL由三個模塊組成:視覺編碼器、MLP投影器和語言模型。 論文使用RADIOv2視覺編碼器的c-RADIOv2-VLM-H版本初始化視覺編碼器,并使用Nemotron-Nano-12B-V2 初始化語言模型。
受InternVL 、LLaVA-1.5 和Eagle 的啟發,論文采用分塊(tiling)策略來處理不同的圖像分辨率。首先,每張圖像按照InternVL采用的寬高比匹配策略進行調整,使其寬度和高度是??的倍數。然后將其劃分為大小為?? × ??的非重疊tiles。

與Llama-3.1-Nemotron-Nano-VL-8B相比,大語言模型的混合Mamba-Transformer架構在長篇多頁文檔理解場景中提供了35%更高的吞吐量。 此外,論文采用高效視頻采樣(EVS) 技術,在視頻理解用例中將吞吐量加速2倍或更多,同時對準確率的影響極小甚至無影響。

此外,Nemotron Nano V2 VL支持推理開啟和推理關閉兩種模式,前者為需要更復雜問題解決的任務啟用擴展推理。這種設計實現了計算效率和任務性能之間的平衡權衡。

論文正在HuggingFace上以BF16、FP8和FP4格式發布論文的模型權重:(1)Nemotron-Nano-12B-v2-VL:經過多階段訓練方案后的最終模型權重;(2)Nemotron-Nano-12B-v2-VL-FP8:FP8格式的量化模型權重 ;(2)Nemotron-Nano-12B-v2-VL-NVFP4-QAD:使用量化感知蒸餾(QAD)的FP4格式量化模型權重
此外,論文還發布了大部分SFT數據集和工具:(1)Nemotron VLM Dataset V2:包含超過800萬訓練樣本的集合;(2)NVPDFTex:用于生成帶注釋OCR ground truth的定制LaTeX編譯器工具鏈。

圖1 | 論文的VLM架構可視化。 對于圖像,論文根據圖像寬高比提取動態數量的tiles。對于視頻,論文均勻提取幀。Tiles和幀被調整為512 × 512像素,并通過RADIO視覺編碼器和MLP連接器。圖像和文本嵌入交錯排列,輸入到Nemotron-Nano-12B-V2大語言模型。
論文標題:NVIDIA Nemotron Nano V2 VL
論文鏈接:???https://arxiv.org/abs/2511.03929??
本文轉載自??AI帝國??,作者:無影寺

















