抖音&LV-NUS開(kāi)源多模態(tài)新模,以小博大刷新SOTA,8B推理比肩GPT-4o
2B模型在多個(gè)基準(zhǔn)位列4B參數(shù)以下開(kāi)源第一。
抖音SAIL團(tuán)隊(duì)與LV-NUS Lab聯(lián)合推出的多模態(tài)大模型SAIL-VL2。
SAIL-VL2以2B、8B等中小參數(shù)規(guī)模,在106個(gè)數(shù)據(jù)集實(shí)現(xiàn)性能突破,尤其在MMMU、MathVista等復(fù)雜推理基準(zhǔn)超越同規(guī)模模型,甚至比肩更大參數(shù)的閉源模型。

方法上,SAIL-VL2通過(guò)數(shù)據(jù)、訓(xùn)練、架構(gòu)三大維度的創(chuàng)新,為社區(qū)提供“小模型也能有強(qiáng)能力”新范式。
SAIL-VL2既具備細(xì)粒度視覺(jué)感知能力,又能在復(fù)雜推理任務(wù)中媲美更大規(guī)模模型。同時(shí),團(tuán)隊(duì)通過(guò)開(kāi)源模型與推理代碼,提供可擴(kuò)展的多模態(tài)基礎(chǔ)模型。

Pretrain:三大核心創(chuàng)新
架構(gòu)層面:稀疏MoE+靈活編碼器,平衡性能與效率
SAIL-VL2突破傳統(tǒng)稠密LLM的架構(gòu),引入稀疏混合專(zhuān)家(MoE),并提供多規(guī)格模型配置,滿足不同場(chǎng)景需求:

SAIL-ViT:漸進(jìn)式優(yōu)化的視覺(jué)編碼器
為攻克視覺(jué)-語(yǔ)言對(duì)齊這一核心挑戰(zhàn),SAIL-VL2設(shè)計(jì)了「熱身適應(yīng)→細(xì)粒度對(duì)齊→世界知識(shí)注入」三階段訓(xùn)練:
- 階段I(熱身適應(yīng)):凍結(jié)SAIL-ViT與LLM,僅訓(xùn)練Adapter,使用8M數(shù)據(jù)激活跨模態(tài)映射能力;
- 階段II(細(xì)粒度對(duì)齊):固定LLM,解鎖SAIL-ViT與Adapter,使用6.7M Caption和COR數(shù)據(jù),強(qiáng)化跨模態(tài)對(duì)齊深度;
- 階段III(世界知識(shí)注入):解鎖所有參數(shù),使用36.5M多任務(wù)數(shù)據(jù),提升模型泛化能力。
經(jīng)此流程,SAIL-ViT與LLM特征空間的平均最近鄰距離從1.42降至1.15,Wasserstein距離從4.86降至3.88,證明視覺(jué)-語(yǔ)言對(duì)齊效果顯著提升。
MoE架構(gòu):參數(shù)與計(jì)算的平衡
SAIL-VL2的31.1B大模型采用Qwen3-MoE架構(gòu),每次推理僅激活3B參數(shù)。為優(yōu)化專(zhuān)家激活不平衡問(wèn)題,模型引入負(fù)載均衡損失與數(shù)據(jù)校準(zhǔn)策略,最終將專(zhuān)家激活熵提升20%,保障了各專(zhuān)家功能特化。
SAIL-ViT-AnyRes:任意分辨率的突破
為打破傳統(tǒng)ViT的固定分辨率瓶頸,SAIL-ViT-AnyRes借助“2D RoPE插值”技術(shù),實(shí)現(xiàn)了對(duì)任意分辨率輸入的動(dòng)態(tài)支持(最高1792×1792)。這一突破的價(jià)值在RefCOCO視覺(jué)定位任務(wù)中得到驗(yàn)證:其平均精度高達(dá)57.82,遠(yuǎn)超固定分辨率版本的53.28。
數(shù)據(jù)層面:評(píng)分過(guò)濾+合成增強(qiáng),構(gòu)建高質(zhì)量多模態(tài)語(yǔ)料庫(kù)
SAIL-VL2設(shè)計(jì)了一套全自動(dòng)數(shù)據(jù)pipeline,從“質(zhì)量篩選”與“類(lèi)型擴(kuò)展”兩大方向提升數(shù)據(jù)價(jià)值:

- SAIL-Caption2:通過(guò)“視覺(jué)信息豐富度(VIR)”與“圖文對(duì)齊度(ITA)”雙維度評(píng)分(1-5分),過(guò)濾低質(zhì)量樣本(得分<3),得到250M通用caption+1.69M圖表caption;
- 合成VQA數(shù)據(jù):將80MSAIL-Caption2通過(guò)LLM生成QA形式,補(bǔ)充QA數(shù)據(jù)多樣性;
- 純文本與多模態(tài)指令數(shù)據(jù):文本語(yǔ)料保留LLM語(yǔ)言能力,VQA數(shù)據(jù)強(qiáng)化指令跟隨能力。
訓(xùn)練層面:漸進(jìn)式框架+動(dòng)態(tài)學(xué)習(xí)率,激活模型多維度能力
SAIL-VL2設(shè)計(jì)三階段視覺(jué)預(yù)訓(xùn)練與兩階段多模態(tài)預(yù)訓(xùn)練的漸進(jìn)式流程,從基礎(chǔ)感知逐步過(guò)渡到復(fù)雜推理:

- 兩階段多模態(tài)預(yù)訓(xùn)練:先通過(guò)“基礎(chǔ)預(yù)訓(xùn)練”(64M數(shù)據(jù))培養(yǎng)跨模態(tài)對(duì)齊能力,再通過(guò)“多任務(wù)預(yù)訓(xùn)練”(180M數(shù)據(jù))強(qiáng)化視覺(jué)理解與指令跟隨能力;
- 數(shù)據(jù)重采樣:數(shù)據(jù)集平衡采樣比例,在語(yǔ)言層面優(yōu)化n-gram分布,緩解數(shù)據(jù)偏置,提升訓(xùn)練效率;
- 動(dòng)態(tài)學(xué)習(xí)率:使用AdaLRS算法——基于損失下降斜率動(dòng)態(tài)調(diào)整學(xué)習(xí)率,訓(xùn)練效率大幅提升。
Posttrain:全鏈路優(yōu)化
后訓(xùn)練數(shù)據(jù):三大高質(zhì)量數(shù)據(jù)集
SAIL-Video
針對(duì)視頻理解中“幀-指令錯(cuò)位”痛點(diǎn),從6個(gè)權(quán)威數(shù)據(jù)集初篩623萬(wàn)條樣本,通過(guò)“視頻-問(wèn)答對(duì)齊度(-1~10分)、內(nèi)容豐富度(-1~7分)、問(wèn)答難度(-1~3分)”雙維度評(píng)估,僅保留均達(dá)標(biāo)的樣本,最終得到510萬(wàn)條高質(zhì)量視頻-問(wèn)答數(shù)據(jù),保障視頻理解訓(xùn)練可靠性。
SAIL-Instruction2(指令微調(diào)數(shù)據(jù))
使用Mammoth、MMPR等數(shù)據(jù)集補(bǔ)充長(zhǎng)回答與推理樣本,通過(guò)“質(zhì)量評(píng)估+增量評(píng)估”雙驗(yàn)證與“潛在類(lèi)別過(guò)濾”,生成2000萬(wàn)條指令樣本。

Multimodal CoT Data(多模態(tài)思維鏈數(shù)據(jù))
基于VisualWebInstruct、MathV360K等數(shù)據(jù)集,通過(guò)“質(zhì)量過(guò)濾、格式統(tǒng)一、樣本去重”清洗,篩選出“有挑戰(zhàn)性但可解決”的樣本,最終形成40萬(wàn)LongCoT SFT樣本、100萬(wàn)條Think-Fusion SFT樣本及15萬(wàn)條RL樣本,為推理訓(xùn)練提供結(jié)構(gòu)化數(shù)據(jù)支撐。
后訓(xùn)練策略:五階段遞進(jìn)強(qiáng)化能力
SAIL-VL2設(shè)計(jì)了一套遞進(jìn)式的五階段后訓(xùn)練策略,以系統(tǒng)性地提升模型綜合能力:
1、基礎(chǔ)SFT:首先,通過(guò)四階段數(shù)據(jù)注入與模型融合技術(shù),為模型構(gòu)建堅(jiān)實(shí)的基礎(chǔ)指令遵循能力。
2、LongCoT SFT:接著,使用40萬(wàn)條CoT樣本,訓(xùn)練模型掌握逐步推理(step-by-step)的能力。
3、可驗(yàn)證獎(jiǎng)勵(lì)RL:然后,引入RL,基于“答案正確性+格式規(guī)范性”雙重獎(jiǎng)勵(lì)優(yōu)化STEM樣本,確保推理結(jié)果準(zhǔn)確、規(guī)范。
4、Think-Fusion SFT:隨后,采用混合數(shù)據(jù)與條件損失進(jìn)行訓(xùn)練,讓模型學(xué)會(huì)按需推理,實(shí)現(xiàn)能力的收放自如。
5、混合獎(jiǎng)勵(lì)RL:最后,利用更復(fù)雜的三維獎(jiǎng)勵(lì)信號(hào)進(jìn)行最終優(yōu)化,實(shí)現(xiàn)強(qiáng)大推理能力與簡(jiǎn)潔輸出的平衡。
訓(xùn)練基礎(chǔ)設(shè)施:高效支撐大規(guī)模訓(xùn)練
Stream Packing:雙策略提升訓(xùn)練效率
- 批處理與在線打包:通過(guò)動(dòng)態(tài)拼接樣本減少填充令牌,將SM利用率提升近1倍,訓(xùn)練速度加快50%,并提升了0.7%的QA性能。
- 視覺(jué)打包:通過(guò)加入視覺(jué)令牌平衡約束,緩解了視覺(jué)編碼器的內(nèi)存壓力,使訓(xùn)練效率再提升48%。
MoE基礎(chǔ)設(shè)施:突破稀疏架構(gòu)訓(xùn)練瓶頸
- 計(jì)算優(yōu)化:采用核融合技術(shù)將多個(gè)操作合并執(zhí)行,減少數(shù)據(jù)搬運(yùn)開(kāi)銷(xiāo),使MoE訓(xùn)練速度提升達(dá)3倍。
- 通信優(yōu)化:設(shè)計(jì)流式數(shù)據(jù)讀取和混合并行機(jī)制,有效降低通信和訓(xùn)練開(kāi)銷(xiāo)。
性能驗(yàn)證:106個(gè)數(shù)據(jù)集上的全面領(lǐng)先
SAIL-VL2在106個(gè)多模態(tài)數(shù)據(jù)集上得到驗(yàn)證,從基礎(chǔ)感知到復(fù)雜推理,從圖像理解到視頻分析,均展現(xiàn)出同規(guī)模模型中的頂尖水平。
基礎(chǔ)模型性能:小參數(shù)規(guī)模實(shí)現(xiàn)大突破
在通用多模態(tài)理解基準(zhǔn)中,SAIL-VL2基礎(chǔ)模型(無(wú)思維增強(qiáng))表現(xiàn)突出(如下表所示):
SAIL-VL2-2B OpenCompass為70.31,超越Qwen2.5-VL-3B(65.36)、InternVL3.5-2B(66.64)等模型,位列4B參數(shù)以下開(kāi)源第一;SAIL-VL2-8B在OpenCompass取得開(kāi)源同量級(jí)模型的最高分?jǐn)?shù):

細(xì)粒度任務(wù),SAIL-VL2-2BMMStar達(dá)64.07分,OCRBench達(dá)89.50分,均為同參數(shù)規(guī)模最優(yōu);SAIL-VL2-8B進(jìn)一步將MMStar分?jǐn)?shù)提升至70.73,OCRBench提升至91.30,8B規(guī)模領(lǐng)先。

思維增強(qiáng)模型性能:復(fù)雜推理能力媲美大模型
SAIL-VL2-Thinking在OpenCompass多模態(tài)推理榜單表現(xiàn)卓越:
SAIL-VL2-8B-Thinking平均得分54.4,超越所有開(kāi)源模型,僅次于GPT-4o-latest(54.8);SAIL-VL2-A3B-Thinking(MoE架構(gòu))以3B激活參數(shù)實(shí)現(xiàn)53.6分,超越閉源模型Gemini-2.0-Flash(50.6),展現(xiàn)出極高的效率性能比。

論文地址:https://arxiv.org/pdf/2509.14033
代碼與模型:https://github.com/BytedanceDouyinContent/SAIL-VL2
Hugging Face模型庫(kù):https://huggingface.co/BytedanceDouyinContent





































