DINOv3:自監(jiān)督學(xué)習(xí)的技術(shù)革命 原創(chuàng)
標(biāo)注一直是制約計(jì)算機(jī)視覺模型性能的瓶頸。傳統(tǒng)的監(jiān)督學(xué)習(xí)方法需要大量人工標(biāo)注的數(shù)據(jù)集,這不僅成本高昂,而且在特定領(lǐng)域(如衛(wèi)星圖像、醫(yī)學(xué)影像)中往往難以獲得足夠的標(biāo)注數(shù)據(jù)。Meta最新發(fā)布的DINOv3模型通過將自監(jiān)督學(xué)習(xí)擴(kuò)展到70億參數(shù)規(guī)模和17億圖像數(shù)據(jù)集,實(shí)現(xiàn)了計(jì)算機(jī)視覺領(lǐng)域的重大突破,為這一困境提供了革命性的解決方案。。
DINOv3的發(fā)展歷程體現(xiàn)了自監(jiān)督學(xué)習(xí)技術(shù)的成熟軌跡。從最初的DINO概念驗(yàn)證(8000萬參數(shù),100萬圖像),到DINOv2的首次成功擴(kuò)展(10億參數(shù),1.42億圖像),再到DINOv3的數(shù)量級(jí)躍升(70億參數(shù),17億圖像),每一代都代表著技術(shù)邊界的顯著推進(jìn)。這種指數(shù)級(jí)的擴(kuò)展不僅僅是數(shù)字上的增長(zhǎng),更反映了對(duì)自監(jiān)督學(xué)習(xí)本質(zhì)理解的深化。

無監(jiān)督特征學(xué)習(xí)的新范式
DINOv3通過匹配同一圖像不同增強(qiáng)視圖之間的特征,在預(yù)訓(xùn)練過程中學(xué)習(xí)通用的視覺表征。這種方法的精妙之處在于,它擺脫了對(duì)人工標(biāo)注的依賴,轉(zhuǎn)而通過圖像的內(nèi)在結(jié)構(gòu)和語義關(guān)系來學(xué)習(xí)特征表示。相比傳統(tǒng)的弱監(jiān)督方法,DINOv3使用了更少的計(jì)算資源卻獲得了更強(qiáng)的性能,這種效率提升對(duì)于大規(guī)模模型訓(xùn)練具有重要意義。
DINOv3發(fā)布了涵蓋廣泛ViT尺寸范圍以及高效ConvNeXt模型的綜合模型套件,以支持設(shè)備端部署。這種多樣化的架構(gòu)選擇體現(xiàn)了Meta對(duì)不同應(yīng)用場(chǎng)景需求的深刻理解。ViT架構(gòu)在處理全局特征方面的優(yōu)勢(shì),結(jié)合ConvNeXt在邊緣設(shè)備上的計(jì)算效率,為DINOv3的廣泛應(yīng)用奠定了基礎(chǔ)。

1. RoPE位置編碼DINOv3采用了自定義的RoPE變體,為每個(gè)patch分配標(biāo)準(zhǔn)化框中的坐標(biāo),然后根據(jù)兩個(gè)patch的相對(duì)位置在多頭注意力操作中應(yīng)用偏置。為提高模型對(duì)分辨率、尺度和寬高比的魯棒性,還引入了RoPE-box抖動(dòng)技術(shù),坐標(biāo)框被隨機(jī)縮放到[0.8,1.25]范圍內(nèi)。
2. Gram錨定技術(shù)針對(duì)長(zhǎng)時(shí)間訓(xùn)練中密集特征圖退化的問題,DINOv3引入了Gram錨定方法,通過在Gram矩陣上操作來緩解patch級(jí)別一致性的丟失,而不影響特征本身。這一創(chuàng)新解決了大模型長(zhǎng)期訓(xùn)練中的關(guān)鍵挑戰(zhàn)。
3. 多目標(biāo)學(xué)習(xí)DINOv3結(jié)合了全局DINO損失和局部iBOT損失,并使用專門的層歸一化應(yīng)用于全局和局部裁剪的骨干輸出,這種改變?cè)谟?xùn)練后期穩(wěn)定了ImageNet k-NN分類性能(+0.2準(zhǔn)確率)并改善了密集預(yù)測(cè)性能。
DINOv3的核心思想源于一個(gè)深刻的認(rèn)識(shí):真實(shí)世界的視覺理解不應(yīng)該依賴于人工定義的標(biāo)簽,而應(yīng)該從數(shù)據(jù)的內(nèi)在結(jié)構(gòu)中涌現(xiàn)。通過對(duì)比不同視圖下的圖像表征,模型學(xué)會(huì)了識(shí)別視覺世界的不變性和層次結(jié)構(gòu)。這種學(xué)習(xí)方式更接近人類視覺系統(tǒng)的發(fā)展模式,即通過大量的視覺經(jīng)驗(yàn)自發(fā)形成對(duì)世界的理解。
規(guī)?;?xùn)練的工程挑戰(zhàn)
訓(xùn)練一個(gè)70億參數(shù)的模型需要處理17億張圖像,這種規(guī)模的訓(xùn)練面臨著前所未有的工程挑戰(zhàn)。從數(shù)據(jù)管道的優(yōu)化到分布式訓(xùn)練的協(xié)調(diào),從內(nèi)存管理到計(jì)算資源的調(diào)度,每個(gè)環(huán)節(jié)都需要精心設(shè)計(jì)。
DINOv3的訓(xùn)練數(shù)據(jù)來源于Instagram公開帖子收集的約170億張圖像,通過平臺(tái)級(jí)內(nèi)容審核防止有害內(nèi)容。數(shù)據(jù)處理采用三層策略:
1. 聚類篩選層:使用DINOv2作為圖像嵌入,應(yīng)用5級(jí)聚類(從最低到最高級(jí)別的聚類數(shù)分別為2M、2M、50k、50k和50k),最終產(chǎn)生16.89億圖像的LVD-1689M數(shù)據(jù)集。
2. 檢索篩選層:采用類似DINOv2的檢索系統(tǒng),從數(shù)據(jù)池中檢索與選定種子數(shù)據(jù)集相似的圖像。
3. 精選數(shù)據(jù)層:包含ImageNet1k、ImageNet22k和Mapillary街景序列等公開計(jì)算機(jī)視覺數(shù)據(jù)集。
在訓(xùn)練后,模型被蒸餾成更高效的版本,這一步驟對(duì)于模型的實(shí)用化至關(guān)重要。蒸餾不僅僅是簡(jiǎn)單的模型壓縮,更是知識(shí)提煉和重構(gòu)的過程。通過蒸餾,巨大的DINOv3模型的"智慧"能夠傳遞給更輕量的版本,使其在保持強(qiáng)大能力的同時(shí)具備實(shí)際部署的可行性。

DINOv3開發(fā)了創(chuàng)新的并行蒸餾管道,允許同時(shí)訓(xùn)練多個(gè)學(xué)生模型并在所有訓(xùn)練節(jié)點(diǎn)間共享教師推理。單教師單學(xué)生:教師推理成本C_T,學(xué)生訓(xùn)練成本C_S,而多學(xué)生蒸餾的時(shí)候,教師推理成本固定為C_T,每增加一個(gè)學(xué)生僅增加C_S的訓(xùn)練成本。

DINOv3整體在512×512分辨率訓(xùn)練,但支持遠(yuǎn)超最大訓(xùn)練分辨率的推理,在4k以上分辨率仍能觀察到穩(wěn)定的特征圖。通過混合分辨率訓(xùn)練(全局裁剪224-768像素,局部裁剪96-512像素)實(shí)現(xiàn)跨分辨率泛化。
重塑計(jì)算機(jī)視覺的應(yīng)用生態(tài)
自監(jiān)督學(xué)習(xí)為標(biāo)注稀缺或成本高昂的領(lǐng)域提供了突破口,使得包括衛(wèi)星和航空?qǐng)D像中的各種任務(wù)成為可能。這種能力對(duì)于環(huán)境監(jiān)測(cè)、城市規(guī)劃、農(nóng)業(yè)管理等領(lǐng)域具有巨大價(jià)值。傳統(tǒng)上需要專業(yè)知識(shí)和大量人工標(biāo)注的任務(wù),現(xiàn)在可以通過DINOv3的通用特征提取能力快速實(shí)現(xiàn)。
預(yù)訓(xùn)練的DINOv3模型可以通過在少量標(biāo)注數(shù)據(jù)上訓(xùn)練輕量級(jí)適配器來輕松定制。這種模式極大降低了特定任務(wù)適配的門檻,使得中小企業(yè)和研究機(jī)構(gòu)也能夠享受到大模型帶來的技術(shù)紅利。適配器模式的成功,可能會(huì)催生一個(gè)全新的"模型定制服務(wù)"生態(tài)系統(tǒng)。
DINOv3的完整模型家族可以滿足滿足不同應(yīng)用需求
- ViT系列(Vision Transformer):
- ViT-S/16:2100萬參數(shù),適合輕量級(jí)應(yīng)用
- ViT-S+/16:2900萬參數(shù),性能與效率平衡
- ViT-B/16:8600萬參數(shù),主流應(yīng)用的理想選擇
- ViT-L/16:3億參數(shù),高性能需求
- ViT-H+/16:8億參數(shù),接近旗艦級(jí)性能
- ViT-7B/16:67億參數(shù),旗艦級(jí)模型

ConvNeXt系列(邊緣設(shè)備優(yōu)化):
- ConvNeXt Tiny:2900萬參數(shù)
- ConvNeXt Small:5000萬參數(shù)
- ConvNeXt Base:8900萬參數(shù)
- ConvNeXt Large:1.97億參數(shù)
專用領(lǐng)域模型:
- 衛(wèi)星圖像專用模型(SAT-493M數(shù)據(jù)集訓(xùn)練)
- 文本對(duì)齊模型(支持零樣本能力)
商業(yè)化前景與開源
Meta將DINOv3在商業(yè)許可下發(fā)布,為計(jì)算機(jī)視覺社區(qū)提供了包括預(yù)訓(xùn)練骨干網(wǎng)絡(luò)、適配器以及訓(xùn)練代碼在內(nèi)的完整套件。這種開源策略體現(xiàn)了Meta的長(zhǎng)遠(yuǎn)戰(zhàn)略思考,通過構(gòu)建開放的技術(shù)生態(tài)來推動(dòng)整個(gè)領(lǐng)域的發(fā)展。

盡管DINOv3展現(xiàn)了令人矚目的性能,但其7B參數(shù)的規(guī)模仍然對(duì)計(jì)算資源提出了很高要求。如何進(jìn)一步優(yōu)化模型效率,讓更多的研究者和開發(fā)者能夠使用和改進(jìn)這項(xiàng)技術(shù),是一個(gè)需要持續(xù)關(guān)注的問題。
當(dāng)前的DINOv3主要專注于視覺領(lǐng)域,但真實(shí)世界的智能往往需要多模態(tài)信息的融合。未來版本如何整合文本、音頻等其他模態(tài)信息,實(shí)現(xiàn)更全面的感知能力,是一個(gè)值得期待的發(fā)展方向。
隨著模型能力的增強(qiáng),如何確保其決策過程的可解釋性和輸出結(jié)果的安全性變得更加重要。特別是在醫(yī)療、自動(dòng)駕駛等安全關(guān)鍵領(lǐng)域的應(yīng)用中,這些考量將直接影響技術(shù)的實(shí)際采用。
DINOv3不僅僅是一個(gè)技術(shù)產(chǎn)品,更是計(jì)算機(jī)視覺領(lǐng)域發(fā)展理念的重要轉(zhuǎn)折點(diǎn)。它證明了自監(jiān)督學(xué)習(xí)的巨大潛力,展示了大規(guī)模無標(biāo)注數(shù)據(jù)的價(jià)值,并為構(gòu)建真正通用的視覺AI系統(tǒng)指明了方向。而在技術(shù)調(diào)度而言,DINOv3的成功為自監(jiān)督學(xué)習(xí)的進(jìn)一步發(fā)展奠定了堅(jiān)實(shí)基礎(chǔ)。從應(yīng)用角度看,它降低了計(jì)算機(jī)視覺技術(shù)的使用門檻,有望加速AI技術(shù)在各個(gè)垂直領(lǐng)域的普及。
本文轉(zhuǎn)載自??魯班模錘??,作者:龐德公

















