ICCV25 Highlight|格靈深瞳RICE模型狂刷榜單,讓AI「看懂」圖片的每個細節
最近,格靈深瞳公司靈感團隊自研的視覺模型基座RICE(MVT v1.5)再次驚艷全場,刷榜多項視覺任務。
RICE 作為 MVT 系列的新模型,繼續延續前作 Unicom(MVT v1.0)和 MLCD(MVT v1.1)的視覺預訓練理念,秉持著 margin 表征代表語義的核心觀點,在頂級學術會議 ICCV25 上獲得 Highlight 榮譽。

- 代碼地址:https://github.com/deepglint/MVT
- 論文地址:https://arxiv.org/abs/2507.20025
- 模型地址:https://huggingface.co/DeepGlint-AI/rice-vit-large-patch14-560
MVT 系列作為靈感團隊自研的視覺基座預訓練方法,從 1.0 開始,就聚焦于如何讓視覺模型利用海量的數據集進行更加準確的視覺語義表征。MVT 系列靈感來自于格靈深瞳公司的頂尖技術 —— 人臉識別算法,得益于在人臉識別領域積累的大量訓練經驗和視覺表征認知。
團隊深刻認識到,視覺知識就像不同的人臉一樣,名字只是賦予的人為語義,只要能充分做到不同語義之間的差異化表征,即可做到讓各種下游任務以及 LLM 輕松識別這些差異化表征與人類認知之間的對應關系。
基于此思路,MVT v1.0 成功站在巨人的肩膀上,利用當時最先進的 CLIP 預訓練模型為海量圖文數據進行特征提取。再利用 kmeans 算法,將所有的特征聚類為一百萬個不同類別,并為圖片進行打標。MVT v1.0 在圖片分類、檢索等不同領域均獲得了 SOTA 級別的表現。

MVT v1.0 方法中的每個樣本的學習其實是基于超大規模的數據集總結出來的,超越了 CLIP 這類方法的 batch 類差異化學習的限制。
靈感團隊繼續研究發現對圖像賦予單一的標簽,可能會將一些其他正確的標簽被當成負樣本學習 —— 人類對于事物的認知是多樣的。基于此思想,團隊推出 MVT v1.1 的工作,給每張圖像分配 top-k 個軟標簽,進一步提高視覺基座對圖像編碼的語義豐富性。

新一代視覺模型基座 ——RICE
本次的 MVT v1.5——RICE 是沿著前作思想,并進一步洞悉圖像語義組成方式的又一力作。
團隊研究發現一張圖片的信息往往是多種無 / 弱關聯視覺元素拼接而成,直接對圖片內的不同視覺元素進行監督可能更加符合人類對于圖片信息的處理,也能進一步成為目標檢測、分割等下游任務更好的基座視覺模型。除此之外,圖片中存在的字符塊也被此框架所兼容,其字符本身即為該區域圖片的語義信息。
為此,團隊使用 SAM 對潛在的區域級對象進行了搜索,并對整個數據集中的區域級對象進行特征提取和聚類,最終從 400M 的圖像中得到 2B 個圖像區域級對象,并聚類為一百萬個區域級語義類別標簽。針對圖像字符塊,團隊使用 PaddleOCR 從 50M 圖片中提取出 400M 的字符級別候選區域,使用字符直接作為類別標簽。

在訓練過程中,每張圖片有大約 10 個區域級對象需要進行學習,團隊提出一種 Region Attention Layer 模塊用于加速模型訓練。模型主體部分 ——Encoder 使用經典的 ViT 結構,對于最后一層的視覺特征圖則使用 mask 機制對屬于同一對象的視覺特征進行提取,完整圖片的 class embedding 作為 Q 對區域級別的視覺特征進行 QKV 注意力計算,得到該區域的 Region Class Embedding 作為區域類別語義進行分類損失計算。

相比于 MVT v1.1 這類以全圖語義信息編碼的訓練方法,RICE 在訓練過程中,圖片內部的視覺特征差異性得到了有效的提升。這表明隨著訓練的進行,視覺編碼器對于圖片內部元素的語義表征變得更加豐富。
完備實驗驗證
RICE 作為新的視覺基座,在多種不同的下游任務上進行了充分的實驗驗證。
檢測任務
RICE 不僅在經典的 COCO 和 LVIS 任務上驗證了檢測任務上的 Linear Prob 能力,還在包含了 100 種不同場景檢測任務的 Roboflow100 上進行了與其他先進的視覺基座進行了公平比較。針對區域級別語義學習的預訓練方法,讓 RICE 在這類任務上有著得天獨厚的優勢,在幾乎所有指標上獲得了最好的結果。

多模態分割任務
多模態分割任務作為多模態領域重要的方向之一,RICE 使用經典的 LLaVA 系列多模態框架,使用 LISA 方法進行訓練,在 refCOCO 系列的所有子集上均獲得了顯著的提升。

視頻追蹤任務
盡管 RICE 是基于圖片進行訓練的,但其 ROPE 的位置編碼方式以及跨圖片的區域級對象聚類方法,使得 RICE 可以接收不同尺寸的視頻輸入,并對于不同視頻幀中的相同目標進行持續追蹤。RICE 在 4 個不同的視頻追蹤相關任務上均獲得了領先表現,從特征降采樣后的可視化效果來看,模型能夠很好的對不同幀中的同一類別物體進行持續追蹤。

多模態問答任務
多模態模型是現在視覺基座模型的兵家必爭之地。在 LLaVA 系列的主流訓練架構中,使用 RICE 作為視覺編碼器在多個基準測試上獲得了更好的效果。尤其是得益于其在預訓練方法可以無縫兼容光學字符識別,使得基于 RICE 視覺基座的多模態模型在 OCR 相關任務上獲得了顯著的優勢。下表源自 LLaVA- OneVision-1.5 技術報告:

最近,RICE 被作為 LLaVA-OneVision-1.5 的視覺編碼器,助力其成為和 Qwen2.5-VL 系列可比的全開源的卓越工作。

結論
RICE 作為格靈深瞳公司 MVT 系列的又一力作,在多個層面上展現了他們對于視覺預訓練的深刻理解與洞察。RICE 的成功證明了:視覺語義信息在學習時應當注重差異化,可以保證不同下游任務輕松區分并快速識別不同的語義信息;圖片中的視覺元素很多的時候是無 / 弱關聯,因此區域內的視覺元素學習能夠更好的完整表征圖片信息。
下一步,MVT 系列即將開啟 v2.0—— 視頻編碼工作,圖像是對當前場景的一個靜態幀,視頻則是對真實世界的直接記錄。視頻中有大量的信息可以挖掘,是通往 AGI 之路的金礦山。MVT 將繼續沿著前作的差異化語義表征的路線,開啟視頻編碼時代的下一個新 SOTA!





























