Vision-Zero:零數據VLM自我進化!陳怡然團隊提出零監督訓練新范式
本文作者包括來自杜克大學的汪勤思、林閱千、李海教授、陳怡然教授,新加坡國立大學的劉博,馬里蘭大學的周天翼教授,和 Adobe 的研究員施靖、萬錕、趙文天。

- 開源代碼&模型:https://github.com/wangqinsi1/Vision-Zero
- 項目主頁:https://huggingface.co/papers/2509.25541
- 論文鏈接:https://arxiv.org/abs/2509.25541

背景介紹
盡管目前VLM在多模態任務上表現突出,但訓練過度依賴人工標注的數據與精心設計的強化學習獎勵。這種依賴帶來數據稀缺問題:多模態標注成本高昂,限制了訓練數據的規模與多樣性。同時存在知識天花板:模型能力受人類監督邊界限制,難以突破人類已有知識和策略。曾經AlphaGo所使用的自博弈技術通過模型與自身副本競爭交互并自動獲取反饋,把計算轉變為數據的同時消除了對人工監督的依賴,這使得它能夠持續推動模型進步并突破人類能力上限。但是受制于VLM的多模態特性,目前鮮有對自博弈在VLM上應用的系統性研究。為此研究團隊設計了一套適應VLM特性的自博弈框架Vision-Zero,此框架有如下特點:
(1)策略自博弈框架:Vision-Zero在以社交推理類游戲為模板的環境中訓練VLM,使得agent在自博弈過程中自動生成高復雜度推理數據,而無需人工標注。
(2)任意形式的圖片都可作為輸入:和以往有限制條件的游戲化訓練框架不同的是,Vision-Zero可在任意形式的圖片上啟動游戲,這使得模型可以在很多不同的領域里獲得相應的能力提升,并有很好的泛化性能。
(3)持續的性能提升:研究團隊提出了自博弈和可驗證獎勵的強化學習(RLVR)交替優化的自博弈策略優化算法(Iterative-SPO),這一算法解決了傳統自博弈算法中常見的性能瓶頸問題。
盡管沒有用任何標注數據做訓練,Vision-Zero在多個領域如推理,圖表問答和Vision-Centric理解任務上超越了其他有標注的SOTA后訓練方法。

從棋盤到現實:
AlphaGo 自博弈思想的泛化
自博弈作為 OpenAI 早期的重要技術路線之一,也是人工智能發展歷程中多項里程碑事件的關鍵推動力。典型代表包括 2016 年 AlphaGo 戰勝李世石,以及 2019 年 OpenAI Five 在 Dota 2 上擊敗世界冠軍 OG 戰隊。人們在看到自博弈在某些特定領域大幅超越人類智能的同時,往往也會思考我們是否有可能把這種思想應用到更多的開放場景中。然而讓AlphaGo從棋盤走入現實需要解決以下幾個難題:
(1)Agent為贏得博弈所習得的技能,應當與目標任務所需的技能高度一致。
(2)博弈環境應當足夠多樣且復雜,以便廣泛的目標任務都能夠滿足條件 (1)。
(3)技能增長應當具有可擴展性:隨著自博弈的進行,環境應當不斷提高難度,使得越來越強的智能體能夠涌現,而不是讓訓練收斂到一個固定的上限。
受到社交推理游戲,如“誰是臥底”的啟發,研究團隊設計了一套完備的自博弈規則以解決上述難題,具體規則如下:
(1)游戲中有 n 名平民和 1 名臥底。玩家首先被告知自己的角色。
(2)每名玩家會得到一張圖片,臥底的圖片與平民略有不同(如缺失、添加或修改了某個物體)。
(3)線索階段:每位玩家觀察自己的圖片,并給出一個口頭線索,描述圖片內容(可以是物體描述、推斷信息等)。
(4)決策階段:多輪線索給出后,進入決策階段。玩家根據線索結合自己的圖片,投票找出臥底。

此游戲具有高度策略性與挑戰性,臥底需要根據他人線索推斷并偽裝自己,避免暴露。平民需要提供足夠準確但不泄密的線索,同時分析他人線索尋找可疑點。如此一來,Agent在游戲過程中便可生成足夠長且復雜的推理鏈條,并且隨著對手能力的提升,其所面臨的挑戰也會越來越大,并被激發出更強的視覺理解與推理能力。
領域無關的數據輸入
此游戲僅需要兩張有細微差異的圖片對作為輸入即可啟動,得益于目前強大的圖片編輯工具如ChatGPT或nano banana,數據的構建極其簡單并且成本低廉,因此此框架的應用場景非常廣泛。研究團隊使用了三種完全不同的場景圖片輸入作為訓練數據:
(1)CLEVR 合成場景:使用 CLEVR 渲染器自動生成了 2000 對圖像。原圖有 4–6 個隨機排列的物體,修改圖中有兩個物體在顏色和形狀上被改變。
(2)圖表數據:從 ChartQA 訓練集隨機選取了 1000 張圖表作為原始圖像,并使用 Gemini2.5-Flash 隨機交換圖表中的數值屬性生成對應的修改圖像。
(3)真實世界圖片:從 ImgEdit 訓練集中隨機抽取了 1000 對圖像,該數據集包含高質量的真實世界單輪圖像編輯對。
從局部均衡到可持續提升
純自博弈訓練容易陷入局部平衡,難以探索新的推理路徑,而單獨的強化學習方法在掌握現有問題集后也易出現知識飽和。為緩解這些問題,作者團隊提出采用雙階段交替訓練:當決策階段表現顯示線索階段已飽和時轉向線索訓練提高難度,反之則切回決策階段。此方法被命名為Iterative Self-Play Policy Optimization。實驗表明,兩階段交替訓練性能明顯優于單階段訓練,對比如下。

實驗結果
強任務泛化能力。為了評估 Vision-Zero 框架下訓練的VLM是否能泛化到更廣泛的推理與數學任務,作者團隊在六個基準數據集上對模型進行測試(結果見表 1)。實驗表明,即使沒有使用標注數據做訓練,Vision-Zero 在各項基準上一致性得優于其他需要標注的SOTA方法。其中,VisionZero-Qwen-7B(CLEVR、Real-World)較基線提升約 3%,VisionZero-Qwen-7B(Chart)提升約 2.8%,而目前最優的基線方法僅約 1.9%。值得注意的是,基線方法需要大量數學與推理樣本訓練,而Vision-Zero 環境并未顯式包含數學任務,只通過自然語言策略博弈提升邏輯推理,并將所學能力有效遷移到更廣泛的數學與推理任務,甚至超過專門在大規模任務數據上訓練的模型。

跨能力負遷移的緩解。VLM 后訓練的關鍵難題之一是跨能力負遷移,即在特定任務上訓練后,模型在其他任務上反而變差。表 2 顯示,基線模型在推理和數學數據上后訓練后,性能明顯下降,例如MM-Eureka-Qwen-7B 在ChartQA 上下降約10%。相比之下,Vision-Zero訓練的模型能有效緩解負遷移:VisionZero-Qwen-7B(CLEVR)在視覺任務上顯著提升,同時在四個圖表/OCR 任務上平均僅下降 0.2%;VisionZero-Qwen-7B(Chart)在全部圖表/OCR 基準上都有提升,并在視覺任務上平均再漲 1%。這表明 Vision-Zero 的多能力策略訓練顯著減輕了傳統單一任務訓練中的負遷移問題。

啟示
Vision-Zero 證明了自博弈從單一任務走向通用任務的可行性與巨大潛力。通過構建開放、可擴展的博弈環境,它擺脫人工標注依賴,突破數據和知識瓶頸,使模型在無需特定任務訓練的前提下實現可持續的能力進化與跨領域泛化。同時,雙階段交替優化有效避免自博弈常見的局部均衡問題。并且,通過自博弈訓練的VLM有效緩解了傳統的在單一任務上做訓練的跨能力負遷移問題。

































