全新開源模型復現(xiàn)o3視覺推理，無需大量訓練即可實現(xiàn)深度思考

2025-09-15 14:42:55

人工智能

最近的多模態(tài)大模型雖然能通過”圖像工具+強化學習”處理視覺問題，但現(xiàn)有開源方案存在很大的短板：比如推理方式單調(diào)、交互輪次受限、遇到需要反復試錯的復雜任務就束手無策。

OpenAI o3的多輪視覺推理，有開源平替版了。

并且，與先前局限于1-2輪對話的視覺語言模型（VLM）不同，它在訓練限制輪數(shù)只有6輪的情況下，測試階段能將思考輪數(shù)擴展到數(shù)十輪。

圖片

這個模型叫Mini-o3，它無需消耗大量訓練周期資源，通過恰當?shù)臄?shù)據(jù)、初始化方法和強化學習微調(diào)，即可實現(xiàn)長周期視覺搜索能力。由字節(jié)、香港大學團隊聯(lián)合開發(fā)。

圖片

跨越數(shù)十個步驟的深度推理

最近的多模態(tài)大模型雖然能通過”圖像工具+強化學習”處理視覺問題，但現(xiàn)有開源方案存在很大的短板：

比如推理方式單調(diào)、交互輪次受限、遇到需要反復試錯的復雜任務就束手無策。

而Mini-o3突破了上述局限——它能夠進行長達數(shù)十個步驟的深度多輪推理，在高難度視覺搜索任務中達到了當前最佳水平。

圖片

這得益于它的三個關鍵設計：

第一，研究團隊構(gòu)建了視覺探測數(shù)據(jù)集VisualProbe，包含數(shù)千個專為探索式推理設計的視覺搜索難題；
第二，開發(fā)了迭代式數(shù)據(jù)收集流程，讓模型能學會深度優(yōu)先搜索、試錯探索、目標維持等多樣化推理策略；
第三，提出超輪次掩碼策略，在強化學習中避免對達到最大交互輪次的響應進行懲罰，從而平衡訓練效率與測試時的擴展性。

圖片

訓練Mini-o3包括以下兩個階段：

階段一：冷啟動監(jiān)督微調(diào) （SFT）

為了處理復雜的探索性任務，研究團隊采用冷啟動SFT來激活多輪工具使用能力。

冷啟動數(shù)據(jù)收集流程如下圖所示。

圖片

為生成高質(zhì)量、多樣化的多輪推理軌跡，研究團隊選取少量人工構(gòu)建的示范樣本，通過上下文學習方式提示現(xiàn)有VLM進行模仿。

該模型被要求逐輪迭代生成“思考-行動”對，直到輸出最終答案或達到預設輪次上限。

研究團隊僅保留最終答案正確的軌跡，通過這套流程從6個示范樣本中收集了約6000條冷啟動推理軌跡。

階段二：強化學習（RL）

首先，降低最大像素限制。基礎模型的上下文長度被限制在3.2萬token，當默認圖像預算約為1200萬像素時，可允許的交互輪次會因上下文限制而大幅減少，這阻礙了模型在困難任務上進行試錯探索。

為提高單次任務中的可行交互輪次，研究團隊將每張圖像的最大像素限制降至200萬（必要時可進一步降低）。

這一簡單調(diào)整使得相同上下文容量內(nèi)可容納更多交互輪次，從而提升長周期問題的解決率。

其次，加入超輪次掩碼機制。

在原始GRPO設置中，每個問題【q】會被輸入策略模型以生成一組輸出。系統(tǒng)隨后根據(jù)回答正確性計算獎勵值【r】。

研究團隊通過獎勵歸一化計算優(yōu)勢值【A】，并在小批量數(shù)據(jù)上使用GRPO優(yōu)化目標更新策略。

在該策略的實現(xiàn)中，未加入KL散度或熵正則化項。形式化優(yōu)化目標表示為：

需要注意的是，當響應達到最大交互輪次或超出上下文長度限制時，獎勵值會被設為【0】，此類情況下無法產(chǎn)生有效答案，會導致歸一化后產(chǎn)生負優(yōu)勢值。

這類響應在整個訓練過程中應該受到懲罰和抑制，但又存在兩個明顯問題：

圖片

首先，超長響應的正確性本質(zhì)上是未知的——直接的懲罰會給回報信號注入標簽噪聲，可能導致訓練過程不穩(wěn)定；

其次，為了控制訓練成本，訓練時的輪次限制必須保持在較低水平（通常不到10輪），這就導致超長回答頻繁出現(xiàn)（訓練初期甚至超過20%）。

在這種情況下，簡單粗暴的懲罰會使模型過早給出答案，大幅減少交互回合數(shù)。使得高難度任務難以處理，并嚴重限制了測試時擴展的潛力。

圖片

為了防止模型陷入“盡早給出答案”的策略，研究團隊提出了一種超輪次掩碼技術，目標是不懲罰超長回復。整體流程如上圖所示。

具體來說，除了在標準GRPO中定義的獎勵【r】和優(yōu)勢【A】之外，研究團隊引入了一個完成掩碼【M】，用于指示回復是否成功終止。然后計算掩碼后的優(yōu)勢，使得超長軌跡不會貢獻負向?qū)W習信號。

基于標準GRPO的改進目標總結(jié)如下，公式中的變化用紅色標出。

由于某些響應不完整，研究團隊通過完成的生成數(shù)來歸一化目標，而不是通過總生成數(shù)【G】。

值得注意的是，盡管訓練時設置了較小的輪次上限，但測試時的推理軌跡能延伸至數(shù)十輪，且準確率持續(xù)提升。

超輪次掩碼技術對于實現(xiàn)測試時交互輪次擴展的優(yōu)勢至關重要。

圖片

此外，由于構(gòu)建高難度實例對促進RL中的反思性試錯推理至關重要，研究團隊還創(chuàng)建了一個具有挑戰(zhàn)性的視覺搜索數(shù)據(jù)集——VisualProbe。

該數(shù)據(jù)集包含4,000個訓練用視覺問答對和500個測試用問答對，涵蓋簡單、中等、困難三個難度級別。

與現(xiàn)有視覺搜索基準相比，VisualProbe的突出特點是：

小目標
眾多干擾物體
高分辨率圖像

這些特性使得任務大大更具挑戰(zhàn)性，并自然地要求迭代探索和試錯。

無需消耗大量訓練周期資源

圖片

上表為現(xiàn)有模型和Mini-o3在視覺搜索任務上的性能比較，所有列出的模型大小均為7B。

為確保評估的穩(wěn)健性和說服力，研究團隊在VisualProbe、V*Bench和HR-Bench上評估所有模型。在所有數(shù)據(jù)集上，Mini-o3均實現(xiàn)了最先進的性能，顯著優(yōu)于其他開源基線。

研究團隊將這些提升歸因于Mini-o3能夠維持更復雜和更深的推理軌跡。

圖片

在消融實驗中，上表的實驗1和實驗4顯示，移除RL數(shù)據(jù)導致模型在VisualProbe-Hard上的性能下降約8.6分，表明具有挑戰(zhàn)性的RL樣本對于鼓勵復雜的推理軌跡至關重要。

上表的實驗2和實驗4表明，冷啟動SFT對于多輪工具使用至關重要：沒有它，性能會崩潰。

研究團隊認為，基礎模型在預訓練或指令微調(diào)階段缺乏多輪自主推理軌跡的學習，而冷啟動SFT為此提供了關鍵的基礎能力初始化。

上表的實驗3和實驗4表明，超輪次掩碼技術能有效提升RL效果，尤其在多輪交互場景中優(yōu)勢顯著。

超輪次掩碼技術的核心價值體現(xiàn)在兩方面：首先，通過避免對正確性未知的截斷響應進行錯誤懲罰，有效穩(wěn)定了訓練過程；其次，該技術實現(xiàn)了測試時的輪次擴展能力，使模型能夠解決那些所需輪次遠超訓練上限的高難度任務，從而釋放出強勁性能。

圖片

上表評估了不同最大像素預算的效果。結(jié)果顯示，預算值過大或過小都會導致性能下降：過大的預算會引發(fā)提前終止現(xiàn)象，減少交互輪次并限制迭代優(yōu)化；而過小的預算則會增加感知幻覺。

研究團隊在同表中記錄了平均交互輪次數(shù)值，這揭示了感知精度與交互深度之間的權(quán)衡關系。通過合理調(diào)整最大像素預算，才能實現(xiàn)最佳的整體性能。

圖片

為了直觀展示增加訓練輪次的效果，研究團隊對比了6輪交互上限和12輪交互上限在VisualProbe-Hard數(shù)據(jù)集上的準確率。結(jié)果顯示：較低輪次上限（6輪）在初期進步更快，但訓練約150步后就會停滯不前；而較高輪次上限（12輪）雖然前期學習速度較慢，最終卻能達到更優(yōu)異的性能水平。

簡單地說，Mini-o3能夠生成多樣化的推理模式與深度思維鏈，其推理軌跡可擴展至數(shù)十個交互輪次，且準確率隨輪次增加持續(xù)提升，在多個視覺搜索基準測試中顯著超越現(xiàn)有模型。

研究人員表示，Mini-o3的技術方案能為多輪交互式多模態(tài)模型的開發(fā)與強化學習應用提供實用指導。

相關代碼已全部開源。