Mini-o3開源:字節(jié)+港大復刻“OpenAI o3”視覺推理,數(shù)十輪對話把圖“想”明白!
在人工智能領域,視覺推理模型一直是研究的熱點之一。隨著技術的不斷進步,如何讓模型具備更強大的視覺推理能力和更自然的交互能力成為了研究的重點。Mini-o3正是在這樣的背景下應運而生,它由字節(jié)跳動和香港大學聯(lián)合推出,旨在解決復雜的視覺搜索問題,通過深度多輪推理和創(chuàng)新的技術手段,顯著提升了模型的性能。
圖片
一、項目概述
Mini-o3是一個開源的視覺推理模型,專為解決復雜的視覺搜索問題而設計。它通過強化學習和基于圖像的工具,能夠執(zhí)行深度多輪推理,推理輪次可擴展至數(shù)十輪。該模型在多個視覺搜索基準測試中取得了最先進的結(jié)果,并且所有代碼、模型和數(shù)據(jù)集均開源,便于研究人員復現(xiàn)和進一步研究。
圖片
二、核心功能
(一)多輪交互推理
Mini-o3能夠進行深度多輪交互推理,交互輪次可擴展至數(shù)十輪。在復雜的視覺搜索任務中,模型通過逐步探索和試錯,逐步縮小搜索范圍,最終精準定位目標。這種深度交互推理能力使其能夠處理更為復雜的視覺問題,例如在高分辨率圖像中,即使目標物體較小且存在大量干擾物體,Mini-o3也能通過多輪推理,逐步排除干擾,準確找到目標物體。
(二)多樣化推理模式
Mini-o3支持多種推理模式,包括深度優(yōu)先搜索、試錯和目標維持等。深度優(yōu)先搜索模式使其能夠沿著一條線索深入探索,直至找到目標或確定該線索無效;試錯模式則允許模型在探索過程中不斷嘗試不同的路徑和方法,通過失敗來學習和調(diào)整策略;目標維持模式則確保模型在多輪交互中始終保持對目標的關注,不會因干擾而偏離搜索方向。
(三)挑戰(zhàn)性視覺搜索
Mini-o3專為解決挑戰(zhàn)性的視覺搜索問題而設計。它能夠在高分辨率圖像中,面對小目標、大量干擾物體等復雜情況,依然準確地定位和識別目標。例如,在電商平臺上,用戶可能上傳一張包含眾多商品的圖片,希望找到與其中某一特定商品相似的其他商品。Mini-o3能夠在這張圖片中準確識別出目標商品的特征,并在海量商品庫中進行精準搜索,為用戶提供滿意的搜索結(jié)果。
三、技術揭秘
(一)冷啟動監(jiān)督微調(diào)(Cold-start Supervised Fine-tuning, SFT)
通過少量手工制作的示例,用上下文學習能力的視覺語言模型(VLM)生成高質(zhì)量、多樣化的多輪交互軌跡。
(二)強化學習(Reinforcement Learning, RL)
基于過輪遮蔽(over-turn masking)策略,避免因交互輪次超出限制而受到懲罰,在測試時能自然擴展到數(shù)十輪交互。
(三)降低圖像像素預算(Lower Down Max Pixels)
通過減少每張圖像的最大像素數(shù),增加單次交互中允許的輪次數(shù)量,提高解決長周期問題的能力。
(四)挑戰(zhàn)性數(shù)據(jù)集(Visual Probe Dataset)
構(gòu)建一個包含數(shù)千個視覺搜索問題的數(shù)據(jù)集,問題設計用在鼓勵探索性推理,幫助模型在訓練過程中學習復雜的推理模式。
四、基準評測
Mini-o3在多個視覺搜索基準測試中取得了卓越的性能表現(xiàn)。例如,在VisualProbe數(shù)據(jù)集的hard級別上,Mini-o3的準確率達到了48.0%,遠超其他同類模型,如GPT-4o的11.2%和LLaVA-OneVision的13.4%。

五、應用場景
(一)電商領域
在電商平臺上,用戶常常需要通過圖片搜索來尋找心儀的商品。Mini-o3能夠幫助用戶在海量商品圖片中快速找到目標商品。例如,用戶可能上傳一張包含眾多服裝的圖片,希望找到與其中某一特定服裝相似的款式。Mini-o3通過深度多輪推理,能夠準確識別出目標服裝的特征,并在商品庫中進行精準搜索,為用戶提供與之相似的商品推薦。
(二)智能家居領域
在智能家居環(huán)境中,Mini-o3可以通過攝像頭捕捉圖像,幫助用戶快速找到丟失的物品。例如,用戶可能在家中找不到鑰匙或遙控器,通過與Mini-o3進行交互,模型可以在家庭環(huán)境中進行視覺搜索,逐步縮小搜索范圍,最終幫助用戶找到丟失的物品。
(三)監(jiān)控視頻分析領域
在監(jiān)控視頻中快速定位和識別特定目標是Mini-o3的另一個重要應用場景。例如,在人群密集的公共場所,如機場、車站等,監(jiān)控系統(tǒng)需要快速準確地找到特定人員或物品。Mini-o3通過多輪推理分析監(jiān)控視頻,能夠逐步排除干擾,鎖定目標物體的位置。此外,Mini-o3還可以用于異常行為檢測,通過分析監(jiān)控視頻中的人員行為模式,及時發(fā)現(xiàn)異常行為,如入侵、打斗等,并發(fā)出警報。
(四)自動駕駛領域
在自動駕駛系統(tǒng)中,Mini-o3的多輪視覺推理能力可以發(fā)揮重要作用。例如,在復雜路況中,自動駕駛系統(tǒng)需要準確理解和規(guī)劃路徑,尤其是在有遮擋物或復雜交通標志的情況下。Mini-o3可以通過多輪推理,逐步分析路況信息,識別交通標志和障礙物,并為自動駕駛系統(tǒng)提供準確的決策依據(jù)。
(五)醫(yī)療影像分析領域
在醫(yī)療影像分析中,Mini-o3可以幫助醫(yī)生快速準確地定位病變區(qū)域。例如,在高分辨率的醫(yī)學影像中,病變區(qū)域可能較小且存在大量干擾組織,Mini-o3通過深度多輪推理,能夠逐步縮小搜索范圍,最終準確找到病變區(qū)域的位置。
圖片
六、快速使用
(一)安裝環(huán)境
首先克隆Mini-o3的GitHub倉庫,然后創(chuàng)建Python環(huán)境并安裝所需的包。
git clone https://github.com/Mini-o3/Mini-o3.git
conda create -n minio3 pythnotallow=3.11 -y
conda activate minio3
cd Mini-o3
pip3 install -r requirements.txt
pip3 install -e .
pip3 install httpx==0.23.3(二)模型訓練
訓練過程包括兩個階段。第一階段是冷啟動監(jiān)督微調(diào)(SFT),第二階段是強化學習(RL)。
- 冷啟動監(jiān)督微調(diào)(SFT):使用LLaMA-Factory對冷啟動數(shù)據(jù)進行微調(diào)。
python3 scripts/preprocess_coldstart.py --dataset_path Mini-o3/Mini-o3-Coldstart-Dataset --output_dir [YOUR_DATASET_FOLDER]
llamafactory-cli train sft_configs/qwen2.5-vl.yaml- 強化學習(RL):基于冷啟動模型進行強化學習訓練。
python3 -m verl.trainer.main_ppo [訓練參數(shù)](三)模型評估
在訓練完成后,可以通過添加相應的參數(shù)來評估模型的性能。
actor_rollout_ref.rollout.val_n=32 \
actor_rollout_ref.rollout.val_do_sample=True \
trainer.val_only=True結(jié)語
Mini-o3作為一款開源的視覺推理模型,通過其深度多輪推理能力和創(chuàng)新的技術手段,在多個視覺搜索基準測試中取得了卓越的性能。它的開源性為研究人員提供了極大的便利,有助于推動相關技術的進一步發(fā)展。
項目地址
項目官網(wǎng):https://mini-o3.github.io/
GitHub倉庫:https://github.com/Mini-o3/Mini-o3
HuggingFace模型庫:https://huggingface.co/Mini-o3/models
arXiv技術論文:https://arxiv.org/pdf/2509.07969





































