精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

全新開源模型復現(xiàn)o3視覺推理,無需大量訓練即可實現(xiàn)深度思考

人工智能
最近的多模態(tài)大模型雖然能通過”圖像工具+強化學習”處理視覺問題,但現(xiàn)有開源方案存在很大的短板:比如推理方式單調(diào)、交互輪次受限、遇到需要反復試錯的復雜任務就束手無策。

OpenAI o3的多輪視覺推理,有開源平替版了。

并且,與先前局限于1-2輪對話的視覺語言模型(VLM)不同,它在訓練限制輪數(shù)只有6輪的情況下,測試階段能將思考輪數(shù)擴展到數(shù)十輪

圖片圖片

這個模型叫Mini-o3,它無需消耗大量訓練周期資源,通過恰當?shù)臄?shù)據(jù)、初始化方法和強化學習微調(diào),即可實現(xiàn)長周期視覺搜索能力。由字節(jié)、香港大學團隊聯(lián)合開發(fā)。

圖片圖片

跨越數(shù)十個步驟的深度推理

最近的多模態(tài)大模型雖然能通過”圖像工具+強化學習”處理視覺問題,但現(xiàn)有開源方案存在很大的短板:

比如推理方式單調(diào)、交互輪次受限、遇到需要反復試錯的復雜任務就束手無策。

而Mini-o3突破了上述局限——它能夠進行長達數(shù)十個步驟的深度多輪推理,在高難度視覺搜索任務中達到了當前最佳水平。

圖片圖片

這得益于它的三個關鍵設計:

  • 第一,研究團隊構(gòu)建了視覺探測數(shù)據(jù)集VisualProbe,包含數(shù)千個專為探索式推理設計的視覺搜索難題;
  • 第二,開發(fā)了迭代式數(shù)據(jù)收集流程,讓模型能學會深度優(yōu)先搜索、試錯探索、目標維持等多樣化推理策略;
  • 第三,提出超輪次掩碼策略,在強化學習中避免對達到最大交互輪次的響應進行懲罰,從而平衡訓練效率與測試時的擴展性。

圖片圖片

訓練Mini-o3包括以下兩個階段:

階段一:冷啟動監(jiān)督微調(diào) (SFT)

為了處理復雜的探索性任務,研究團隊采用冷啟動SFT來激活多輪工具使用能力。

冷啟動數(shù)據(jù)收集流程如下圖所示。

圖片圖片

為生成高質(zhì)量、多樣化的多輪推理軌跡,研究團隊選取少量人工構(gòu)建的示范樣本,通過上下文學習方式提示現(xiàn)有VLM進行模仿

該模型被要求逐輪迭代生成“思考-行動”對,直到輸出最終答案或達到預設輪次上限。

研究團隊僅保留最終答案正確的軌跡,通過這套流程從6個示范樣本中收集了約6000條冷啟動推理軌跡。

階段二:強化學習 (RL)

首先,降低最大像素限制。基礎模型的上下文長度被限制在3.2萬token,當默認圖像預算約為1200萬像素時,可允許的交互輪次會因上下文限制而大幅減少,這阻礙了模型在困難任務上進行試錯探索。

為提高單次任務中的可行交互輪次,研究團隊將每張圖像的最大像素限制降至200萬(必要時可進一步降低)。

這一簡單調(diào)整使得相同上下文容量內(nèi)可容納更多交互輪次,從而提升長周期問題的解決率。

其次,加入超輪次掩碼機制

在原始GRPO設置中,每個問題【q】會被輸入策略模型以生成一組輸出圖片。系統(tǒng)隨后根據(jù)回答正確性計算獎勵值【r】。

研究團隊通過獎勵歸一化計算優(yōu)勢值【A】,并在小批量數(shù)據(jù)上使用GRPO優(yōu)化目標更新策略。

在該策略的實現(xiàn)中,未加入KL散度或熵正則化項。形式化優(yōu)化目標表示為:圖片

需要注意的是,當響應達到最大交互輪次或超出上下文長度限制時,獎勵值會被設為【0】,此類情況下無法產(chǎn)生有效答案,會導致歸一化后產(chǎn)生負優(yōu)勢值。

這類響應在整個訓練過程中應該受到懲罰和抑制,但又存在兩個明顯問題:

圖片圖片

首先,超長響應的正確性本質(zhì)上是未知的——直接的懲罰會給回報信號注入標簽噪聲,可能導致訓練過程不穩(wěn)定;

其次,為了控制訓練成本,訓練時的輪次限制必須保持在較低水平(通常不到10輪),這就導致超長回答頻繁出現(xiàn)(訓練初期甚至超過20%)。

在這種情況下,簡單粗暴的懲罰會使模型過早給出答案,大幅減少交互回合數(shù)。使得高難度任務難以處理,并嚴重限制了測試時擴展的潛力。

圖片圖片

為了防止模型陷入“盡早給出答案”的策略,研究團隊提出了一種超輪次掩碼技術,目標是不懲罰超長回復。整體流程如上圖所示。

具體來說,除了在標準GRPO中定義的獎勵【r】和優(yōu)勢【A】之外,研究團隊引入了一個完成掩碼【M】,用于指示回復是否成功終止。然后計算掩碼后的優(yōu)勢圖片,使得超長軌跡不會貢獻負向?qū)W習信號。

基于標準GRPO的改進目標總結(jié)如下,公式中的變化用紅色標出。

圖片

由于某些響應不完整,研究團隊通過完成的生成數(shù)圖片來歸一化目標,而不是通過總生成數(shù)【G】。

值得注意的是,盡管訓練時設置了較小的輪次上限,但測試時的推理軌跡能延伸至數(shù)十輪,且準確率持續(xù)提升。

超輪次掩碼技術對于實現(xiàn)測試時交互輪次擴展的優(yōu)勢至關重要。

圖片圖片

此外,由于構(gòu)建高難度實例對促進RL中的反思性試錯推理至關重要,研究團隊還創(chuàng)建了一個具有挑戰(zhàn)性的視覺搜索數(shù)據(jù)集——VisualProbe

該數(shù)據(jù)集包含4,000個訓練用視覺問答對和500個測試用問答對,涵蓋簡單、中等、困難三個難度級別。

與現(xiàn)有視覺搜索基準相比,VisualProbe的突出特點是:

  • 小目標
  • 眾多干擾物體
  • 高分辨率圖像

這些特性使得任務大大更具挑戰(zhàn)性,并自然地要求迭代探索和試錯。

無需消耗大量訓練周期資源

圖片圖片

上表為現(xiàn)有模型和Mini-o3在視覺搜索任務上的性能比較,所有列出的模型大小均為7B。

為確保評估的穩(wěn)健性和說服力,研究團隊在VisualProbe、V*Bench和HR-Bench上評估所有模型。在所有數(shù)據(jù)集上,Mini-o3均實現(xiàn)了最先進的性能,顯著優(yōu)于其他開源基線。

研究團隊將這些提升歸因于Mini-o3能夠維持更復雜和更深的推理軌跡。

圖片圖片

在消融實驗中,上表的實驗1和實驗4顯示,移除RL數(shù)據(jù)導致模型在VisualProbe-Hard上的性能下降約8.6分,表明具有挑戰(zhàn)性的RL樣本對于鼓勵復雜的推理軌跡至關重要。

上表的實驗2和實驗4表明,冷啟動SFT對于多輪工具使用至關重要:沒有它,性能會崩潰。

研究團隊認為,基礎模型在預訓練或指令微調(diào)階段缺乏多輪自主推理軌跡的學習,而冷啟動SFT為此提供了關鍵的基礎能力初始化。

上表的實驗3和實驗4表明,超輪次掩碼技術能有效提升RL效果,尤其在多輪交互場景中優(yōu)勢顯著。

超輪次掩碼技術的核心價值體現(xiàn)在兩方面:首先,通過避免對正確性未知的截斷響應進行錯誤懲罰,有效穩(wěn)定了訓練過程;其次,該技術實現(xiàn)了測試時的輪次擴展能力,使模型能夠解決那些所需輪次遠超訓練上限的高難度任務,從而釋放出強勁性能。

圖片圖片

上表評估了不同最大像素預算的效果。結(jié)果顯示,預算值過大或過小都會導致性能下降:過大的預算會引發(fā)提前終止現(xiàn)象,減少交互輪次并限制迭代優(yōu)化;而過小的預算則會增加感知幻覺。

研究團隊在同表中記錄了平均交互輪次數(shù)值,這揭示了感知精度與交互深度之間的權(quán)衡關系。通過合理調(diào)整最大像素預算,才能實現(xiàn)最佳的整體性能。

圖片圖片

為了直觀展示增加訓練輪次的效果,研究團隊對比了6輪交互上限和12輪交互上限在VisualProbe-Hard數(shù)據(jù)集上的準確率。結(jié)果顯示:較低輪次上限(6輪)在初期進步更快,但訓練約150步后就會停滯不前;而較高輪次上限(12輪)雖然前期學習速度較慢,最終卻能達到更優(yōu)異的性能水平。

簡單地說,Mini-o3能夠生成多樣化的推理模式與深度思維鏈,其推理軌跡可擴展至數(shù)十個交互輪次,且準確率隨輪次增加持續(xù)提升,在多個視覺搜索基準測試中顯著超越現(xiàn)有模型。

研究人員表示,Mini-o3的技術方案能為多輪交互式多模態(tài)模型的開發(fā)與強化學習應用提供實用指導。

相關代碼已全部開源。

作者團隊

本次研究團隊作者一共6人。

分別是:賴昕(Xin Lai)、Junyi Li、Wei Li、Tao Liu、Tianjian Li、趙恒爽(Hengshuang Zhao,通訊作者)。

其中賴昕Junyi Li是Mini-o3項目的共同一作。

圖片

賴昕是字節(jié)跳動的研究員,研究方向為大型多模態(tài)模型。他本科就讀于哈爾濱工業(yè)大學,后于2024年在香港中文大學獲得博士學位。

圖片

博士期間,他作為第一作者參與的Step-DPO項目在MATH和GSM8K分別獲得了70.8%和94.0%的準確率;LISA項目在GitHub上得到超過1.5k(現(xiàn)2.4k)星標。

圖片

另一位作者,Junyi Li公開資料不多,目前是香港大學的博士,參與字節(jié)研究工作,曾就讀于華中科技大學。

公開資料顯示,他作為第一作者的PartGLEE項目被ECCV2024接收。

參考鏈接:https://x.com/gm8xx8/status/1965616579024228527

權(quán)重/設置: https://huggingface.co/

Mini-o3倉庫:https://github.com/Mini-o3/

Mini-o3論文: https://arxiv.org/abs/2509.07969

責任編輯:武曉燕 來源: 量子位
相關推薦

2025-08-21 15:48:16

2025-04-23 08:30:05

2024-12-24 16:15:04

2025-04-17 09:02:00

2025-09-30 09:10:09

Mini-o3OpenAI o3模型

2023-01-05 09:33:37

視覺模型訓練

2025-06-03 08:26:00

2025-04-17 06:10:57

2025-10-10 01:25:00

大模型訓練數(shù)據(jù)OpenAI

2025-05-13 08:24:14

2025-06-08 14:15:42

2012-03-13 16:55:02

2025-04-22 09:12:00

AI模型數(shù)據(jù)

2024-11-19 15:00:00

模型開源

2025-04-17 07:23:10

2021-03-23 15:21:00

人工智能機器學習技術

2025-05-30 00:00:00

2025-08-04 08:40:00

2025-11-11 13:50:17

2025-07-30 08:40:00

AI編程模型
點贊
收藏

51CTO技術棧公眾號

日本一区二区乱| 欧美videosex性极品hd| 日本成人中文字幕在线视频| 在线视频欧美性高潮| 中文字幕免费高清在线| 成av人电影在线观看| 国内精品久久久久影院色| 欧美高清在线视频观看不卡| 国产精品久久久久久亚洲色| 国产精品粉嫩| 亚洲人成小说网站色在线| 99蜜桃在线观看免费视频网站| 四虎永久在线精品| 国产精品最新| 日韩午夜激情av| 国产二区视频在线播放| 幼a在线观看| 99热在这里有精品免费| 国产欧美精品在线| 国产a免费视频| 国产一区二区三区四区二区 | 亚洲人成在线观| 黄色a级三级三级三级| 日本免费久久| 亚洲午夜精品网| 伊人久久大香线蕉av一区| 午夜激情小视频| 国产成人精品网址| 成人激情电影一区二区| 国产高清中文字幕| 极品裸体白嫩激情啪啪国产精品| 搡老女人一区二区三区视频tv| 中国一级特黄录像播放| 国产日韩一区二区三免费高清| 在线观看网站黄不卡| 国产h视频在线播放| 色呦呦在线视频| 综合久久久久久久| 亚洲欧洲日韩综合二区| 九色在线免费| 91麻豆免费看片| 国产精品视频入口| www.97av.com| 国产精品18久久久久久久久| 成人h片在线播放免费网站| 中文文字幕一区二区三三| 乱码第一页成人| 欧美怡春院一区二区三区| 精品一级少妇久久久久久久| 欧美片第1页综合| 欧美超级乱淫片喷水| 一区二区三区四区五区| 91偷拍一区二区三区精品| 最近2019中文字幕mv免费看| 日韩欧美黄色网址| 成人影院天天5g天天爽无毒影院| 日韩电影中文字幕在线观看| 原创真实夫妻啪啪av| 日本亚州欧洲精品不卡| 日韩一区二区三| 人妻精油按摩bd高清中文字幕| 国产精品视频一区视频二区| 91精品国产欧美一区二区18| 超碰中文字幕在线观看| 中文字幕区一区二区三| 欧美精品一区二区三| 日韩无码精品一区二区| 日韩啪啪网站| 亚洲人成绝费网站色www| 婷婷色一区二区三区| 国产成人精品一区二区免费看京 | 9i精品一二三区| 中文字幕一区二区三区在线播放| 特级毛片在线免费观看| 亚洲性图自拍| 福利一区福利二区微拍刺激| 十八禁视频网站在线观看| 成人日韩在线| 欧美一区二区三区视频在线 | 中文字幕a级片| 精品亚洲porn| 国产日韩精品推荐| 免费在线一级视频| 亚洲视频一区二区免费在线观看| 波多野结衣 作品| 国内激情视频在线观看| 欧美日韩在线观看一区二区| 女人扒开双腿让男人捅| 亚洲国产精品嫩草影院久久av| 中文字幕国产日韩| 久久无码精品丰满人妻| 久久久精品网| 91免费版黄色| 精品亚洲综合| 亚洲狠狠丁香婷婷综合久久久| 免费成人午夜视频| 成年永久一区二区三区免费视频| 欧美成人精精品一区二区频| 国产免费无遮挡吸奶头视频| 午夜国产欧美理论在线播放| 欧美资源在线观看| 国产wwwwwww| 久久精品视频在线免费观看| 一本色道久久88亚洲精品综合 | 午夜精品久久久久久| 在线观看高清免费视频| silk一区二区三区精品视频| 在线视频欧美日韩| 99精品视频99| 国产麻豆精品久久一二三| 青青草原成人| 高潮在线视频| 91精品国产91久久久久久一区二区 | 亚洲精品美女久久久久| www深夜成人a√在线| 亚洲免费综合| 国产高清在线一区| 激情在线小视频| 91福利视频久久久久| 性生活在线视频| 97人人精品| 国产成人av在线播放| 黄色成人一级片| 自拍偷拍亚洲激情| 校园春色 亚洲色图| 欧美大胆视频| 久久久久久免费精品| 国产日韩精品suv| 国产精品嫩草影院com| 97国产精东麻豆人妻电影| 99精品在免费线中文字幕网站一区 | 任你躁av一区二区三区| 88国产精品视频一区二区三区| 国产不卡精品视男人的天堂| 人成在线免费视频| 精品人伦一区二区三区蜜桃网站| 一本之道在线视频| 亚洲国产精品成人| 国产日本欧美一区| a天堂中文在线88| 在线观看日韩电影| 色一情一交一乱一区二区三区 | 不用播放器的免费av| av影片在线一区| 国产不卡av在线| 精品99又大又爽又硬少妇毛片| 欧美日韩另类字幕中文| v天堂中文在线| 一区二区三区成人精品| 精品视频高清无人区区二区三区| 啦啦啦中文在线观看日本| 欧美www视频| 亚洲一区二区91| 国产成人8x视频一区二区| 久久香蕉视频网站| 一区中文字幕电影| 久久久久中文字幕| 网站黄在线观看| 色综合天天综合狠狠| 中文字幕国产专区| 日韩1区2区日韩1区2区| 亚洲精品视频一二三| 婷婷久久综合九色综合99蜜桃| 日韩性生活视频| 99久久精品国产一区二区成人| 樱桃视频在线观看一区| 韩国av中国字幕| 亚洲一区图片| 日韩一本精品| 国产一区二区久久久久| 欧美激情亚洲一区| 欧美精品少妇| 欧美日韩和欧美的一区二区| 日本青青草视频| av在线综合网| 蜜臀av午夜一区二区三区 | 日本一级黄视频| 牛牛精品成人免费视频| 欧美一区深夜视频| 国产一区久久精品| 日韩成人在线播放| 中文字幕在线2018| 亚洲主播在线观看| av女人的天堂| 国产伦精品一区二区三区免费迷 | 国产在线拍揄自揄拍| 91蜜桃免费观看视频| 日韩 国产 一区| 亚洲视频1区| 亚洲综合五月天| 久久夜色精品国产噜噜av小说| 国产精品电影网站| 欧美xxxx少妇| 在线精品国产欧美| 黄频在线免费观看| 欧美三级视频在线观看| 国产污视频在线看| 国产精品久久久一区麻豆最新章节| 精品无码av一区二区三区不卡| 久久久999| 欧美a级免费视频| 欧美高清在线| 蜜桃91精品入口| 欧美经典一区| 国产精品久久久久久中文字 | 国产精品高清免费在线观看| 中文在线免费| 这里精品视频免费| 男人天堂网在线观看| 日韩精品一区二区在线| 国产精品无码一区| 欧美日韩午夜剧场| 老女人性淫交视频| 国产精品久久久久久户外露出| 中文字幕在线播放视频| 国产精品77777| 伊人网在线综合| 久久精品91| 欧美精品久久久久久久免费| 91精品啪在线观看国产18| 神马影院午夜我不卡| 香蕉国产成人午夜av影院| 成人欧美一区二区三区视频| 只有精品亚洲| 国产精品美女久久久久久免费| 阿v视频在线观看| 欧美交受高潮1| 2024最新电影免费在线观看| 日韩中文理论片| porn视频在线观看| 亚洲视频一区二区| 久草视频在线看| 亚洲日本中文字幕| 久草视频视频在线播放| 精品视频在线观看日韩| 五月天婷婷视频| 日韩av在线网站| 亚洲日本中文字幕在线| 亚洲第一福利视频| 日本免费网站在线观看| 精品国产精品一区二区夜夜嗨| 精品欧美一区二区精品少妇| 日韩视频在线你懂得| av片免费播放| 欧美大胆人体bbbb| 亚洲大尺度网站| 亚洲精品一线二线三线| 欧美一级在线免费观看| 亚洲黄色av女优在线观看| 免费观看a视频| 亚洲精品美女久久久久| 日韩一区av| 亚洲三级 欧美三级| 久久久久久青草| 一本色道久久综合亚洲精品小说 | 国产精品久99| 2017亚洲天堂| 亚洲乱码一区二区三区在线观看| 久草综合在线视频| 亚洲一本大道在线| 999这里只有精品| 日本韩国精品在线| 一级黄色片在线观看| 91精品婷婷国产综合久久性色| 99热在线只有精品| 亚洲电影免费观看高清完整版在线观看| 欧美 日韩 国产 成人 在线| 国产婷婷色综合av蜜臀av| melody高清在线观看| 久久午夜a级毛片| av中文字幕在线看| 国产成人高清激情视频在线观看| 最新日韩一区| 91成人理论电影| 精品国产影院| 亚洲国产精品毛片| 欧美精选在线| 1024精品视频| 韩国欧美一区二区| 国产精品扒开腿做爽爽爽a片唱戏| 26uuu亚洲婷婷狠狠天堂| 免费成人深夜蜜桃视频| 一区二区不卡在线视频 午夜欧美不卡在 | 夜夜夜精品看看| 日本视频在线观看免费| 欧美日韩mp4| 亚洲日本国产精品| 久久精品国产精品亚洲| 久久久男人天堂| 成人黄色av网站| 神马香蕉久久| 9l视频自拍9l视频自拍| 噜噜噜91成人网| 丰满少妇一区二区三区专区| 久久伊99综合婷婷久久伊| 中文字幕在线2021| 在线亚洲精品福利网址导航| www.av在线.com| 日韩中文字幕av| 国产亚洲成av人片在线观看| 91精品久久久久久久久青青| 婷婷精品在线| 国产免费内射又粗又爽密桃视频 | 亚洲热在线视频| 国产亚洲一区二区三区四区 | av中文字幕一区二区三区| 久久久久国产精品免费| 91精品网站在线观看| 品久久久久久久久久96高清| 今天的高清视频免费播放成人| 午夜激情av在线| 久久女同精品一区二区| 免费日韩在线视频| 欧美日韩精品欧美日韩精品| 亚洲av成人精品一区二区三区在线播放| 久久精品久久久久| 国产成人午夜性a一级毛片| 久草一区二区| 亚洲香蕉网站| 天堂中文av在线| 国产亚洲女人久久久久毛片| 国产福利拍拍拍| 欧美mv和日韩mv国产网站| 黄视频网站在线| 国产精品久久久久秋霞鲁丝| 视频一区在线观看| 一区二区传媒有限公司| 成人自拍视频在线| 青娱乐av在线| 日韩一级片网址| 黄网站在线播放| 91精品免费看| 国产精品久久久久久久免费观看 | 日韩伦理在线免费观看| 国产精品1区二区.| 中文字幕另类日韩欧美亚洲嫩草| 欧美日韩一本到| 2021av在线| 国产精品中文在线| 日韩精品永久网址| 在线免费观看视频黄| 亚洲国产精品二十页| 在线观看亚洲黄色| 一道本无吗dⅴd在线播放一区| 日韩成人影音| 亚洲欧美成人一区| 久久国产生活片100| 国产精品精品软件男同| 7777精品伊人久久久大香线蕉超级流畅 | 黄色网zhan| 国产成人免费在线视频| 久青草免费视频| 亚洲精品在线电影| 日本在线啊啊| 欧美日韩一区二区三区在线观看免| 99国产精品99久久久久久粉嫩| 国产成人精品一区二区三区在线观看| 一区二区三区免费网站| 欧美视频一二区| 国自在线精品视频| 一个色免费成人影院| 五月婷婷丁香综合网| 综合分类小说区另类春色亚洲小说欧美| 国产精品视频第一页| 欧美老女人性视频| 老牛国内精品亚洲成av人片| 黄色免费观看视频网站| 久久精品欧美日韩| 在线观看毛片av| 欧美成人免费一级人片100| 成人福利一区| 国产极品美女高潮无套久久久| 久久精品免视看| 国产麻豆免费观看| 高清欧美性猛交| 国产免费播放一区二区| 97超碰成人在线| 一二三区精品视频| 国产永久免费高清在线观看 | 欧美—级a级欧美特级ar全黄 | 午夜一区二区三视频在线观看| 极品美女销魂一区二区三区 | aaaaaav| 欧美三级日韩在线| 日本动漫理论片在线观看网站 | 国产精品中文字幕久久久| 欧美不卡在线| 久久久久久亚洲中文字幕无码| 在线播放中文字幕一区| a国产在线视频| 亚洲欧洲一区二区在线观看| 成人aa视频在线观看| 中文字幕乱伦视频| 97国产在线视频| 日本在线电影一区二区三区| av电影在线播放| 欧美日韩黄色一区二区| 人在线成免费视频| 天堂а√在线中文在线| 91一区二区三区在线观看|