精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

中科大、中興提出新后訓練范式:小尺寸多模態模型,成功復現R1推理

人工智能 新聞
VLM 的主流訓練方法是監督微調(SFT),即使用人工標注或 AI 生成的高質量數據對模型進行有監督訓練。

本文第一作者為鄧慧琳,中國科學技術大學碩博連讀四年級,研究方向為多模態模型視覺理解、推理增強(R1強化學習)、異常檢測。在TAI、TASE、ICCV等期刊和頂會發表論文。

近年來,隨著大型語言模型(LLMs)的快速發展,多模態理解領域取得了前所未有的進步。像 OpenAI、InternVL 和 Qwen-VL 系列這樣的最先進的視覺-語言模型(VLMs),在處理復雜的視覺-文本任務時展現了卓越的能力。

然而,這些成就主要依賴于大規模模型擴展(>32B 參數),這在資源受限的環境中造成了顯著的部署障礙。因此,如何通過有效的后訓練(post-training)范式來縮小小規模多模態模型與大規模模型之間的性能差距,是亟待解決的問題。

目前,VLM 的主流訓練方法是監督微調(SFT),即使用人工標注或 AI 生成的高質量數據對模型進行有監督訓練。但這種方法在小模型上存在兩個關鍵問題:

  • 域外泛化能力不足(Out-of-Domain generalization collapse):容易過擬合訓練數據,在未見過的場景時性能顯著下降。
  • 推理能力有限(shallow reasoning abilities):傾向于淺層模式匹配,而非真正的理解和推理。這導致模型雖能應對相似問題,但難以處理需要深度思考的復雜問題。

圖片

圖 1. 實驗結果分析。 (a) SFT 與 RL 方法性能對比:通過對比域內和域外性能,實驗證實了強化學習方法在各類視覺任務中具有更強的 OOD 泛化能力。 (b) "磚墻"現象分析:在小規模 VLMs 中觀察到:面對復雜樣本時出現訓練不穩定性,模型最終收斂到次優解。我們提出的課程強化學習方法采用難度感知的獎勵設計,確保模型能力從基礎任務到復雜推理任務的穩步提升。

通過系統實驗,我們發現基于強化學習的訓練方法在提升模型域外泛化性方面具有獨特優勢。

然而,在實踐中我們觀察到一個顯著的「磚墻」(Brick Wall)現象:小規模模型在簡單任務上快速進步,但在復雜任務上遇到瓶頸,甚至導致已掌握能力的退化。這種現象表現為訓練過程的劇烈震蕩,最終導致模型收斂到次優解。

為突破這一瓶頸,我們從課程學習(Curriculum Learning, CL)中汲取靈感。課程學習是一種將模型逐步暴露于遞增復雜任務的訓練策略。我們提出了課程式強化學習后訓練范式(Curr-ReFT),確保模型能力從基礎任務到復雜推理任務的穩步提升。

這一創新方法能夠幫助小型 VLMs 突破性能瓶頸,在保持部署友好性的同時,實現與大規模模型相媲美的推理能力。

圖片

工作概述 

在中小尺寸多模態大模型上,我們成功復現了 R1,并提出了一種創新的后訓練范式 Curr-ReFT。通過結合課程強化學習和基于拒絕采樣的自我改進方法,我們顯著提升了視覺語言模型(VLM)的推理能力和泛化能力。

理論與實驗分析

  • 強化學習的重塑能力:我們證明了基于規則的強化學習能夠有效重塑多模態/CV 任務的訓練方案,從傳統的精調轉向強化精調。
  • 提升推理與泛化能力:實驗結果顯示,強化學習方法顯著提升了 VLM 在分布外數據上的表現。

創新框架

  • Curr-ReFT:我們提出了一種新型后訓練范式,結合課程強化學習和自我改進策略。在 Qwen2.5-VL-3B 和 Qwen2.5-VL-7B 模型中驗證了其有效性。

全面評估 

在多個自建數據集和權威基準測試上進行對比實驗,驗證了模型的通用表現,結果表明 7B 模型甚至超越了最新的 InternVL2.5-26B 和 38B 模型。

具體方法

圖片

圖 2. 所提出的 Curr-ReFT 后訓練范式整體框架。Curr-ReFT 包含兩個連續的訓練階段:1.課程強化學習:通過與任務復雜度匹配的獎勵機制,逐步提升任務難度。2.基于拒絕采樣的自我改進:維持 LLM 模型的基礎能力。

Curr-ReFT 包含兩個連續的訓練階段:

  • 課程強化學習:通過難度感知的獎勵設計確保模型能力的穩步提升,從基礎的視覺感知逐步過渡到復雜的推理任務。
  • 基于拒絕采樣的自我改進:通過從高質量的多模態和語言樣本中進行選擇性學習,維持 VLMs 的基礎能力。

圖片

圖 3. 訓練數據組織架構圖。 (a) 課程強化學習的三階段漸進式響應格式示例。展示了任務從簡單到困難的遞進過程,呈現不同階段的響應格式變化。 (b) 拒絕采樣 SFT 階段使用的數據來源分布。

Stage1:課程強化學習(Curriculum Reinforcement Learning) 

課程學習(Curriculum Learning,CL)作為一種教學式訓練策略,其核心思想是讓模型循序漸進地接觸復雜度遞增的任務。

針對強化學習中普遍存在的訓練不穩定性和收斂性問題,我們創新性地將課程學習與 GRPO 相結合,突破了傳統基于樣本難度評估的局限,轉而關注任務層面的漸進式學習。

本研究的關鍵創新點在于設計了難度感知的獎勵機制,該機制與任務的自然進階路徑相匹配,具體包括三個遞進階段:

  • 二元決策階段(Binary Decision)
  • 多項選擇階段(Multiple Choice)
  • 開放式回答階段(Open-ended Response)

這一課程強化學習(Curr-RL)框架通過精確校準任務復雜度對應的獎勵機制,成功實現了視覺感知和數學推理任務的穩定優化過程。

Stage2:拒絕采樣自我增強(Rejected Sample based Self-improvement) 

數據準備過程涉及對綜合數據集的系統采樣。我們使用 GPT-4-O 作為獎勵模型,從多個維度評估生成的響應,評估標準包括:準確性、邏輯一致性、格式規范性、語言流暢度。

所有響應在 0-100 分范圍內進行量化評估。得分超過 85 分的響應及其對應的問題會被納入增強數據集。最終整理的數據集包含 1,520 個高質量樣本,涵蓋多個領域:數學、科學、通用場景的通用知識。數據分布如下:

1、數學領域(共 700 條數據):

  • 多模態數據(300 條):
  • Geometry3K_MathV360K(100 條)
  • Geo170k_qa(100 條)
  • Geomverse(100 條)
  • 純文本數據:
  • SK1.1 數學題(400 條)

2、科學領域(共 320 條數據):

  • 多模態數據(220 條):
  • Scienceqa_cauldron(100 條)
  • Scienceqa_nona_context(120 條)
  • 純文本數據:
  • SK1.1 科學題(100 條)

3、通識領域(共 500 條多模態數據):

  • Illava_cot_100k(300 條)
  • Visual7w(100 條)
  • VSR(100 條)

實驗結果 

為了驗證我們的模型在多模態數學推理任務中的表現,我們進行了廣泛的實驗,并在多個基準數據集上進行了測試。以下是實驗部分的詳細介紹:

實驗設置 

1、 Visual Datasets 

我們構建了一個全面的評估框架,涵蓋視覺檢測、視覺分類和多模態數學推理三個主要任務,以評估強化學習對視覺語言模型的有效性和泛化能力。

  • 視覺檢測:使用 RefCOCO 和 RefGta 數據集。
  • 視覺分類:采用 RefCOCO、RefCOCOg 和 Pascal-VOC 數據集。
  • 多模態數學推理:結合 Math360K、Geo170K 和 CLEVER-70k-Counting 數據集。

2、Benchmarks 

我們在多個權威基準數據集上評估了模型的表現,包括:

  • MathVisa:綜合數學基準。
  • MATH:高中競賽級別數學問題。
  • AI2D:小學科學圖表及相關問題。
  • MMVet 和 MMBench:復雜推理和多模態能力評估。

 實驗結果

我們展示了使用課程強化微調(Curr-ReFT)訓練的模型在多模態任務上的顯著性能提升,特別是在跨領域泛化能力和復雜推理任務方面。

與傳統的監督微調(SFT)方法相比,我們的方法不僅提高了準確率,還增強了模型處理未見過的數據的能力。以下表格展示了不同訓練方法在域內和域外數據集上的性能對比。具體包括傳統監督微調(SFT)和強化學習(RL)兩種方法:

圖片

通過這些實驗結果可以看出,強化學習訓練(RL)方法在提高模型的域內和域外表現方面具有顯著優勢,尤其是在處理未見過的數據時,能夠保持較高的準確率。

Visual Datasets 上不同方法模型的測試結果如下:

圖片

為了驗證 Curr-ReFT 的泛化性以及使用后不會削弱模型在其他領域的推理能力,我們在多模態領域多個 Benchmark 數據集上進行驗證。Benchmarks 上不同方法模型的測試結果如下(評測集裁判模型使用 GPT-3.5):

圖片

總結 

本研究聚焦于提升小規模視覺-語言模型(VLMs)在推理能力和域外(OOD)泛化性能兩個關鍵方面的表現。通過實證研究,我們發現強化學習不僅能有效提升模型的推理能力,更在視覺任務中展現出超出預期的泛化性能提升。

基于這一重要發現,我們提出了創新性的課程式強化學習微調(Curr-ReFT)后訓練范式。該方法巧妙地融合了漸進式課程學習與拒絕采樣策略。Curr-ReFT 通過兩個關鍵機制:

  • 任務復雜度的漸進式提升
  • 高質量樣本的選擇性學習 成功實現了模型性能的顯著提升。
責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-11-04 13:30:00

模型AI

2025-02-20 15:32:28

2023-12-04 13:23:00

數據訓練

2023-10-30 15:06:00

模型數據

2025-06-10 09:07:00

2021-12-06 09:53:09

自然語言神經網絡人工智能

2025-04-10 09:15:03

2025-05-09 08:40:00

2025-07-22 08:50:00

AI模型框架

2025-03-04 17:27:05

2023-12-18 09:39:20

模型AI

2024-06-17 07:10:00

2022-03-08 09:15:29

人工智能語音識別模型

2024-11-04 08:30:00

2025-01-16 10:20:00

AI生成動畫

2025-04-18 09:13:00

2025-10-27 09:15:00

2025-11-03 08:15:00

2025-09-01 08:51:00

點贊
收藏

51CTO技術棧公眾號

精品美女在线观看视频在线观看| 亚洲天堂国产精品| 欧美激情影院| 欧美一a一片一级一片| 在线免费观看一区二区三区| www.五月婷| 久久久久久穴| 欧美巨乳美女视频| 国产jk精品白丝av在线观看 | 色婷婷久久99综合精品jk白丝| 亚洲精品影院| 人人妻人人澡人人爽精品日本| 久久久久91| 久99久在线视频| 特级西西www444人体聚色| 久久久久亚洲精品中文字幕| 色www精品视频在线观看| 国产一二三四区在线观看| 日韩av免费观影| 国产一区二区三区精品视频| 欧美一区二区三区免费视| 国产一区二区精彩视频| 国产探花一区二区| 亚洲аv电影天堂网| 在线观看国产中文字幕| 高清精品在线| 一区二区三区中文免费| 亚洲欧洲在线一区| 日韩大胆人体| av在线综合网| 成人在线视频电影| 日韩国产成人在线| 国产日韩一区二区三区在线播放 | 丰满的护士2在线观看高清| 国产欧美日产一区| 久久99精品久久久久子伦| 国产三级第一页| 麻豆精品一二三| 日韩美女av在线免费观看| 精品少妇theporn| 亚洲欧美亚洲| 久热国产精品视频| 免费看特级毛片| 久久亚洲在线| 在线观看久久久久久| 国产精品成人一区二区三区电影毛片| jizz18欧美18| 精品国一区二区三区| 午夜影院免费版| 国产精品一区二区三区四区在线观看 | 亚洲色图都市激情| 国产美女在线观看| 亚洲三级免费观看| 四虎影院一区二区| 黄色成年人视频在线观看| 中文字幕国产一区| 亚洲欧美综合一区| 欧美精品电影| 亚洲视频在线一区| 免费看污污视频| 最新av在线播放| 亚洲五月六月丁香激情| 亚洲色成人www永久在线观看| 怡红院红怡院欧美aⅴ怡春院| 亚洲美女偷拍久久| 欧美黄网在线观看| 91豆花视频在线播放| 亚洲第一搞黄网站| 国产亚洲天堂网| 欧美日韩成人影院| 欧美日韩一区精品| 超碰在线超碰在线| 国产人妖ts一区二区| 亚洲第一色中文字幕| 日本少妇色视频| 欧美精品一区二区三区精品| 日韩在线精品一区| 麻豆亚洲av熟女国产一区二| 在线日本高清免费不卡| 日韩免费av一区二区| 波多野结衣一区二区在线| 六月丁香综合在线视频| 亚洲free性xxxx护士白浆| 欧美亚洲精品在线观看| 久久综合色之久久综合| 日韩精品另类天天更新| 乱人伦中文视频在线| 亚洲图片自拍偷拍| 亚洲精品中文字幕无码蜜桃| 伊人亚洲精品| 亚洲国产日韩欧美在线图片| 亚洲区自拍偷拍| 亚洲影视一区| 日本国产一区二区三区| 亚洲专区在线播放| heyzo一本久久综合| 天堂精品一区二区三区| 暖暖在线中文免费日本| 色呦呦日韩精品| 免费观看黄网站| 蜜桃精品噜噜噜成人av| 久久影院中文字幕| 精品人妻一区二区三区潮喷在线| 韩国一区二区视频| 鲁鲁狠狠狠7777一区二区| 黄色av免费在线| 日本高清视频一区二区| 成人三级做爰av| 青青草国产免费一区二区下载| 九九热这里只有在线精品视| 亚洲欧美日韩一区二区三区四区| 国产aⅴ综合色| 翔田千里亚洲一二三区| 黄色视屏在线免费观看| 91精品国产欧美日韩| a级大片在线观看| 在线日韩电影| 91色视频在线观看| 高清av电影在线观看| 亚洲大尺度视频在线观看| 婷婷激情综合五月天| 国产欧美亚洲精品a| 97av在线视频免费播放| 亚洲av无码乱码在线观看性色| 国产日韩精品一区二区三区 | 欧美日韩国产观看视频| 日韩一区二区免费视频| 国产成人精品视频免费| 久久九九精品| 欧美连裤袜在线视频| av日韩国产| 精品少妇一区二区三区日产乱码| 日韩免费av一区| 日本欧美一区二区三区乱码| 欧美成人在线免费观看| sm性调教片在线观看| 日韩女优av电影在线观看| 三级黄色在线观看| 久久99国产精品麻豆| 午夜老司机精品| 欧美极度另类| 亚洲欧美国产一区二区三区| 69视频免费在线观看| 99国内精品久久| 五月丁香综合缴情六月小说| 狠狠一区二区三区| 国内精品小视频在线观看| 日本黄色不卡视频| 亚洲电影中文字幕在线观看| 日本少妇xxxx软件| 国产精品豆花视频| 国产美女精品久久久| 爱情岛亚洲播放路线| 欧美精品一区二区三区久久久 | 亚洲性色视频| 国产精品区一区二区三含羞草| 青青在线视频| 亚洲福利在线看| 800av免费在线观看| 99久久伊人网影院| 国产男女激情视频| 欧美日韩激情| 成人乱人伦精品视频在线观看| 麻豆tv入口在线看| 日韩精品专区在线影院重磅| 精品无码黑人又粗又大又长| gogo大胆日本视频一区| 久久9精品区-无套内射无码| 精品在线观看入口| 国产精品美乳一区二区免费| 麻豆传媒视频在线| 精品国产乱码久久久久久久久| 日韩黄色在线视频| 国产欧美精品一区二区色综合朱莉| 黄色国产小视频| 久久久久电影| 国产精品10p综合二区| 天堂中文av在线资源库| 中文字幕在线视频日韩| 99久久婷婷国产一区二区三区| 亚洲午夜国产一区99re久久| 亚洲成人网在线播放| 久久激情五月激情| 免费高清一区二区三区| 国产欧美一区| 99久re热视频这里只有精品6| 色综合亚洲图丝熟| 日韩中文字幕在线播放| 亚洲第一免费视频| 在线欧美日韩精品| 亚洲av无码一区二区三区在线| 成av人片一区二区| 亚洲欧洲日本精品| 日韩午夜电影| 中文字幕剧情在线观看一区| 精品三级av在线导航| 国产精品一久久香蕉国产线看观看| 日本动漫理论片在线观看网站| 亚洲女人天堂av| 国产黄a三级三级看三级| 日韩欧美在线第一页| 丝袜美腿小色网| 久久久美女毛片 | 久久亚洲影视婷婷| 人妻精品久久久久中文字幕69| 日韩国产精品久久久久久亚洲| 黄色一级片国产| 精品国产中文字幕第一页| 高清视频在线观看一区| 福利一区在线| 欧美在线中文字幕| 国产一线二线在线观看| 日韩小视频在线| 国产一级网站视频在线| 亚洲电影免费观看高清完整版在线 | 欧美日韩免费观看一区二区三区 | 国产精品综合| 欧美中文字幕在线观看视频 | 最新91在线视频| 色播色播色播色播色播在线| 日韩免费高清视频| 97人妻精品一区二区三区动漫| 色婷婷狠狠综合| 中文字幕日韩一级| 亚洲一区在线视频观看| 天天看天天摸天天操| 国产精品免费aⅴ片在线观看| 国产精品无码网站| 99这里只有精品| 不许穿内裤随时挨c调教h苏绵| 国产一区二区免费视频| www.五月天色| 麻豆精品久久久| 亚洲36d大奶网| 久久国产婷婷国产香蕉| 亚洲黄色a v| 日韩中文字幕区一区有砖一区| 国产精品一区二区免费在线观看| 欧美色一级片| 99久久久精品视频| 欧美日韩午夜| 国产情侣第一页| 欧美视频在线观看| 成人网站免费观看入口| 亚洲第一精品影视| 欧美深夜福利视频| 国产一区白浆| 无码无遮挡又大又爽又黄的视频| 美女精品网站| 日韩av播放器| 奇米色777欧美一区二区| 天天操,天天操| 精品一区二区三区影院在线午夜| 在线观看日本一区二区| 国产一区亚洲一区| 免费看三级黄色片| 99re免费视频精品全部| 免费a级黄色片| 欧美国产精品劲爆| 日韩国产第一页| 亚洲国产视频一区二区| 一区二区三区视频免费看| 激情久久av一区av二区av三区| 免费观看成人毛片| 欧美影视一区在线| 国产精品久久久久久久免费| 欧美一卡二卡三卡四卡| 亚洲精品成人电影| 亚洲美女视频网| 91在线视频免费看| 欧美另类99xxxxx| 女人让男人操自己视频在线观看| 欧美最猛性xxxxx免费| 欧美国产日韩电影| 亚洲xxxx在线| 欧美尿孔扩张虐视频| 日韩久久精品一区二区三区| 国产精品黑丝在线播放| 成人在线观看你懂的| 日韩电影免费在线观看网站| 亚洲综合123| 99久久99久久精品国产片果冻| 女人黄色一级片| 亚洲综合激情网| 精品人妻无码一区二区性色| 欧美精品国产精品| 四季av日韩精品一区| 色婷婷综合久久久久中文字幕1| 日本高清在线观看视频| 欧洲美女7788成人免费视频| 91精品一久久香蕉国产线看观看| 国产精品免费一区二区| 精品美女久久久| 国产精品又粗又长| 看电视剧不卡顿的网站| 五十路六十路七十路熟婆| 亚洲欧美在线观看| 一级做a爰片久久毛片| 欧美一区二区成人6969| 国产视频第一区| 久久久久久噜噜噜久久久精品| 电影一区二区| 好吊妞www.84com只有这里才有精品| 大片网站久久| 女人喷潮完整视频| 国产精品一区二区在线播放| 91成年人网站| 亚洲国产视频直播| 国产黄a三级三级看三级| 永久免费看mv网站入口亚洲| 桃色av一区二区| 99久久综合狠狠综合久久止| 久久美女精品| 黄色片在线免费| 91香蕉视频污在线| 国产精品99无码一区二区| 欧美日韩1区2区| 国产资源在线看| 国产91对白在线播放| 91麻豆精品激情在线观看最新| 亚洲欧美丝袜| 青草av.久久免费一区| www.超碰97| 调教+趴+乳夹+国产+精品| 亚洲第一大网站| 久久亚洲精品中文字幕冲田杏梨| 成人全视频在线观看在线播放高清| 久久久神马电影| 国产精品美女| 国产精品无码专区| 亚洲高清免费在线| www香蕉视频| 欧美精品在线第一页| 91麻豆精品一二三区在线| 亚洲一区综合| 蜜桃免费网站一区二区三区| 国产黄色大片免费看| 色94色欧美sute亚洲线路一久| 五月天久久久久久| 91成人福利在线| 亚洲成a人片77777在线播放| 97国产精东麻豆人妻电影| 91色视频在线| 欧美黄色一级大片| 一个色综合导航| 国产成人免费精品| 在线天堂一区av电影| 国模大尺度一区二区三区| 粉嫩av性色av蜜臀av网站| 欧美三级中文字幕| 蜜桃av在线免费观看| 5566av亚洲| 99精品福利视频| 性高潮久久久久久久| 欧美熟乱第一页| 国产视频在线播放| 都市激情久久久久久久久久久| 亚洲国产免费看| 人妻丰满熟妇aⅴ无码| 在线看国产日韩| 中文字幕在线观看日本| 亚洲一区国产精品| 极品日韩av| 麻豆av免费观看| 欧美日韩国产综合久久| av在线free| 久久久久久艹| 日本特黄久久久高潮| 色欲人妻综合网| 亚洲精品久久久久中文字幕二区| 美女高潮在线观看| 翔田千里亚洲一二三区| 国产精品自拍av| 91香蕉在线视频| 最近2019年中文视频免费在线观看| 宅男噜噜噜66国产精品免费| 97在线国产视频| 久久精品免视看| 午夜精品无码一区二区三区| 91精品国产高清久久久久久久久 | 国产拍欧美日韩视频二区| 一级做a爱片性色毛片| 欧美激情精品久久久久久| 亚洲美女久久| 91香蕉国产线在线观看| 午夜精品123| 日本在线观看www| 国语精品中文字幕| 精一区二区三区| 青青操免费在线视频| 日韩在线观看免费全集电视剧网站 | 亚洲伊人观看| 欧美 日韩 国产 一区二区三区| 亚洲精品久久久久国产| 日韩精品一页| 国产精品97在线| 一区二区三区中文在线| www.在线播放| 好吊色欧美一区二区三区视频| 久久er99热精品一区二区|