精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

如何讓多模態大模型學會“自動思考”-R-4B訓練框架核心設計與訓練方法 原創

發布于 2025-9-9 09:33
瀏覽
0收藏

多模態大模型在推理上雖然效果好,但會強制執行 “逐步思考” 流程,導致輸出 token 量激增,冗余思考過程不會提升簡單任務的準確性,反而可能因 “過度推理” 引入噪聲。

現有模型無法根據任務復雜度自主選擇 “思考模式”(需推理)或 “非思考模式”(直接回答),需要手動觸發是否思考的條件(如qwen3的開關控制)或者如Keye-VL 通過人工標注 “任務復雜度標簽” 觸發思考模式,但人工標注成本高、覆蓋場景有限,且推理時需額外輸出 “復雜度分析” token,進一步增加計算開銷。

如何讓多模態大模型學會“自動思考”-R-4B訓練框架核心設計與訓練方法-AI.x社區

因此,如何為多模態 MLLMs 提供自動思考能力,下面來看看R-4B的思路。

方法-R-4B雙階段訓練設計

為自動思考,R-4B的核心是設計了一個兩階段訓練方式:雙模態退火(Bi-mode Annealing) 和 雙模態策略優化(Bi-mode Policy Optimization, BPO)。

階段1、雙模態退火設計

這一階段的目標是讓模型學會自動思考能力(“思考”和“不思考”)。

提出啟發式驅動的自動化數據構建策略,利用現有強性能 MLLM(Qwen2.5-32B-VL)作為 “統一標注器”,自動將通用領域數據劃分為兩類,流程如下圖:

如何讓多模態大模型學會“自動思考”-R-4B訓練框架核心設計與訓練方法-AI.x社區

兩種啟發式標注規則:

  • 難度導向啟發式:針對主觀類查詢
    利用現有多模態大語言模型進行提示工程,基于其內在難度評估是否需要推理過程。被判定為復雜的查詢被標注為需要推理的樣本。
    邏輯如下:

a.對每個主觀查詢,構造提示詞,讓 Qwen2.5-32B-VL 評估其 “是否需要復雜推理過程”;

b.提示詞核心邏輯:“判斷以下問題是否需要分步驟分析、邏輯推導或多視角權衡才能回答,若需要則標記為‘推理密集型’,否則標記為‘非推理型’”;

c.例如,“描述貓的外形” 被標記為非推理型(直接調用常識),“分析貓的外形如何適應夜間捕獵” 被標記為推理型(需結合生物學知識分步驟推導)。

  • 性能導向啟發式:用于客觀查詢
    對于答案可驗證的查詢(例如數學題或選擇題),引入一種基于模型的離線困難樣本挖掘策略,系統地識別出難樣本。
    邏輯如下:

a.對每個客觀查詢,讓 Qwen2.5-32B-VL 生成 8 次獨立回答(N=8);

b.若 8 次回答全部錯誤(即模型在該問題上表現極差,屬于 “硬樣本”),標記為 “推理密集型”(需復雜推理才能正確回答,如 “基于圖表數據計算近 5 年增長率”);

c.若 8 次回答至少 1 次正確(即模型可直接給出答案,屬于 “易樣本”),標記為 “非推理型”(如 “識別圖中的數字”“回答‘地球自轉周期是多少’”)。

數據分布情況:

如何讓多模態大模型學會“自動思考”-R-4B訓練框架核心設計與訓練方法-AI.x社區

如何讓多模態大模型學會“自動思考”-R-4B訓練框架核心設計與訓練方法-AI.x社區

階段2、雙模態策略優化

經過“雙模態退火階段”,這時候有了 R-4B-Base 模型,然而存在的 “思考萎縮” 問題(模型雖同時具備思考 / 非思考能力,但傾向于優先選擇非思考模式)。

引入雙模態策略優化(Bi-mode Policy Optimization, BPO),這是一種為自動思考量身定制的強化學習算法。

如何讓多模態大模型學會“自動思考”-R-4B訓練框架核心設計與訓練方法-AI.x社區

BPO的核心目標是通過 RL 優化模型的 “模式選擇策略”,讓模型在面對不同復雜度的任務時,能自主選擇 “性價比最高” 的響應模式。

核心設計思想:“強制雙模態Rollouts”

傳統RL方法在訓練自動思考模型時,常因“單模態采樣”導致模型偏向某一種模式(如始終選擇非思考模式以降低損失),最終引發“思考萎縮”。BPO通過Bi-mode Rollouts強制打破這種偏好,邏輯如下:

  • 對每個輸入查詢(如“求解數學方程”“識別圖片文字”),模型需同時生成兩組響應

a.思考模式組:通過特殊token ??<thinking token>?? 觸發,輸出包含逐步推理過程的響應;

b.非思考模式組:通過特殊token ??<non-thinking token>?? 觸發,輸出僅含答案的響應。

兩組響應的數量嚴格相等(如每組各生成g個樣本,??|Group_thinking|=|Group_non-thinking|=g??),確保模型在訓練中必須“公平探索”兩種模式,無法因數據分布或損失函數偏向而忽略某一模式。

方法架構、訓練方法

模型架構:VIT+MLP+LLM

訓練方法:

如何讓多模態大模型學會“自動思考”-R-4B訓練框架核心設計與訓練方法-AI.x社區

訓練參數

  • 階段 1:MLP 預熱首先凍結 ViT 和 LLM 的參數,同時初始化一個隨機初始化的兩層MLP 投影模塊。該投影模塊使用圖像-標題對進行訓練,以建立初始的跨模態對齊。此階段能夠確保后續階段中梯度傳播的穩定性,并緩解由表示對齊不佳引起的不穩定性。
  • 階段 2:視覺-語言對齊在此階段,ViT 主干網絡被解凍,而 LLM 保持凍結狀態,使用交錯的多模態數據進行訓練。這些批量中包含的多樣化視覺內容系統性地提升了視覺編碼器處理不同視覺領域的能力。
  • 階段 3:聯合多模態預訓練此階段實現了對整個架構的全參數最優化。將訓練方案擴展至包含 1450 億個跨越多種模態和任務的 token,涵蓋 OCR 解析、視覺定位、數學推理以及結構化數據(表格/圖表)。

此外,實施了一種非思考損失掩碼策略。在此策略中,在生成響應前添加 < think> < /think> 標簽,并對其對應的損失貢獻進行掩碼處理。該策略在聯合多模態預訓練過程中 有效保留了 Qwen3的推理能力。

實驗

如何讓多模態大模型學會“自動思考”-R-4B訓練框架核心設計與訓練方法-AI.x社區

如何讓多模態大模型學會“自動思考”-R-4B訓練框架核心設計與訓練方法-AI.x社區

在不同基準上,非思考模式、自動思考模式和思考模式的平均每次查詢輸出 token 數量對比。自動思考模式在效率與性能之間取得了平衡

參考文獻:R-4B: Incentivizing General-Purpose Auto-Thinking Capability in MLLMs via Bi-Mode Annealing and Reinforce Learning,https://arxiv.org/pdf/2508.21113Repo:https://link.zhihu.com/?target=https%3A//github.com/yannqi/R-4B


本文轉載自??大模型自然語言處理??   作者:llmnlp


?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
已于2025-9-9 09:42:06修改
收藏
回復
舉報
回復
相關推薦
国产网站在线| 天天射天天操天天干| 少妇精品久久久一区二区| 在线精品亚洲一区二区不卡| 视频一区视频二区视频三区高| 国产男人搡女人免费视频| 五月激情综合| 日韩精品免费一线在线观看| 亚洲黄色小视频在线观看| 污污网站在线观看| 久久久亚洲欧洲日产国码αv| 国产精品旅馆在线| 国产精品成人免费观看| 窝窝社区一区二区| 91精品国产综合久久久久久久久久| 9色porny| 日本在线视频站| 91香蕉视频mp4| 91色精品视频在线| 日日噜噜噜噜人人爽亚洲精品| 久久久久久美女精品| 精品亚洲国产成av人片传媒 | 国产精品老牛| 精品久久久av| 中国毛片在线观看| 亚洲视频一起| 欧美性受xxxx黑人xyx性爽| 国产尤物av一区二区三区| 国产露出视频在线观看| 成人夜色视频网站在线观看| 91久久精品国产91久久性色| 日本一本在线观看| 国产精品久久久久久久免费软件 | 日韩视频精品| 亚洲aⅴ乱码精品成人区| 国产乱国产乱300精品| 国产精品极品美女粉嫩高清在线| 色婷婷在线观看视频| 欧美精品自拍| 久久夜色精品国产欧美乱| 蜜桃av乱码一区二区三区| 天堂网av成人| 日韩av一区在线观看| 亚洲AV成人精品| 最新亚洲国产| 欧美丰满少妇xxxxx高潮对白| 8x8x最新地址| 91av一区| 欧美伊人久久大香线蕉综合69| 欧美性久久久久| 麻豆视频在线观看免费网站黄| 亚洲午夜电影网| 国产欧美综合一区| av网站免费在线观看| 亚洲欧洲日韩在线| 一本一道久久a久久精品综合| 韩日视频在线| 日本一区二区三区四区在线视频| 欧美日韩国产综合视频在线| 色播色播色播色播色播在线 | 真实乱视频国产免费观看| 欧美性生活一级片| 日韩激情第一页| 最近中文字幕无免费| 国产精品宾馆| 日韩av在线免费| 日本免费福利视频| 免费欧美一区| 中文字幕日韩av| 久久精品日韩无码| 88国产精品视频一区二区三区| xxx欧美精品| 欧美色图亚洲视频| 亚洲人人精品| 国产成人高清激情视频在线观看 | 日本一区美女| av资源网站在线观看| 亚洲欧洲另类国产综合| 台湾无码一区二区| 日产福利视频在线观看| 午夜av电影一区| av免费中文字幕| 欧美97人人模人人爽人人喊视频| 欧美一区二区三区在线观看| 国产精品99精品无码视亚| 国偷自产av一区二区三区| 日韩大片在线观看视频| 中文文字幕文字幕高清| 欧美三级午夜理伦三级小说| 亚洲天堂成人在线视频| 91高清免费看| 国产欧美短视频| 国产精品久久久久久亚洲调教| 国产伦理一区二区| 99国产欧美久久久精品| 亚洲精品在线免费看| 中文字幕伦理免费在线视频 | 亚洲一二三四五| 久久av影视| 久久不射电影网| 你懂的国产在线| 久久99精品久久久久婷婷| 激情伦成人综合小说| 成人影视在线播放| 亚洲国产成人精品视频| 亚洲色图 在线视频| 国产精品久久久久av蜜臀| 一区二区欧美日韩视频| 精品无码黑人又粗又大又长| 奇米777欧美一区二区| 国产精品yjizz| 91在线播放网站| 亚洲1区2区3区视频| 999在线观看| 天海翼亚洲一区二区三区| 精品国产拍在线观看| 麻豆91精品91久久久| 久色婷婷小香蕉久久| 国产综合动作在线观看| 国产黄色在线免费观看| 色综合激情五月| 美女黄色一级视频| 91精品秘密在线观看| 国产精品成人免费电影| 手机在线观看毛片| 一区二区三区在线视频免费观看| 日本va中文字幕| 欧美尿孔扩张虐视频| 欧美日本亚洲视频| 夜夜嗨av禁果av粉嫩avhd| 91免费国产在线| 亚洲欧洲成人在线| 欧美亚洲一区在线| 国产奶头好大揉着好爽视频| 黄色成人在线| 91九色02白丝porn| 欧美亚洲综合在线| 国产九区一区在线| 麻豆免费在线观看| 欧美亚洲综合另类| 欧美色图亚洲激情| 亚洲黑丝一区二区| 91视频免费进入| 色综合久久久久综合一本到桃花网| 亚洲国产欧美在线| 亚洲综合中文网| 91精品99| 亚洲在线视频观看| 国产视频在线播放| 欧美高清视频不卡网| 91狠狠综合久久久久久| 日韩在线卡一卡二| 日韩av电影免费播放| 美女福利一区二区| 亚洲女同精品视频| 69成人免费视频| 久久久精品2019中文字幕之3| 免费看国产曰批40分钟| 天海翼亚洲一区二区三区| 69av视频在线播放| 日本在线丨区| 91福利社在线观看| www..com.cn蕾丝视频在线观看免费版| 天堂影院一区二区| 日本欧美精品久久久| 欧美国产日韩电影| 日韩在线视频二区| 国产永久免费视频| 一区二区在线看| 亚洲精品无码一区二区| 亚洲精品少妇| 欧美性bbwbbwbbwhd| 日韩和的一区二在线| 丝袜美腿精品国产二区| 国产人妻精品一区二区三区| 一区二区三区四区精品在线视频| 美女露出粉嫩尿囗让男人桶| 中文亚洲字幕| 天天综合色天天综合色hd| 国内精品伊人| 九九九久久国产免费| 天天干天天色天天| 一本久久精品一区二区| 嘿嘿视频在线观看| 国产一区二区伦理片| 久艹在线免费观看| 国产aⅴ精品一区二区三区久久| 国产精品女视频| 亚洲无线看天堂av| 亚洲欧美一区二区三区久久| 在线视频 91| 亚洲福中文字幕伊人影院| 自拍偷拍视频亚洲| 国产一区在线不卡| 日韩中文字幕在线视频观看| 精品国产一区探花在线观看| 95av在线视频| 手机av在线| 久久综合免费视频影院| 性xxxx搡xxxxx搡欧美| 欧美男女性生活在线直播观看| 久久久精品人妻一区二区三区四| 丁香六月综合激情| 一区二区三区免费播放| 在线看片欧美| 一区二区91美女张开腿让人桶| 97se亚洲| 国产精品永久免费| 中文字幕不卡三区视频| 亚洲网站在线观看| 欧美一区二区三区激情| 欧美日韩精品一区二区三区| 欧美亚洲天堂网| 亚洲欧美激情插| theav精尽人亡av| 国产高清在线观看免费不卡| 91网址在线播放| av不卡在线| 欧美交换配乱吟粗大25p| 狠狠色狠狠色综合婷婷tag| 岛国视频一区免费观看| 日韩在线激情| 国产成人精品免费视频| segui88久久综合9999| 欧美成人精品一区| 日本中文字幕在线2020| 国产亚洲视频在线观看| 亚洲人午夜射精精品日韩| 精品久久久久久久久久久久包黑料| 中文字幕免费高清在线观看| 欧美午夜影院在线视频| 国产精品 欧美 日韩| 亚洲精品ww久久久久久p站| 美国精品一区二区| 国产三级精品视频| 成都免费高清电影| 26uuu亚洲综合色欧美| 四虎精品一区二区| 国产91在线|亚洲| 自拍一级黄色片| 激情五月婷婷综合网| 男操女免费网站| 日本不卡在线视频| 欧美成人黄色网址| 免费观看日韩电影| 国产高清视频网站| 九色|91porny| 欧洲在线免费视频| 久久99精品久久久久婷婷| 911福利视频| 国产中文字幕一区| 色婷婷狠狠18禁久久| 国产在线播放一区三区四| 天天影视色综合| 国产综合色在线| 日本亚洲一区二区三区| 国产乱码精品一区二区三| 男人的天堂免费| 福利视频网站一区二区三区| 在线观看成人动漫| 337p粉嫩大胆色噜噜噜噜亚洲| 中文字幕一区二区三区人妻电影| www精品美女久久久tv| 中文字幕成人动漫| 国产精品三级久久久久三级| 老司机精品免费视频| 亚洲欧洲日韩一区二区三区| 精品97人妻无码中文永久在线| 亚洲一区二区影院| 欧美一区二区三区四| 在线亚洲+欧美+日本专区| 国产又粗又长视频| 日韩精品一区二| 深夜福利视频在线免费观看| 亚洲欧美综合精品久久成人| 福利视频在线看| 另类天堂视频在线观看| 岛国av在线网站| 国产成人亚洲精品| 四虎国产精品免费久久| 国产chinese精品一区二区| 久久99国产精品视频| 中文字幕一区二区中文字幕| 韩国一区二区三区在线观看| 各处沟厕大尺度偷拍女厕嘘嘘| 青青草91视频| 日本精品一二三| 国产婷婷色一区二区三区四区| 免费看特级毛片| 黄色成人在线免费| 亚洲一区中文字幕在线| 精品国产91乱码一区二区三区| 六十路在线观看| 欧美成人在线影院| 三上悠亚亚洲一区| 亚洲xxx大片| 蜜桃一区二区三区| 超级碰在线观看| 丝袜美腿高跟呻吟高潮一区| 手机在线播放av| 中文字幕欧美日本乱码一线二线| 久久精品黄色片| 在线一区二区观看| 人妻丰满熟妇av无码区hd| 自拍偷拍亚洲精品| 蜜桃视频在线观看播放| 91久久精品国产91久久| 九九热线有精品视频99| www.男人天堂网| 奇米影视在线99精品| 三级电影在线看| 一区二区三区美女视频| 日韩欧美国产另类| 亚洲精品久久久一区二区三区| 黄网站在线免费| 国产精品欧美亚洲777777| 欧美一级色片| 国产一区二区四区| 国产在线精品不卡| 丰满的亚洲女人毛茸茸| 色偷偷久久一区二区三区| 日韩一区二区三区在线观看视频| 久久精品国产综合| 日本欧美一区| 欧美大香线蕉线伊人久久国产精品| 欧美日本一区| 日本黄色www| 18涩涩午夜精品.www| 久久这里只有精品9| 亚洲美女av在线| 欧美xxxhd| 韩国一区二区三区美女美女秀| 一本一道久久综合狠狠老| 亚洲第一狼人区| 国产亚洲制服色| 久久久蜜桃一区二区| 日韩精品一二三四区| 国产资源在线观看入口av| 国产精品久久精品视| 欧美日韩国产探花| 韩国av中国字幕| 亚洲一区二区欧美| 亚洲成熟女性毛茸茸| 欧美大片在线免费观看| 精品视频一二| 男人c女人视频| 国产.精品.日韩.另类.中文.在线.播放| 日韩三级久久久| 91精品国产高清一区二区三区蜜臀 | 可以免费看污视频的网站在线| 68精品久久久久久欧美| 欧美福利在线播放网址导航| 精品无码一区二区三区在线| av在线不卡电影| 日韩人妻精品中文字幕| 亚洲欧美国产精品va在线观看| 欧美最新精品| 亚洲欧美国产精品桃花| 国产一区中文字幕| 国产福利久久久| 日韩高清av一区二区三区| 在线观看涩涩| 四虎一区二区| 精品亚洲成a人在线观看| 欧美黄色免费看| 日韩成人久久久| a∨色狠狠一区二区三区| 中文字幕一区二区三区有限公司| 国产成人在线视频免费播放| 日本午夜小视频| 一区二区三区视频观看| 外国成人毛片| 隔壁人妻偷人bd中字| 91视频精品在这里| 在线观看免费黄色小视频| 成年无码av片在线| 五月国产精品| 在线一区二区不卡| 亚洲高清久久久| 大片免费播放在线视频| 亚洲综合日韩在线| 国产精品视区| 国产传媒免费在线观看| 日韩黄色在线免费观看| 99视频这里有精品| 秋霞无码一区二区| 中文字幕 久热精品 视频在线 | 91国产一区| 热99这里只有精品| 国产精品久久久久久妇女6080| 黑人乱码一区二区三区av| 国产精品精品视频| 国自产拍偷拍福利精品免费一| 欧美 日韩 国产 成人 在线观看| 欧美一级日韩一级| 国产日韩电影| 免费特级黄色片| 中文字幕亚洲在| 欧美日韩国产综合视频| 亚洲最大的av网站|