精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

如何讓多模態大模型學會“自動思考”-R-4B訓練框架核心設計與訓練方法原創

大模型自然語言處理

發布于 2025-9-9 09:33

瀏覽

0收藏

多模態大模型在推理上雖然效果好，但會強制執行 “逐步思考” 流程，導致輸出 token 量激增，冗余思考過程不會提升簡單任務的準確性，反而可能因 “過度推理” 引入噪聲。

現有模型無法根據任務復雜度自主選擇 “思考模式”（需推理）或 “非思考模式”（直接回答），需要手動觸發是否思考的條件（如qwen3的開關控制）或者如Keye-VL 通過人工標注 “任務復雜度標簽” 觸發思考模式，但人工標注成本高、覆蓋場景有限，且推理時需額外輸出 “復雜度分析” token，進一步增加計算開銷。

如何讓多模態大模型學會“自動思考”-R-4B訓練框架核心設計與訓練方法-AI.x社區

因此，如何為多模態 MLLMs 提供自動思考能力，下面來看看R-4B的思路。

方法-R-4B雙階段訓練設計

為自動思考，R-4B的核心是設計了一個兩階段訓練方式：雙模態退火（Bi-mode Annealing）和雙模態策略優化（Bi-mode Policy Optimization, BPO）。

階段1、雙模態退火設計

這一階段的目標是讓模型學會自動思考能力（“思考”和“不思考”）。

提出啟發式驅動的自動化數據構建策略，利用現有強性能 MLLM（Qwen2.5-32B-VL）作為 “統一標注器”，自動將通用領域數據劃分為兩類，流程如下圖：

如何讓多模態大模型學會“自動思考”-R-4B訓練框架核心設計與訓練方法-AI.x社區

兩種啟發式標注規則：

難度導向啟發式：針對主觀類查詢
利用現有多模態大語言模型進行提示工程，基于其內在難度評估是否需要推理過程。被判定為復雜的查詢被標注為需要推理的樣本。
邏輯如下：

a.對每個主觀查詢，構造提示詞，讓 Qwen2.5-32B-VL 評估其 “是否需要復雜推理過程”；

b.提示詞核心邏輯：“判斷以下問題是否需要分步驟分析、邏輯推導或多視角權衡才能回答，若需要則標記為‘推理密集型’，否則標記為‘非推理型’”；

c.例如，“描述貓的外形” 被標記為非推理型（直接調用常識），“分析貓的外形如何適應夜間捕獵” 被標記為推理型（需結合生物學知識分步驟推導）。

性能導向啟發式：用于客觀查詢
對于答案可驗證的查詢（例如數學題或選擇題），引入一種基于模型的離線困難樣本挖掘策略，系統地識別出難樣本。
邏輯如下：

a.對每個客觀查詢，讓 Qwen2.5-32B-VL 生成 8 次獨立回答（N=8）；

b.若 8 次回答全部錯誤（即模型在該問題上表現極差，屬于 “硬樣本”），標記為 “推理密集型”（需復雜推理才能正確回答，如 “基于圖表數據計算近 5 年增長率”）；

c.若 8 次回答至少 1 次正確（即模型可直接給出答案，屬于 “易樣本”），標記為 “非推理型”（如 “識別圖中的數字”“回答‘地球自轉周期是多少’”）。

數據分布情況：

如何讓多模態大模型學會“自動思考”-R-4B訓練框架核心設計與訓練方法-AI.x社區

如何讓多模態大模型學會“自動思考”-R-4B訓練框架核心設計與訓練方法-AI.x社區

階段2、雙模態策略優化

經過“雙模態退火階段”，這時候有了 R-4B-Base 模型，然而存在的 “思考萎縮” 問題（模型雖同時具備思考 / 非思考能力，但傾向于優先選擇非思考模式）。

引入雙模態策略優化（Bi-mode Policy Optimization, BPO），這是一種為自動思考量身定制的強化學習算法。

如何讓多模態大模型學會“自動思考”-R-4B訓練框架核心設計與訓練方法-AI.x社區

BPO的核心目標是通過 RL 優化模型的 “模式選擇策略”，讓模型在面對不同復雜度的任務時，能自主選擇 “性價比最高” 的響應模式。

核心設計思想：“強制雙模態Rollouts”

傳統RL方法在訓練自動思考模型時，常因“單模態采樣”導致模型偏向某一種模式（如始終選擇非思考模式以降低損失），最終引發“思考萎縮”。BPO通過Bi-mode Rollouts強制打破這種偏好，邏輯如下：

對每個輸入查詢（如“求解數學方程”“識別圖片文字”），模型需同時生成兩組響應：

a.思考模式組：通過特殊token ??<thinking token>?? 觸發，輸出包含逐步推理過程的響應；

b.非思考模式組：通過特殊token ??<non-thinking token>?? 觸發，輸出僅含答案的響應。

兩組響應的數量嚴格相等（如每組各生成g個樣本，??|Group_thinking|=|Group_non-thinking|=g??），確保模型在訓練中必須“公平探索”兩種模式，無法因數據分布或損失函數偏向而忽略某一模式。

方法架構、訓練方法

模型架構：VIT+MLP+LLM

訓練方法：

如何讓多模態大模型學會“自動思考”-R-4B訓練框架核心設計與訓練方法-AI.x社區

訓練參數

階段 1：MLP 預熱首先凍結 ViT 和 LLM 的參數，同時初始化一個隨機初始化的兩層MLP 投影模塊。該投影模塊使用圖像-標題對進行訓練，以建立初始的跨模態對齊。此階段能夠確保后續階段中梯度傳播的穩定性，并緩解由表示對齊不佳引起的不穩定性。
階段 2：視覺-語言對齊在此階段，ViT 主干網絡被解凍，而 LLM 保持凍結狀態，使用交錯的多模態數據進行訓練。這些批量中包含的多樣化視覺內容系統性地提升了視覺編碼器處理不同視覺領域的能力。
階段 3：聯合多模態預訓練此階段實現了對整個架構的全參數最優化。將訓練方案擴展至包含 1450 億個跨越多種模態和任務的 token，涵蓋 OCR 解析、視覺定位、數學推理以及結構化數據（表格/圖表）。

此外，實施了一種非思考損失掩碼策略。在此策略中，在生成響應前添加 < think> < /think> 標簽，并對其對應的損失貢獻進行掩碼處理。該策略在聯合多模態預訓練過程中有效保留了 Qwen3的推理能力。

實驗

如何讓多模態大模型學會“自動思考”-R-4B訓練框架核心設計與訓練方法-AI.x社區

如何讓多模態大模型學會“自動思考”-R-4B訓練框架核心設計與訓練方法-AI.x社區

在不同基準上，非思考模式、自動思考模式和思考模式的平均每次查詢輸出 token 數量對比。自動思考模式在效率與性能之間取得了平衡

參考文獻：R-4B: Incentivizing General-Purpose Auto-Thinking Capability in MLLMs via Bi-Mode Annealing and Reinforce Learning，https://arxiv.org/pdf/2508.21113Repo:https://link.zhihu.com/?target=https%3A//github.com/yannqi/R-4B

本文轉載自??大模型自然語言處理?? 作者：llmnlp

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

多模態大模型

已于2025-9-9 09:42:06修改

贊

收藏

回復

舉報

回復

相關推薦

值得細讀的八個視覺大模型生成式預訓練方法

angel ? 8117瀏覽 ? 0回復
8B尺寸達到GPT-4級性能！北大等提出醫療專家模型訓練方法

duhorse ? 3309瀏覽 ? 0回復
大模型三階段訓練方法(LLaMa Factory)

一起AI技術 ? 1.9w瀏覽 ? 0回復
李飛飛團隊超低成本復刻DeepSeek R1推理！16張H100只訓練了26分鐘，與R1訓練方法不同！

51CTO技術棧 ? 4110瀏覽 ? 0回復
強化學習與大模型后訓練：DeepSeek R1 如何獲得推理能力？

lintoms ? 6674瀏覽 ? 0回復
Grok 3 與 DeepSeek-R1 是怎么學會思考的？

機器學習與數學 ? 5230瀏覽 ? 0回復
Phi-4-multimodal：圖、文、音頻統一的多模態大模型架構、訓練方法、數據細節

大模型自然語言處理 ? 3853瀏覽 ? 0回復
多模態大模型Ovis核心技術點、訓練方法、數據細節

大模型自然語言處理 ? 3644瀏覽 ? 0回復
Qwen-VL系列多模態大模型技術演進-模型架構、訓練方法、數據細節

大模型自然語言處理 ? 1.8w瀏覽 ? 0回復
Kimi-VL開源多模態大模型結構、訓練方法、訓練數據淺析

大模型自然語言處理 ? 3630瀏覽 ? 0回復
Encoder-free無編碼器多模態大模型EVEv2模型架構、訓練方法淺嘗

大模型自然語言處理 ? 2732瀏覽 ? 0回復
大模型自適應推理：讓 AI 學會 “按需思考” 的核心方法

鴻煊的學習筆記 ? 3526瀏覽 ? 0回復
零外部數據自我進化大模型訓練框架-R-Zero框架訓練思路

大模型自然語言處理 ? 2773瀏覽 ? 0回復
多模態大模型Ovis2.5核心技術改進點、訓練方法

大模型自然語言處理 ? 2101瀏覽 ? 0回復
如何基于多模態大模型進行智駕訓練

數智飛輪 ? 1172瀏覽 ? 0回復
如何打造一個文檔解析的多模態大模型？MinerU2.5架構、數據、訓練方法

大模型自然語言處理 ? 1733瀏覽 ? 0回復
再看兩階段多模態文檔解析大模型-PaddleOCR-VL架構、數據、訓練方法

大模型自然語言處理 ? 756瀏覽 ? 0回復
端到端的多模態文檔解析模型-DeepSeek-OCR架構、數據、訓練方法

大模型自然語言處理 ? 1418瀏覽 ? 0回復
英偉達開源多模態視覺語言模型-Nemotron Nano V2 VL模型架構、訓練方法、訓練數據

大模型自然語言處理 ? 654瀏覽 ? 0回復

大模型自然語言處理

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

多模態文檔智能解析-MonkeyOCR v1.5框架、數據構造及特點 6天前發布
股票研究報告生成-基于LLM的多智能體框架FinRpt-Gen數據構建、方法框架 2025-11-12 08:20:30發布

熱門推薦

用 Cognee 構建端到端知識圖譜，實現當前效果最好的AI Agent記憶層 0回復

Spring AI Alibaba：Java 后端接入大模型，終于不用羨慕 Python 了！ 0回復

小模型，大能量：阿里巴巴 Qwen3-VL 4B/8B，重新定義多模態輕量化邊界 0回復

2025 年最強 OCR 大比拼：從識別文本到文檔智能，誰才是終極解法？ 0回復

馬斯克新模型屠榜，包攬前二！馬斯克：已經沒有真正能考AI的測試題了，終極測試是現實世界 0回復

上一篇：多模態大模型OCR幻覺緩解思路：DianJin-OCR-R1通過“再看一眼”圖像減輕幻覺

下一篇： RAG長上下文加速解碼策略-meta基于RAG的解決思路淺嘗（REFRAG）

社區精華內容

目錄

国产网站在线| 天天射天天操天天干| 少妇精品久久久一区二区| 在线精品亚洲一区二区不卡| 视频一区视频二区视频三区高| 国产男人搡女人免费视频| 五月激情综合| 日韩精品免费一线在线观看| 亚洲黄色小视频在线观看| 污污网站在线观看| 久久久亚洲欧洲日产国码αv| 国产精品旅馆在线| 国产精品成人免费观看| 窝窝社区一区二区| 91精品国产综合久久久久久久久久| 9色porny| 日本在线视频站| 91香蕉视频mp4| 91色精品视频在线| 日日噜噜噜噜人人爽亚洲精品| 久久久久久美女精品| 精品亚洲国产成av人片传媒 | 国产精品老牛| 精品久久久av| 中国毛片在线观看| 亚洲视频一起| 欧美性受xxxx黑人xyx性爽| 国产尤物av一区二区三区| 国产露出视频在线观看| 成人夜色视频网站在线观看| 91久久精品国产91久久性色| 日本一本在线观看| 国产精品久久久久久久免费软件 | 日韩视频精品| 亚洲aⅴ乱码精品成人区| 国产乱国产乱300精品| 国产精品极品美女粉嫩高清在线| 色婷婷在线观看视频| 欧美精品自拍| 久久夜色精品国产欧美乱| 蜜桃av乱码一区二区三区| 天堂网av成人| 日韩av一区在线观看| 亚洲AV成人精品| 最新亚洲国产| 欧美丰满少妇xxxxx高潮对白| 8x8x最新地址| 91av一区| 欧美伊人久久大香线蕉综合69| 欧美性久久久久| 麻豆视频在线观看免费网站黄| 亚洲午夜电影网| 国产欧美综合一区| av网站免费在线观看| 亚洲欧洲日韩在线| 一本一道久久a久久精品综合| 韩日视频在线| 日本一区二区三区四区在线视频| 欧美日韩国产综合视频在线| 色播色播色播色播色播在线 | 真实乱视频国产免费观看| 欧美性生活一级片| 日韩激情第一页| 最近中文字幕无免费| 国产精品宾馆| 日韩av在线免费| 日本免费福利视频| 免费欧美一区| 中文字幕日韩av| 久久精品日韩无码| 88国产精品视频一区二区三区| xxx欧美精品| 欧美色图亚洲视频| 亚洲人人精品| 国产成人高清激情视频在线观看 | 日本一区美女| av资源网站在线观看| 亚洲欧洲另类国产综合| 台湾无码一区二区| 日产福利视频在线观看| 午夜av电影一区| av免费中文字幕| 欧美97人人模人人爽人人喊视频| 欧美一区二区三区在线观看| 国产精品99精品无码视亚| 国偷自产av一区二区三区| 日韩大片在线观看视频| 中文文字幕文字幕高清| 欧美三级午夜理伦三级小说| 亚洲天堂成人在线视频| 91高清免费看| 国产欧美短视频| 国产精品久久久久久亚洲调教| 国产伦理一区二区| 99国产欧美久久久精品| 亚洲精品在线免费看| 中文字幕伦理免费在线视频 | 亚洲一二三四五| 久久av影视| 久久不射电影网| 你懂的国产在线| 久久99精品久久久久婷婷| 激情伦成人综合小说| 成人影视在线播放| 亚洲国产成人精品视频| 亚洲色图在线视频| 国产精品久久久久av蜜臀| 一区二区欧美日韩视频| 精品无码黑人又粗又大又长| 奇米777欧美一区二区| 国产精品yjizz| 91在线播放网站| 亚洲1区2区3区视频| 999在线观看| 天海翼亚洲一区二区三区| 精品国产拍在线观看| 麻豆91精品91久久久| 久色婷婷小香蕉久久| 国产综合动作在线观看| 国产黄色在线免费观看| 色综合激情五月| 美女黄色一级视频| 91精品秘密在线观看| 国产精品成人免费电影| 手机在线观看毛片| 一区二区三区在线视频免费观看| 日本va中文字幕| 欧美尿孔扩张虐视频| 欧美日本亚洲视频| 夜夜嗨av禁果av粉嫩avhd| 91免费国产在线| 亚洲欧洲成人在线| 欧美亚洲一区在线| 国产奶头好大揉着好爽视频| 黄色成人在线| 91九色02白丝porn| 欧美亚洲综合在线| 国产九区一区在线| 麻豆免费在线观看| 欧美亚洲综合另类| 欧美色图亚洲激情| 亚洲黑丝一区二区| 91视频免费进入| 色综合久久久久综合一本到桃花网| 亚洲国产欧美在线| 亚洲综合中文网| 91精品99| 亚洲在线视频观看| 国产视频在线播放| 欧美高清视频不卡网| 91狠狠综合久久久久久| 日韩在线卡一卡二| 日韩av电影免费播放| 美女福利一区二区| 亚洲女同精品视频| 69成人免费视频| 久久久精品2019中文字幕之3| 免费看国产曰批40分钟| 天海翼亚洲一区二区三区| 69av视频在线播放| 日本在线丨区| 91福利社在线观看| www..com.cn蕾丝视频在线观看免费版| 天堂影院一区二区| 日本欧美精品久久久| 欧美国产日韩电影| 日韩在线视频二区| 国产永久免费视频| 一区二区在线看| 亚洲精品无码一区二区| 亚洲精品少妇| 欧美性bbwbbwbbwhd| 日韩和的一区二在线| 丝袜美腿精品国产二区| 国产人妻精品一区二区三区| 一区二区三区四区精品在线视频| 美女露出粉嫩尿囗让男人桶| 中文亚洲字幕| 天天综合色天天综合色hd| 国内精品伊人| 九九九久久国产免费| 天天干天天色天天| 一本久久精品一区二区| 嘿嘿视频在线观看| 国产一区二区伦理片| 久艹在线免费观看| 国产aⅴ精品一区二区三区久久| 国产精品女视频| 亚洲无线看天堂av| 亚洲欧美一区二区三区久久| 在线视频 91| 亚洲福中文字幕伊人影院| 自拍偷拍视频亚洲| 国产一区在线不卡| 日韩中文字幕在线视频观看| 精品国产一区探花在线观看| 95av在线视频| 手机av在线| 久久综合免费视频影院| 性xxxx搡xxxxx搡欧美| 欧美男女性生活在线直播观看| 久久久精品人妻一区二区三区四| 丁香六月综合激情| 一区二区三区免费播放| 在线看片欧美| 一区二区91美女张开腿让人桶| 97se亚洲| 国产精品永久免费| 中文字幕不卡三区视频| 亚洲网站在线观看| 欧美一区二区三区激情| 欧美日韩精品一区二区三区| 欧美亚洲天堂网| 亚洲欧美激情插| theav精尽人亡av| 国产高清在线观看免费不卡| 91网址在线播放| av不卡在线| 欧美交换配乱吟粗大25p| 狠狠色狠狠色综合婷婷tag| 岛国视频一区免费观看| 日韩在线激情| 国产成人精品免费视频| segui88久久综合9999| 欧美成人精品一区| 日本中文字幕在线2020| 国产亚洲视频在线观看| 亚洲人午夜射精精品日韩| 精品久久久久久久久久久久包黑料| 中文字幕免费高清在线观看| 欧美午夜影院在线视频| 国产精品欧美日韩| 亚洲精品ww久久久久久p站| 美国精品一区二区| 国产三级精品视频| 成都免费高清电影| 26uuu亚洲综合色欧美| 四虎精品一区二区| 国产91在线|亚洲| 自拍一级黄色片| 激情五月婷婷综合网| 男操女免费网站| 日本不卡在线视频| 欧美成人黄色网址| 免费观看日韩电影| 国产高清视频网站| 九色|91porny| 欧洲在线免费视频| 久久99精品久久久久婷婷| 911福利视频| 国产中文字幕一区| 色婷婷狠狠18禁久久| 国产在线播放一区三区四| 天天影视色综合| 国产综合色在线| 日本亚洲一区二区三区| 国产乱码精品一区二区三| 男人的天堂免费| 福利视频网站一区二区三区| 在线观看成人动漫| 337p粉嫩大胆色噜噜噜噜亚洲| 中文字幕一区二区三区人妻电影| www精品美女久久久tv| 中文字幕成人动漫| 国产精品三级久久久久三级| 老司机精品免费视频| 亚洲欧洲日韩一区二区三区| 精品97人妻无码中文永久在线| 亚洲一区二区影院| 欧美一区二区三区四| 在线亚洲+欧美+日本专区| 国产又粗又长视频| 日韩精品一区二| 深夜福利视频在线免费观看| 亚洲欧美综合精品久久成人| 福利视频在线看| 另类天堂视频在线观看| 岛国av在线网站| 国产成人亚洲精品| 四虎国产精品免费久久| 国产chinese精品一区二区| 久久99国产精品视频| 中文字幕一区二区中文字幕| 韩国一区二区三区在线观看| 各处沟厕大尺度偷拍女厕嘘嘘| 青青草91视频| 日本精品一二三| 国产婷婷色一区二区三区四区| 免费看特级毛片| 黄色成人在线免费| 亚洲一区中文字幕在线| 精品国产91乱码一区二区三区| 六十路在线观看| 欧美成人在线影院| 三上悠亚亚洲一区| 亚洲xxx大片| 蜜桃一区二区三区| 超级碰在线观看| 丝袜美腿高跟呻吟高潮一区| 手机在线播放av| 中文字幕欧美日本乱码一线二线| 久久精品黄色片| 在线一区二区观看| 人妻丰满熟妇av无码区hd| 自拍偷拍亚洲精品| 蜜桃视频在线观看播放| 91久久精品国产91久久| 九九热线有精品视频99| www.男人天堂网| 奇米影视在线99精品| 三级电影在线看| 一区二区三区美女视频| 日韩欧美国产另类| 亚洲精品久久久一区二区三区| 黄网站在线免费| 国产精品欧美亚洲777777| 欧美一级色片| 国产一区二区四区| 国产在线精品不卡| 丰满的亚洲女人毛茸茸| 色偷偷久久一区二区三区| 日韩一区二区三区在线观看视频| 久久精品国产综合| 日本欧美一区| 欧美大香线蕉线伊人久久国产精品| 欧美日本一区| 日本黄色www| 18涩涩午夜精品.www| 久久这里只有精品9| 亚洲美女av在线| 欧美xxxhd| 韩国一区二区三区美女美女秀| 一本一道久久综合狠狠老| 亚洲第一狼人区| 国产亚洲制服色| 久久久蜜桃一区二区| 日韩精品一二三四区| 国产资源在线观看入口av| 国产精品久久精品视| 欧美日韩国产探花| 韩国av中国字幕| 亚洲一区二区欧美| 亚洲成熟女性毛茸茸| 欧美大片在线免费观看| 精品视频一二| 男人c女人视频| 国产.精品.日韩.另类.中文.在线.播放| 日韩三级久久久| 91精品国产高清一区二区三区蜜臀 | 可以免费看污视频的网站在线| 68精品久久久久久欧美| 欧美福利在线播放网址导航| 精品无码一区二区三区在线| av在线不卡电影| 日韩人妻精品中文字幕| 亚洲欧美国产精品va在线观看| 欧美最新精品| 亚洲欧美国产精品桃花| 国产一区中文字幕| 国产福利久久久| 日韩高清av一区二区三区| 在线观看涩涩| 四虎一区二区| 精品亚洲成a人在线观看| 欧美黄色免费看| 日韩成人久久久| a∨色狠狠一区二区三区| 中文字幕一区二区三区有限公司| 国产成人在线视频免费播放| 日本午夜小视频| 一区二区三区视频观看| 外国成人毛片| 隔壁人妻偷人bd中字| 91视频精品在这里| 在线观看免费黄色小视频| 成年无码av片在线| 五月国产精品| 在线一区二区不卡| 亚洲高清久久久| 大片免费播放在线视频| 亚洲综合日韩在线| 国产精品视区| 国产传媒免费在线观看| 日韩黄色在线免费观看| 99视频这里有精品| 秋霞无码一区二区| 中文字幕久热精品视频在线 | 91国产一区| 热99这里只有精品| 国产精品久久久久久妇女6080| 黑人乱码一区二区三区av| 国产精品精品视频| 国自产拍偷拍福利精品免费一| 欧美日韩国产成人在线观看| 欧美一级日韩一级| 国产日韩电影| 免费特级黄色片| 中文字幕亚洲在| 欧美日韩国产综合视频| 亚洲最大的av网站|