如何讓多模態大模型學會“自動思考”-R-4B訓練框架核心設計與訓練方法 原創
多模態大模型在推理上雖然效果好,但會強制執行 “逐步思考” 流程,導致輸出 token 量激增,冗余思考過程不會提升簡單任務的準確性,反而可能因 “過度推理” 引入噪聲。
現有模型無法根據任務復雜度自主選擇 “思考模式”(需推理)或 “非思考模式”(直接回答),需要手動觸發是否思考的條件(如qwen3的開關控制)或者如Keye-VL 通過人工標注 “任務復雜度標簽” 觸發思考模式,但人工標注成本高、覆蓋場景有限,且推理時需額外輸出 “復雜度分析” token,進一步增加計算開銷。

因此,如何為多模態 MLLMs 提供自動思考能力,下面來看看R-4B的思路。
方法-R-4B雙階段訓練設計
為自動思考,R-4B的核心是設計了一個兩階段訓練方式:雙模態退火(Bi-mode Annealing) 和 雙模態策略優化(Bi-mode Policy Optimization, BPO)。
階段1、雙模態退火設計
這一階段的目標是讓模型學會自動思考能力(“思考”和“不思考”)。
提出啟發式驅動的自動化數據構建策略,利用現有強性能 MLLM(Qwen2.5-32B-VL)作為 “統一標注器”,自動將通用領域數據劃分為兩類,流程如下圖:

兩種啟發式標注規則:
- 難度導向啟發式:針對主觀類查詢
利用現有多模態大語言模型進行提示工程,基于其內在難度評估是否需要推理過程。被判定為復雜的查詢被標注為需要推理的樣本。
邏輯如下:
a.對每個主觀查詢,構造提示詞,讓 Qwen2.5-32B-VL 評估其 “是否需要復雜推理過程”;
b.提示詞核心邏輯:“判斷以下問題是否需要分步驟分析、邏輯推導或多視角權衡才能回答,若需要則標記為‘推理密集型’,否則標記為‘非推理型’”;
c.例如,“描述貓的外形” 被標記為非推理型(直接調用常識),“分析貓的外形如何適應夜間捕獵” 被標記為推理型(需結合生物學知識分步驟推導)。
- 性能導向啟發式:用于客觀查詢
對于答案可驗證的查詢(例如數學題或選擇題),引入一種基于模型的離線困難樣本挖掘策略,系統地識別出難樣本。
邏輯如下:
a.對每個客觀查詢,讓 Qwen2.5-32B-VL 生成 8 次獨立回答(N=8);
b.若 8 次回答全部錯誤(即模型在該問題上表現極差,屬于 “硬樣本”),標記為 “推理密集型”(需復雜推理才能正確回答,如 “基于圖表數據計算近 5 年增長率”);
c.若 8 次回答至少 1 次正確(即模型可直接給出答案,屬于 “易樣本”),標記為 “非推理型”(如 “識別圖中的數字”“回答‘地球自轉周期是多少’”)。
數據分布情況:


階段2、雙模態策略優化
經過“雙模態退火階段”,這時候有了 R-4B-Base 模型,然而存在的 “思考萎縮” 問題(模型雖同時具備思考 / 非思考能力,但傾向于優先選擇非思考模式)。
引入雙模態策略優化(Bi-mode Policy Optimization, BPO),這是一種為自動思考量身定制的強化學習算法。

BPO的核心目標是通過 RL 優化模型的 “模式選擇策略”,讓模型在面對不同復雜度的任務時,能自主選擇 “性價比最高” 的響應模式。
核心設計思想:“強制雙模態Rollouts”
傳統RL方法在訓練自動思考模型時,常因“單模態采樣”導致模型偏向某一種模式(如始終選擇非思考模式以降低損失),最終引發“思考萎縮”。BPO通過Bi-mode Rollouts強制打破這種偏好,邏輯如下:
- 對每個輸入查詢(如“求解數學方程”“識別圖片文字”),模型需同時生成兩組響應:
a.思考模式組:通過特殊token ??<thinking token>?? 觸發,輸出包含逐步推理過程的響應;
b.非思考模式組:通過特殊token ??<non-thinking token>?? 觸發,輸出僅含答案的響應。
兩組響應的數量嚴格相等(如每組各生成g個樣本,??|Group_thinking|=|Group_non-thinking|=g??),確保模型在訓練中必須“公平探索”兩種模式,無法因數據分布或損失函數偏向而忽略某一模式。
方法架構、訓練方法
模型架構:VIT+MLP+LLM
訓練方法:

訓練參數
- 階段 1:MLP 預熱首先凍結 ViT 和 LLM 的參數,同時初始化一個隨機初始化的兩層MLP 投影模塊。該投影模塊使用圖像-標題對進行訓練,以建立初始的跨模態對齊。此階段能夠確保后續階段中梯度傳播的穩定性,并緩解由表示對齊不佳引起的不穩定性。
- 階段 2:視覺-語言對齊在此階段,ViT 主干網絡被解凍,而 LLM 保持凍結狀態,使用交錯的多模態數據進行訓練。這些批量中包含的多樣化視覺內容系統性地提升了視覺編碼器處理不同視覺領域的能力。
- 階段 3:聯合多模態預訓練此階段實現了對整個架構的全參數最優化。將訓練方案擴展至包含 1450 億個跨越多種模態和任務的 token,涵蓋 OCR 解析、視覺定位、數學推理以及結構化數據(表格/圖表)。
此外,實施了一種非思考損失掩碼策略。在此策略中,在生成響應前添加 < think> < /think> 標簽,并對其對應的損失貢獻進行掩碼處理。該策略在聯合多模態預訓練過程中 有效保留了 Qwen3的推理能力。
實驗


在不同基準上,非思考模式、自動思考模式和思考模式的平均每次查詢輸出 token 數量對比。自動思考模式在效率與性能之間取得了平衡
參考文獻:R-4B: Incentivizing General-Purpose Auto-Thinking Capability in MLLMs via Bi-Mode Annealing and Reinforce Learning,https://arxiv.org/pdf/2508.21113Repo:https://link.zhihu.com/?target=https%3A//github.com/yannqi/R-4B
本文轉載自??大模型自然語言處理?? 作者:llmnlp

















