DeepSeek、GPT-5都在嘗試的快慢思考切換,有了更智能版本,還是多模態
本研究由中科院自動化所和騰訊混元聯合研發,團隊成員包括 Qi Yang, Bolin Ni, Shiming Xiang, Han Hu, Houwen Peng, Jie Jiang
背景:多模態大模型的思考困境
當前,業界頂尖的大模型正競相挑戰“過度思考”的難題,即無論問題簡單與否,它們都采用 “always-on thinking” 的詳細推理模式。無論是像 DeepSeek-V3.1 這種依賴混合推理架構提供需用戶“手動”介入的快慢思考切換,還是如 GPT-5 那樣通過依賴龐大而高成本的“專家路由”機制提供的自適應思考切換。它們距離真正意義上的“智能思考”仍有距離。這些方案或將判斷壓力轉移給用戶,或受限于復雜的系統架構和高昂的部署成本。因此,研發一款輕量化、支持多模態且能實現更智能自適應思考的大模型,將為用戶提供更加流暢的交互體驗。

近期,由騰訊混元團隊與中科院自動化所合作的一項最新研究推出 R-4B 多模態大模型,通過自適應思考(auto-thinking)機制,改變了這一現狀,它讓 AI 能像人類一樣 “智能切換” 思維模式。簡單問題直接響應,復雜問題深度推理,在最大化回答準確性的同時,最小化計算開銷。

- 論文標題:R-4B: INCENTIVIZING GENERAL-PURPOSE AUTOTHINKING CAPABILITY IN MLLMS VIA BI-MODE ANNEALING AND REINFORCE LEARNING
- 論文鏈接:https://arxiv.org/pdf/2508.21113
這一 “按需思考” 的核心能力,為 4B 量級的多模態模型樹立了全新的性能標桿,使其在評測性能指標上成功超越了 Keye-VL-8B、Kimi-VL-A3B-Thinking-2506 等更大規模的模型。

同時,R-4B 在權威基準 OpenCompass 榜單上取得了優異成績。
- 登頂 OpenCompass 多模態學術榜單:在 20B 以內規模多模態大模型中,性能排名 Top 1!

- 位列 OpenCompass 多模態推理榜單開源榜首:在開源模型中,推理性能拔得頭籌!

目前,該模型已在 GitHub 和 HuggingFace 上線,且支持 vLLM 快速部署。「消費級顯卡即可運行,適用于筆記本電腦、智能座艙、智能家居等低功耗場景,支持垂直領域低成本微調。」截至目前下載量已破萬,歡迎大家體驗!
- GitHub 代碼倉庫:https://github.com/yannqi/R-4B
- Hugging Face 模型下載:https://huggingface.co/YannQi/R-4B
突破:R-4B 的自適應思考引擎
R-4B 的智慧之處在于其自適應思考能力:

- 遇到簡單問題(簡單實體識別、簡易問答),它選擇直接、高效地響應。
- 面對復雜任務(如數學計算、圖表分析),它則自動切換到深度思考模式,生成詳細的思考過程。
R-4B 的核心創新在于其獨特的兩階段訓練策略。為實現模型在通用領域的自適應思考,研究團隊首先提出雙模退火(bi-mode annealing)訓練策略,促使模型同時掌握通用領域的思考與非思考能力。
該階段可以理解為對模型進行 “思考” 啟蒙,即同時喂給它兩種范式數據:一種需要直接回答(非思考模式,像日常對話),另一種需要詳細推理(思考模式,像解數學題)。通過這種訓練,模型同時掌握了思考和非思考這兩種響應模式,為后續的自適應思考模式訓練打下堅實基礎。該階段的核心是通用領域推理和非推理模式的數據構建策略:針對客觀題,用模型采樣的答案一致性來衡量題目的難易程度;針對主觀題目,用提示工程的方式去區分解決問題是否需要進一步思考。

- 推理模式數據:涵蓋圖表分析、邏輯推理等需多步推理的任務(如科學圖解或數學問題)。
- 非推理模式數據:針對直接事實響應的查詢(如實體識別或簡單問答)。

經過退火訓練,得到一個同時精通思考與非思考模式的基礎模型 R-4B-Base ,為后續自適應思考強化訓練奠定基礎。基于此,團隊開發了雙模策略優化(Bi-mode Policy Optimization, BPO)強化學習算法。它無需依賴精心設計的獎勵函數或特定數據,而是僅依賴基于規則的獎勵信號,從數學數據出發,并可泛化到通用領域。其核心是混合雙模 rollout 機制,通過強制模型在訓練中同時探索思考模式和非思考模式軌跡,從而避免模型陷入對單一模式的響應偏好。在此基礎上,通過同時獎勵兩種思考模式的策略,使模型自己學會判別何時應該思考。

性能表現:小模型,大能量
R-4B-RL 模型在多項公開基準測試中性能表現卓越,刷新了現有記錄,其性能超過 Keye-VL-8B、Kimi-VL-A3B-Thinking-2506 等更大規模的模型。

更關鍵的是,R-4B-RL 在自適應思考模式下實現了推理效率的提升,在簡單任務下模型無需消耗更多的 Token。這證明了 BPO 算法的有效性,即無需通用領域的強化學習數據或額外的獎勵函數設計,模型也能實現自適應思考。

應用前景:從科研到產業的智能化浪潮
R-4B 的突破不止于技術,更開啟了廣闊應用場景:
- 應用智能 :在日常問答分析中,自動切換簡單查詢(如文檔內容提取)和復雜推理(如圖表分析)的思維模式,提升自動化處理效率。
- 科學研究 :在處理科學圖表時,R-4B 的深度推理模式可解析多步關系,精準解讀數據,提高研究效率。
- 消費級 AI :邊緣設備部署中,R-4B 憑借更少的參數和自適應思考模式降低延遲和能耗,適用于即時問答系統。
(1) 文檔內容提取(簡單查詢)

(2) 圖表分析(復雜推理)

結語:自適應思考,探索 AI 發展新道路
從雙模退火訓練到 BPO 優化,R-4B 不僅解決了 MLLMs 的思考困境,更在小尺寸模型上探索了自適應思考的可行性 。自適應思考不僅是技術優化,更是對效率與普惠平衡的追求。在 AI 計算與推理成本飆升的今天,R-4B 的輕量化、智能化設計,為大模型可持續發展注入綠色動力。





































