DeepSeek、GPT-5都在嘗試的快慢思考切換，有了更智能版本，還是多模態

2025-09-01 17:14:00

從雙模退火訓練到 BPO 優化，R-4B 不僅解決了 MLLMs 的思考困境，更在小尺寸模型上探索了自適應思考的可行性。

本研究由中科院自動化所和騰訊混元聯合研發，團隊成員包括 Qi Yang, Bolin Ni, Shiming Xiang, Han Hu, Houwen Peng, Jie Jiang

背景：多模態大模型的思考困境

當前，業界頂尖的大模型正競相挑戰“過度思考”的難題，即無論問題簡單與否，它們都采用 “always-on thinking” 的詳細推理模式。無論是像 DeepSeek-V3.1 這種依賴混合推理架構提供需用戶“手動”介入的快慢思考切換，還是如 GPT-5 那樣通過依賴龐大而高成本的“專家路由”機制提供的自適應思考切換。它們距離真正意義上的“智能思考”仍有距離。這些方案或將判斷壓力轉移給用戶，或受限于復雜的系統架構和高昂的部署成本。因此，研發一款輕量化、支持多模態且能實現更智能自適應思考的大模型，將為用戶提供更加流暢的交互體驗。

近期，由騰訊混元團隊與中科院自動化所合作的一項最新研究推出 R-4B 多模態大模型，通過自適應思考（auto-thinking）機制，改變了這一現狀，它讓 AI 能像人類一樣 “智能切換” 思維模式。簡單問題直接響應，復雜問題深度推理，在最大化回答準確性的同時，最小化計算開銷。

論文標題：R-4B: INCENTIVIZING GENERAL-PURPOSE AUTOTHINKING CAPABILITY IN MLLMS VIA BI-MODE ANNEALING AND REINFORCE LEARNING
論文鏈接：https://arxiv.org/pdf/2508.21113

這一 “按需思考” 的核心能力，為 4B 量級的多模態模型樹立了全新的性能標桿，使其在評測性能指標上成功超越了 Keye-VL-8B、Kimi-VL-A3B-Thinking-2506 等更大規模的模型。

同時，R-4B 在權威基準 OpenCompass 榜單上取得了優異成績。

登頂 OpenCompass 多模態學術榜單：在 20B 以內規模多模態大模型中，性能排名 Top 1！

位列 OpenCompass 多模態推理榜單開源榜首：在開源模型中，推理性能拔得頭籌！

目前，該模型已在 GitHub 和 HuggingFace 上線，且支持 vLLM 快速部署。「消費級顯卡即可運行，適用于筆記本電腦、智能座艙、智能家居等低功耗場景，支持垂直領域低成本微調。」截至目前下載量已破萬，歡迎大家體驗！

GitHub 代碼倉庫：https://github.com/yannqi/R-4B
Hugging Face 模型下載：https://huggingface.co/YannQi/R-4B

突破：R-4B 的自適應思考引擎

R-4B 的智慧之處在于其自適應思考能力：

遇到簡單問題（簡單實體識別、簡易問答），它選擇直接、高效地響應。
面對復雜任務（如數學計算、圖表分析），它則自動切換到深度思考模式，生成詳細的思考過程。

R-4B 的核心創新在于其獨特的兩階段訓練策略。為實現模型在通用領域的自適應思考，研究團隊首先提出雙模退火（bi-mode annealing）訓練策略，促使模型同時掌握通用領域的思考與非思考能力。

該階段可以理解為對模型進行 “思考” 啟蒙，即同時喂給它兩種范式數據：一種需要直接回答（非思考模式，像日常對話），另一種需要詳細推理（思考模式，像解數學題）。通過這種訓練，模型同時掌握了思考和非思考這兩種響應模式，為后續的自適應思考模式訓練打下堅實基礎。該階段的核心是通用領域推理和非推理模式的數據構建策略：針對客觀題，用模型采樣的答案一致性來衡量題目的難易程度；針對主觀題目，用提示工程的方式去區分解決問題是否需要進一步思考。

推理模式數據：涵蓋圖表分析、邏輯推理等需多步推理的任務（如科學圖解或數學問題）。
非推理模式數據：針對直接事實響應的查詢（如實體識別或簡單問答）。

經過退火訓練，得到一個同時精通思考與非思考模式的基礎模型 R-4B-Base ，為后續自適應思考強化訓練奠定基礎。基于此，團隊開發了雙模策略優化（Bi-mode Policy Optimization, BPO）強化學習算法。它無需依賴精心設計的獎勵函數或特定數據，而是僅依賴基于規則的獎勵信號，從數學數據出發，并可泛化到通用領域。其核心是混合雙模 rollout 機制，通過強制模型在訓練中同時探索思考模式和非思考模式軌跡，從而避免模型陷入對單一模式的響應偏好。在此基礎上，通過同時獎勵兩種思考模式的策略，使模型自己學會判別何時應該思考。