一篇200+文獻的視覺強化學習技術最新綜述
強化學習(RL)與視覺智能交叉領域的最新進展,已催生出不僅能感知復雜視覺場景,還能在其中進行推理、生成并采取行動的智能體。
NUS&浙江大學&香港中文大學對這一快速發展領域進行了批判性且及時的系統梳理:

- 首先形式化視覺 RL 問題,并追溯策略優化策略的演進:從 RLHF 到可驗證獎勵范式,從近端策略優化(PPO)到群組相對策略優化(GRPO)。
- 將200 余篇代表性工作歸納為四大主題支柱:多模態大語言模型、視覺生成、統一模型框架,以及視覺-語言-動作(VLA)模型。
- 針對每一支柱,剖析算法設計、獎勵工程與基準進展,并提煉出課程驅動訓練、偏好對齊擴散、統一獎勵建模等關鍵趨勢。

視覺 RL 發展時間線
2023 起出現「ImageReward->DiffusionRL」;2024 起「R1-style GRPO」井噴;2025 全面開花:GUI、Robot、3D、Video 全覆蓋。
LLM 的 RL 三板斧
1.1 符號與問題建模

- 任務視角:把文本或圖像生成當作“回合式”馬爾可夫決策過程(MDP)。
- 狀態:用戶提示 + 已生成 token 的歷史。
- 動作:下一個 token / 像素塊 / 去噪步。
- 獎勵:用凍結的偏好模型代替環境反饋。
- 約束:KL 正則化讓新策略不遠離參考策略。

1.2 三大對齊范式
中文標題 | 核心思想 | 流程/公式 | 代表 |
人類反饋強化學習 (RLHF) | 學獎勵模型 → 用 PPO 微調 | 三步:SFT → Reward Model → PPO | InstructGPT,LLaVA-RLHF |
直接偏好優化 (DPO) | 不用獎勵模型,直接對比偏好 | 閉式目標 + KL 隱式約束 | Rafailov 2023 |
可驗證獎勵強化學習 (RLVR) | 用確定性指標當獎勵 | 兩步:SFT → GRPO/PPO | DeepSeek-R1 |

1.3 策略優化算法
中文標題 | 關鍵創新 | 要點 |
近端策略優化 (PPO) | 信任區域 + 價值基線 | 價值網絡估計優勢;KL 正則化 |
群組相對策略優化 (GRPO) | 去掉價值網絡 | 組內標準化優勢;提示級 KL 約束 |
視覺 RL 的四大陣地
把 LLM 的 RL 套路搬到「看、想、畫、動」四個賽道,形成 200+ 篇工作的清晰地圖。

這里可以先看綜合一個例子,最近開源GLM-4.5V的多領域獎勵系統,結合可驗證獎勵強化學習(RLVR)與基于人類反饋的強化學習(RLHF),在 STEM 問題、多模態定位、Agent 任務等方面獲得全面優化:?GLM4.5之后,智譜又開源GLM-4.5V,實測下來視覺推理能力賊強~
2.1 多模態大語言模型(MLLM)
細分方向 | 關鍵詞 | 代表工作 |
傳統 RL-MLLM | 用可驗證獎勵(IoU、BLEU)直接對齊 | RePIC、VLM-R1、GoalLadder |
空間 & 3D 感知 | 強化檢測/分割/布局一致性 | Omni-R1、MetaSpatial、Scene-R1 |
圖像推理 | 靜態圖推理 vs 動態圖操作 | SVQA-R1(靜態) |
視頻推理 | 長序列時序因果 | VQ-Insight、VideoR1、Ego-R1 |
2.2 視覺生成
模態 | 關鍵思路 | 典型算法 |
圖像生成 | 人類偏好 / 指標混合 / 推理提示 | ImageReward、DiffusionDPO、ReasonGen-R1 |
視頻生成 | 時序一致性 + 物理約束 | DanceGRPO、VideoReward、Phys-AR |
3D 生成 | 體積渲染獎勵 / NeRF 對齊 | DreamCS、DreamReward、DreamDPO |

2.3 統一模型
思路 | 做法 | 代表 |
統一 RL | 同一策略&獎勵同時做理解與生成 | UniRL、CoRL、SelfTok |
任務專用 RL | 只給生成頭加 RL,理解頭保持 SFT | VARGPT-v1.1、Emu3 |
2.4 視覺-語言-動作模型(VLA)
場景 | 挑戰 | 代表工作 |
GUI 自動化 | 動作空間巨大、稀疏獎勵 | GUI-R1、UIShift、Mobile-R1 |
視覺導航 | 長程規劃、環境遷移 | OctoNav-R1、VLN-R1、Flare |
視覺操控 | 精細抓取、多步重排 | TGRPO、RLVLA、ReinBot |
主流 Metrics和Benchmarks




https://arxiv.org/pdf/2508.08189
Reinforcement Learning in Vision: A Survey
https://github.com/weijiawu/Awesome-Visual-Reinforcement-Learning.本文轉載自??????????????PaperAgent??

















