NUS+浙大+港中文聯合出品視覺強化學習全景綜述:200+研究拆解4大核心領域 精華
當你看到機器人能精準識別物體并完成復雜操作,AI能根據文字描述生成幾乎以假亂真的圖像時,是否好奇背后的技術如何實現?其實,這背后離不開強化學習與視覺智能的深度融合。但視覺信息的復雜性、“獎勵”設計的難題、長時程任務的穩定性挑戰,一直讓研究者頭疼。而新加坡國立大學、浙江大學、香港中文大學的聯合團隊最新發布的《Reinforcement Learning in Vision: A Survey》,不僅梳理了200+研究成果,還拆解了四大核心領域的關鍵突破——想知道視覺強化學習如何攻克這些難題,又將走向何方嗎?這篇綜述將為你揭曉答案!
摘要
近年來,強化學習(RL)與視覺智能交叉領域取得了諸多進展,這些進展催生出了一批智能體,它們不僅能夠感知復雜的視覺場景,還能在其中進行推理、生成和行動。本綜述對該領域進行了重要且最新的綜合分析。首先,我們對視覺強化學習問題進行了形式化定義,并追溯了策略優化方法的演變歷程,從基于人類反饋的強化學習(RLHF)到可驗證獎勵范式,從近鄰策略優化(PPO)到組相對策略優化(GRPO)。接著,我們將 200 多篇代表性研究成果歸納為四大主題領域:多模態大型語言模型、視覺生成、統一模型框架以及視覺-語言-行動模型。針對每個領域,我們深入研究了算法設計、獎勵工程和基準測試進展,并提煉出諸如課程驅動訓練、偏好對齊擴散以及統一獎勵建模等趨勢。最后,我們回顧了涵蓋集合級保真度、樣本級偏好和狀態級穩定性的評估協議,并指出了當前存在的挑戰,包括樣本效率、泛化能力和安全部署等問題。本綜述旨在為研究人員和從業者提供一份清晰的地圖,展現快速發展的視覺強化學習領域全貌,并突出未來研究的前景方向。相關資源可在以下鏈接獲取:https://github.com/weijiawu/Awesome-Visual-Reinforcement-Learning。
研究背景
?基礎領域鋪墊:強化學習在大型語言模型(LLM)中已獲突破,RLHF、DeepSeek-R1等技術大幅提升模型輸出與人類偏好的對齊度,為多模態模型的RL應用奠定方法基礎。
?多模態擴展需求:隨著VLM、VLA、擴散視覺生成模型、統一多模態框架的發展,需將LLM領域的RL方法擴展到視覺領域,以解決視覺感知、推理、生成、行動控制的復雜問題(如自動駕駛GUI自動化、機器人操作)。
?核心挑戰凸顯:視覺領域的特殊性帶來新難題,包括復雜視覺輸入的高維度處理、長時程任務的獎勵設計、策略在多模態信號下的穩定優化,現有方法難以同時滿足性能、泛化與效率需求。
?研究碎片化問題:2024年以來視覺RL研究激增,但成果分散于不同子領域(生成、推理、行動),缺乏系統梳理與統一評估標準,需綜述整合以明確領域脈絡與方向。
研究貢獻
?系統性綜述框架:首次對200+視覺RL研究進行全面整合,按“多模態大型語言模型、視覺生成、統一模型、視覺-語言-行動模型”四大主題分類,覆蓋算法、獎勵、基準全維度,填補領域綜述空白。
?策略優化演變分析:清晰梳理RL策略從RLHF到RLVR(可驗證獎勵)、從PPO到GRPO的技術演進路徑,量化對比不同方法的優勢(如GRPO移除價值網絡,內存消耗減半),為方法選擇提供依據。
?多粒度評估體系:提出“集合級-樣本級-狀態級”三級評估指標框架,明確各領域(如視覺生成、VLA)的核心評估指標與基準數據集,解決評估標準不統一的問題。
?分類體系與趨勢提煉:基于“指標粒度+獎勵監督”提出視覺RL方法分類體系(如圖像生成的三種獎勵范式),提煉課程驅動訓練、偏好對齊擴散等關鍵趨勢,為后續研究提供方向指引。
?挑戰與方向明確:針對性指出高效推理、長時程VLA、視覺思考RL、獎勵模型設計四大核心挑戰,并給出具體解決思路(如自適應時程策略、內在子目標發現),推動領域突破。
實現設計
?問題形式化基礎:將視覺任務(文本-圖像生成、GUI操作等)統一建模為馬爾可夫決策過程,定義“提示-動作-續接序列-獎勵”的核心流程,統一符號體系(如s_t為提示+歷史動作,a_t為令牌/像素塊)。
?對齊與優化方法
對齊范式:RLHF(三階段:監督策略→獎勵模型→PPO優化)、DPO(閉式對比目標,無獎勵模型)、RLVR(可驗證獎勵,兩階段GRPO微調),適配不同數據與任務場景。
策略優化:PPO通過重要性采樣、GAE優勢估計、KL正則實現穩定更新;GRPO引入組相對基線(同一提示的G個續接序列獎勵標準化),分離KL正則項,降低內存與計算成本。
?各領域技術方案
多模態LLM:傳統RL方法用可驗證獎勵(IoU、精確匹配)優化策略;空間/3D感知將檢測/分割建模為MDP,設計空間獎勵;圖像/視頻推理引入視覺工作空間(裁剪、繪制),結合GRPO優化推理鏈。
視覺生成:圖像生成用ImageReward等偏好獎勵或DDPO直接優化;視頻生成添加時間連貫性獎勵(如光流、物理規律);3D生成基于渲染視圖計算獎勵(如輪廓IoU、CLIP對齊)。
統一模型:統一RL用混合獎勵(文本正確性+CLIP對齊)優化共享策略;任務特定RL僅優化單一模塊(如生成),保留其他能力穩定性。
VLA模型:GUI自動化用規則獎勵(點擊成功、文本輸入正確)+GRPO;導航用時間衰減獎勵+記憶采樣;操作用任務接地獎勵+分層策略。
?基準與評估實現:各領域基準數據集設計匹配任務的獎勵信號(如GUI-R1-3K的步驟級點擊獎勵),評估過程中監控KL散度、輸出長度偏移等狀態指標,確保訓練穩定。
實驗結果
?多模態大型語言模型
傳統RL方法(如VLM-R1)在零樣本圖像描述、目標定位任務上,魯棒性較監督學習提升15%-20%;GRPO-CARE引入一致性組歸一化,獎勵方差降低25%。
空間感知模型(如Omni-R1)在區域級情感識別任務上,準確率較監督基線提升12%;3D感知模型(BindGPT)在分子結合能優化上,性能超越傳統方法18%。
圖像推理模型(如DeepEyes)通過端到端RL,視覺思考行為自發率達80%;視頻推理模型(VideoR1)在長視頻問答任務上,準確率較VLM baseline提升23%。
?視覺生成模型
圖像生成:ImageReward+PPO優化的擴散模型,CLIP對齊分數提升17%,人類偏好率達78%;DDPO方法在Pick-a-Pic基準上,生成質量評分超越PPO 11%。
視頻生成:DanceGRPO優化的視頻模型,時間連貫性指標(FVD)降低30%,動作自然度人類評分提升25%;Phys-AR引入物理獎勵,視頻物理違規率下降40%。
3D生成:DreamCS用輪廓IoU+CLIP獎勵,文本-3D對齊度較基線提升22%;DreamDPO在NeRF模型上,提示保真度超越傳統方法19%。
?統一模型
UniRL用統一獎勵聯合優化生成與理解任務,跨任務遷移能力提升30%,生成-理解不平衡分數控制在5%以內。
VARGPT-v1.1僅優化生成分支,圖像生成FID降低18%,同時保持VQA任務準確率無損失。
?視覺-語言-行動模型
GUI自動化:GUI-R1在跨平臺GUI任務上,操作成功率達85%,較監督基線提升35%;Mobile-R1通過在線RL,多輪任務錯誤率下降50%。
視覺導航:OctoNav-R1在未知環境導航任務上,到達率提升28%;VLN-R1用時間衰減獎勵,軌跡長度縮短30%。
視覺操作:TGRPO在物體重排任務上,成功率達90%,較PPO提升22%;RIPT-VLA通過交互式提示,機器人操作泛化能力提升35%。
?基準與評估驗證:各領域基準數據集(如SEED-Bench-R1、GUI-R1-3K)的實驗表明,三級評估指標能有效區分模型性能(如狀態級KL散度可提前預警策略崩潰),基準數據集的獎勵信號設計可使RL訓練效率提升40%。
1.引言
強化學習(RL)在大型語言模型(LLMs)領域取得了顯著成就(Jaech 等人,2024;Rafailov 等人,2023),其中最著名的便是基于人類反饋的強化學習(RLHF)(Ouyang 等人,2022)以及 DeepSeek-R1(Guo 等人,2025a)等創新框架。這些方法極大地增強了大型語言模型的能力,使生成的輸出更貼合人類偏好,并且實現了僅通過監督學習難以達成的細致、復雜的推理與交互能力。
近年來,受大型語言模型這些顯著成就的啟發,研究人員對將在大型語言模型上驗證有效的強化學習方法擴展到多模態大型模型產生了濃厚興趣,這些多模態模型包括視覺-語言模型(VLM)(Zhou 等人,2025a;Zheng 等人,2025;Zhang 等人,2025g)、視覺-語言-行動模型(VLA)(Lu 等人,2025b;Tan 等人,2025b;Luo 等人,2025;Yuan 等人,2025b)、基于擴散的視覺生成模型(Fan 等人,2023b;Black 等人,2023;Zhou 等人,2025c)以及統一多模態框架(Mao 等人,2025;Wang 等人,2024b;2025a),如圖 1 所示。像 Gemini 2.5(DeepMind,2025)這樣的多模態模型已經利用強化學習來對齊視覺-文本推理過程,生成在語義連貫性和人類判斷一致性方面表現更優的輸出。與此同時,融合視覺、語言與面向行動輸出的視覺-語言-行動模型采用強化學習來優化交互環境中的復雜序列決策過程,在圖形用戶界面(GUI)自動化(Yuan 等人,2025b;Shi 等人,2025)、機器人操作(Lu 等人,2025b)和具身導航(Kim 等人,2025)等任務的專項性能上有了顯著提升。基于擴散的生成模型的快速發展進一步推動了這股由強化學習驅動的創新浪潮。例如 ImageReward(Xu 等人,2023)這類研究引入強化學習來提升生成輸出的語義對齊度和視覺質量,通過從人類偏好或自動獎勵評判器中獲取迭代反饋機制,對基于擴散的生成過程進行優化。此外,將理解和生成等多種任務融合到單一架構中的統一模型(Mao 等人,2025;Jiang 等人,2025b)越來越依賴強化學習驅動的微調,實現了此前被認為難以達成的泛化能力和任務遷移。盡管在將強化學習與多模態大型語言模型融合方面取得了重大進展,但仍存在一些核心挑戰,包括在復雜獎勵信號下穩定策略優化、處理高維度且多樣化的視覺輸入,以及設計支持長時程決策的可擴展獎勵函數。要應對這些挑戰,就需要在算法設計和評估協議兩方面進行方法創新。

在本綜述中,我們全面綜合了近年來在多模態大型模型背景下視覺強化學習的最新進展,重點關注 2024 年以來激增的研究成果。首先,我們回顧了強化學習在語言模型中的基礎性成就,如 RLHF(Ouyang 等人,2022)和 DeepSeek-R1(Guo 等人,2025a),這些成果為多模態模型的適配奠定了基礎。隨后,我們探討了這些方法在視覺領域的演變,并將 200 多篇代表性研究劃分為四個關鍵領域:(i)多模態大型語言模型,(ii)視覺生成,(iii)統一強化學習框架,(iv)視覺-語言-行動智能體,如圖 1 所示。在每個類別中,我們分析了算法公式、獎勵建模和基準測試方法的關鍵進展。最后,我們指出了當前存在的開放挑戰和未來發展方向,強調需要更高效的多模態推理、針對視覺-語言-行動任務的穩健長時程學習方法,以及為視覺生成量身定制的可擴展、高保真度獎勵信號。通過這份全面的綜述,我們為視覺強化學習提供了一個結構化的概覽,以支持該快速發展領域的未來研究和實際部署。
我們的主要貢獻如下:
? 對 200 多項視覺強化學習研究進行了系統且最新的綜述,涵蓋多模態大型語言模型、視覺生成、統一模型和視覺-語言-行動智能體等領域。
? 分析了各子領域在策略優化、獎勵建模和基準測試方面的進展,揭示了關鍵挑戰和未來方向,例如視覺生成中的獎勵設計以及推理和視覺-語言-行動任務中中間監督的缺失問題。
? 基于指標粒度和獎勵監督,提出了一種規范的視覺強化學習方法分類體系,包括三種圖像生成獎勵范式。該框架闡明了不同領域間的設計權衡,并為選擇和開發強化學習策略提供了切實可行的見解。
表 1:視覺強化學習符號術語表。該表匯總了第 2.1-2.3 節中反復出現的符號,最右側一列標注了每個符號的出現位置。

2.預備知識:大型語言模型中的強化學習
本節為多模態模型的強化學習奠定基礎。首先,我們對符號進行形式化定義(第 2.1 節),將文本和圖像生成轉化為馬爾可夫決策過程。接著,我們探討三種對齊范式(第 2.2 節):基于人類反饋的強化學習(RLHF)、組相對策略優化(GRPO)和帶可驗證獎勵的強化學習(RLVR),每種范式都通過人類偏好或確定性檢查來對齊策略。最后,第 2.3 節回顧核心的策略梯度方法(PPO、GRPO)及其在視覺推理和生成中的適配。

2.1 符號與問題形式化
我們將文本或圖像生成視為一個 episodic( episodic 指在強化學習中,智能體的交互過程被劃分為一系列獨立的“情節”或“片段”,每個情節從初始狀態開始,經過一系列動作后到達終止狀態,且不同情節之間相互獨立 )馬爾可夫決策過程。將用戶提示 視為初始狀態 。在時間步 ,狀態由提示以及所有之前生成的動作構成:
續接序列是完整的動作序列 ,其中每個令牌 是從策略中自回歸采樣得到的:
簡而言之,提示確定了狀態序列的基礎,每一個新動作的選擇都依賴于該提示以及已生成的令牌。
固定的參考模型(例如監督微調檢查點)記為 。人類偏好被提煉為標量獎勵模型 ,以此替代未知環境帶來的獎勵。我們用 表示新策略與行為策略之間的重要性比率。 用于表示優勢估計。近鄰策略優化(PPO)通過學習到的評判器 來降低 的方差,而組相對策略優化(GRPO)則用共享同一提示的一組續接序列計算得到的組相對基線來替代評判器。這兩種算法都會添加 KL 正則項 ,并通過權重 來約束更新后的策略與參考策略的接近程度。除非另有說明,否則期望 是對來自分布 的提示 以及從指定策略中采樣的續接序列取期望。
2.2 對齊范式
2.2.1 基于人類反饋的強化學習
基于人類反饋的強化學習(RLHF)(Ouyang 等人,2022)在底層馬爾可夫決策過程的基礎上,融入了由人類標注者整理的成對偏好數據。每個偏好樣本是一個三元組 ,其中 是提示(或狀態序列), 是兩個候選續接序列(軌跡、圖像等);標簽 記錄了哪個續接序列更受偏好,如圖 2 所示。

獎勵模型學習:訓練標量獎勵模型 ,通過布拉德利-特里(Bradley-Terry)似然函數來復現成對偏好的排序關系:其中 是邏輯斯蒂函數。收斂后, 可作為人類偏好的密集且可微的代理指標。
策略優化:最終,通過最大化以下三項來對策略 進行微調:(i)學習到的獎勵,(ii)使策略貼近監督微調基線 的 KL 懲罰項,(iii)可選的、基于原始預訓練分布的對數似然正則項(該正則項在 InstructGPT(Ouyang 等人,2022)中提出):獎勵監督微調錨定預訓練對數似然
在實際應用中,前兩項通過對采樣續接序列的小批量數據進行 KL 正則化的近鄰策略優化(PPO)來優化,而第三項則通過添加預訓練梯度(Ouyang 等人,2022 中的“PPO-ptx”)來減輕在原始語料庫上的性能退化。
三階段流程:大多數現代基于人類反饋的強化學習(RLHF)流程都遵循圖 2(a)所示的三階段流程。步驟 1:收集演示數據,并訓練監督策略;步驟 2:收集比較數據,并訓練獎勵模型;步驟 3:使用近鄰策略優化(PPO),根據獎勵模型對策略 進行優化。該范式由 Christiano 等人(Christiano 等人,2017)首創,他們通過成對的人類偏好來訓練雅達利(Atari)游戲智能體和機器人智能體。后來,Ouyang 等人(Ouyang 等人,2022)將偏好建模與近鄰策略優化(PPO)相結合,將該流程擴展到大型語言模型(InstructGPT)。在視覺領域,ImageReward(Xu 等人,2023)和人類偏好分數(HPS)(Wu 等人,2023b)等獎勵模型提供密集的美學信號,指導文本到圖像的擴散過程及相關任務。
2.2.2 直接偏好優化
直接偏好優化(DPO)(Rafailov 等人,2023)使用與基于人類反饋的強化學習(RLHF)完全相同的成對偏好數據,但省去了中間的獎勵模型和強化學習循環。相反,它推導出一個閉式的監督目標函數,該函數通過對凍結的參考策略 施加隱式的 KL 約束來實現策略對齊,如圖 2(b)所示。
閉式目標函數:對于每個提示 ,標注者會對兩個續接序列 進行排序,確定 為更受偏好的續接序列(“勝者”), 為較不受偏好的續接序列(“敗者”)。因此,數據集由三元組 構成。設 為凍結的參考策略(例如監督微調檢查點), 為溫度超參數。直接偏好優化(DPO)最小化以下目標函數:其中,對數優勢差為:
邏輯斯蒂函數 將該差值轉化為二分類損失;訓練過程采用標準的最大似然梯度下降,無需獎勵模型、價值網絡或重要性采樣。
2.2.3 帶可驗證獎勵的強化學習
帶可驗證獎勵的強化學習(RLVR)摒棄了基于人類反饋的強化學習(RLHF)的主觀性和數據收集成本,將成對的人類偏好替換為確定性的、可通過程序檢查的獎勵信號 。典型示例包括代碼生成的通過/失敗單元測試、數學問題中的精確匹配答案、分割任務中的交并比(IoU)/Dice 系數閾值,或形式化的輸出格式驗證器(例如力扣(LeetCode)編譯器)。由于獎勵是通過執行或指標評估在線生成的,帶可驗證獎勵的強化學習(RLVR)既省去了基于人類反饋的強化學習(RLHF)中的獎勵模型訓練階段(i),也省去了直接偏好優化(DPO)中的對比代理損失(ii),同時仍能實現比監督學習更顯著的策略改進(Guo 等人,2025a;Shao 等人,2024b;Lambert 等人,2024),如圖 2(c)所示。
可驗證獎勵:對于提示(狀態) 和采樣到的續接序列 ,驗證器返回:例如,若生成的程序通過所有隱藏測試,則返回“通過”()。這一思路同樣適用于視覺領域:若生成的掩碼與真值的交并比(IoU)≥0.9,或某圖像的 CLIP 相似度超過設定的硬閾值,則可給予 的獎勵。目前,大多數帶可驗證獎勵的強化學習(RLVR)系統(如 DeepSeekMath、DeepSeek-R1)采用組相對策略優化(GRPO)(Shao 等人,2024b)(見公式 12)和標準的 KL 正則化來訓練策略模型。
因此,帶可驗證獎勵的強化學習(RLVR)遵循簡潔的兩階段流程。步驟 1:在演示數據 上進行監督策略預訓練,得到初始的 。步驟 2:使用組相對策略優化(GRPO)/近鄰策略優化(PPO),根據實時可驗證獎勵 對策略進行強化學習微調,可選地混入少量教師強制的監督微調更新以穩定訓練過程。
2.3 策略優化算法
2.3.1 近鄰策略優化

近鄰策略優化(PPO)(Schulman 等人,2017)是一種一階信賴域方法,在每一步更新策略 時,都會確保其與之前的策略 保持較近的距離,如圖 3(a)所示。在文本或圖像生成問題中,我們將提示 視為初始狀態 ,將續接序列 視為軌跡。定義重要性采樣比率 和即時獎勵 :
?重要性采樣比率:該比率用于對從行為策略到更新后策略的梯度估計進行重加權。
?即時獎勵:,由預先訓練好的、用于近似人類偏好的凍結獎勵模型 提供。
?價值基線:,由學習到的價值網絡 生成,該網絡用于回歸從狀態 出發的期望折扣回報。
結合策略模型與參考模型之間的 KL 正則化獎勵,可定義 為:其中,KL 項(后一項)用于防止更新后的策略 與凍結的參考策略 偏離過大。 用于平衡探索(通過與凍結參考模型 的 KL 接近程度實現)和對獎勵模型的利用。 值越大,意味著對接近程度的約束越嚴格,學習過程越安全,但速度可能越慢。隨后,廣義優勢估計(GAE)(Schulman 等人,2015)生成 :其中,GAE 通過對多步獎勵估計進行指數加權來計算優勢值,在低方差學習和高方差蒙特卡洛回報之間實現平滑權衡。
近鄰策略優化(PPO)所要最大化的代理目標函數為:其中,超參數 控制信賴域的寬度。因此,準確且低方差的 估計至關重要,它們指導著每一次策略更新,并最終決定近鄰策略優化(PPO)的穩定性和樣本效率。
2.3.2 組相對策略優化
組相對策略優化(GRPO)(Shao 等人,2024b)是對近鄰策略優化(PPO)的擴展,它摒棄了學習到的價值(評判器)網絡,轉而使用從同一提示采樣的多個輸出生成的組相對基線。這種設計在顯著降低內存消耗的同時,使優勢估計器與基于比較的獎勵模型保持一致,如圖 3(b)所示。
組相對基線:對于每個提示 ,我們從 中采樣一組包含 個完整續接序列的集合 ,其中每個續接序列 是按時間步 索引的令牌序列。隨后,凍結的獎勵模型 會根據提示為每個令牌 分配一個標量分數。然后,對這些序列級獎勵在組內進行歸一化,以計算組相對優勢信號:其中, 和 分別表示用于計算組相對優勢的均值和標準差函數。同一個 會被用于續接序列中的每個令牌 ,從而生成裁剪代理目標函數:其中,。顯式的 KL 懲罰項 用于使 保持在參考策略 附近,而組相對優勢 則替代了價值基線 ,這在大致將內存和計算量減少一半的同時,仍能保留低方差的學習信號。
提示級 KL 估計器:與近鄰策略優化(PPO)通過 將令牌級懲罰融入獎勵的方式不同,組相對策略優化(GRPO)添加了一個獨立的提示級正則項。利用采樣得到的 個續接序列,我們構建一個無偏的令牌平均估計器:該估計器用于衡量當前策略在整個續接序列上與凍結參考策略 的偏離程度。與公式(10)中的近鄰策略優化(PPO)相比,組相對策略優化(GRPO)有兩項關鍵改進:1)移除了價值(評判器)網絡。通過組相對基線實現方差降低,從而減少內存占用和超參數數量。2)分離了 KL 損失通道。KL 散度作為顯式正則項進行優化,而非融入優勢中,使得獎勵最大化與參考錨定之間的權衡更加透明。

圖 4:視覺領域強化學習研究的整體分類。該圖按高級領域(多模態大型語言模型、視覺生成、統一模型和視覺-語言-行動智能體)對現有研究進行分組,然后進一步按更細致的任務分類,并列出了每個分支的代表性論文。
3.視覺領域的強化學習
3.1 多模態大型語言模型
我們將相關研究分為四個連貫的類別,每個類別都由共同的強化學習驅動目標和內部推理機制定義。

3.1.1 傳統基于強化學習的多模態大型語言模型
我們將傳統基于強化學習的多模態大型語言模型定義為:主要應用強化學習使視覺-語言骨干網絡與可驗證的任務級獎勵對齊,而不明確建模多步思維鏈推理的方法。典型研究如 RePIC(Oh 等人,2025)、GoalLadder(Zakharov 和 Whiteson,2025)、Drive-R1(Li 等人,2025e)和 VLM-R1(Shen 等人,2025b),它們用確定性驗證器(如精確匹配、交并比(IoU)、BLEU 分數)替代偏好模型,并在 KL 正則化約束下,通過組相對策略優化(GRPO)/近鄰策略優化(PPO)變體對策略進行優化。這種設計實現了穩定的無價值網絡訓練,提高了在圖像描述、目標定位和自動駕駛基準測試中的零樣本魯棒性,并大幅降低了監督微調通常所需的標注成本。
近期的擴展研究展示了該范式的靈活性。GRPO-CARE(Chen 等人,2025b)引入了一致性感知組歸一化,以減輕獎勵方差;Q-Ponder(Cai 等人,2025c)則添加了一個思考控制器。在數據層面,MoDoMoDo 提出了多領域混合優化方法,該方法可預測獎勵分布并選擇最優課程(Liang 等人,2025);V-Triune 進一步在單一三目標流程中統一了感知和推理任務,通過實驗驗證了基于規則的強化學習可擴展到多樣化的視覺信號(Ma 等人,2025)。這些研究共同表明:(i)可驗證獎勵可作為人類反饋的低成本替代方案;(ii)在異質視覺任務中,組相對目標比令牌級近鄰策略優化(PPO)具有更高的訓練穩定性;(iii)課程學習或數據混合調度正成為實現廣泛泛化的關鍵因素。
3.1.2 空間與 3D 感知
2D 感知:以感知為核心的研究通過強化學習提升目標檢測、分割和定位能力,而無需進行冗長的思維鏈推理。Omni-R1(Zhong 等人,2025)引入了一種雙系統(全局-局部)組相對策略優化(GRPO)流程,通過基于規則的指標驗證預測結果,在區域級基準測試和情感識別任務中取得了顯著改進。DIP-R1(Park 等人,2025b)進一步將感知分解為逐步的“檢查→觀察→行動”循環,每個階段都通過確定性的交并比(IoU)或計數獎勵來提升細粒度檢測性能。Perception-R1(Yu 等人,2025)重新研究了組相對策略優化(GRPO)在一系列檢測和光學字符識別(OCR)數據集上的效果。作為補充,VisRL(Chen 等人,2025h)將意圖引導的焦點選擇構建為強化學習子策略,無需昂貴的區域標簽,且在視覺定位任務上持續優于監督學習強基線。
3D 感知:除 2D 領域外,多項研究利用強化學習使多模態模型與物理一致的 3D 布局對齊。MetaSpatial(Pan 和 Liu,2025)采用渲染深度/交并比(IoU)獎勵來優化增強現實(AR)/虛擬現實(VR)場景生成的空間推理能力;Scene-R1(Yuan 等人,2025c)則將視頻錨定片段選擇與兩階段定位策略相結合,在無需點級監督的情況下學習 3D 場景結構。在分子尺度上,BindGPT(Zholus 等人,2025)將原子放置視為序列動作,并使用結合親和力估計器作為可驗證獎勵,證明了以感知為重點的強化學習可擴展到 3D 生化設計領域。這些方法共同體現了一種通用方案:(i)將檢測/分割/3D 對齊構建為馬爾可夫決策問題;(ii)設計確定性空間獎勵(如交并比(IoU)、深度一致性、結合能);(iii)通過組相對策略優化(GRPO)/近鄰策略優化(PPO)對預訓練的視覺-語言模型(VLM)骨干網絡進行微調,以穩定提升感知能力——這使其有別于面向推理的強化學習變體。
3.1.3 圖像推理
“思考圖像”(Thinking about Images)類方法通過在生成答案前用語言描述靜態圖像的觀察結果來增強多模態推理能力,但在推理過程中不會修改視覺內容本身。與之相反,“結合圖像思考”(Thinking with Images)類方法將圖像提升為主動的外部工作空間:模型在思維鏈中迭代生成、裁剪、高亮顯示或插入明確的視覺標注作為令牌,從而使語言邏輯與基于視覺證據的推理保持一致。
思考圖像(Think about Image):早期針對空間視覺問答(VQA)的“思考圖像”類研究采用視圖一致性或變換不變性目標,例如 SVQA-R1(Wang 和 Ling,2025)和 STAR-R1(Li 等人,2025g)。VL-GenRM(Zhang 等人,2025d)和 RACRO(Gou 等人,2025)通過優化偏好數據或圖像描述獎勵來抑制幻覺現象。面向基準測試的研究(如 EasyARC(Unsal 和 Akkus,2025))提供了程序生成的、完全可驗證的任務,適用于基于結果的強化學習。為減輕對捷徑的依賴并提高泛化能力,Visionary-R1(Xia 等人,2025)在推理前強制模型進行圖像解讀;UniVG-R1(Bai 等人,2025)則通過結合定位語料庫與組相對策略優化(GRPO)微調,統一了目標指代、圖像描述和檢測任務。EchoInk-R1(Xing 等人,2025)等擴展研究通過在組相對策略優化(GRPO)優化下整合音視頻同步,進一步豐富了視覺推理。同時,基于課程學習的框架(WeThink、G1、GThinker、Observe-R1)通過逐步增加任務復雜度或引入重新思考提示(如難度階梯、多模態格式約束),培養多模態大型語言模型(MLLMs)更深入、更結構化的推理能力。這些方法表明,結合精心設計的視覺正確性獎勵的純語言強化學習,能顯著提高模型的準確性、魯棒性和分布外泛化性能。
結合圖像思考(Think with Image):早期的“結合圖像思考”類研究通過離散的區域級操作實現推理接地:GRIT(Fan 等人,2025)將邊界框令牌與語言交織,并在組相對策略優化(GRPO)下訓練,以同時最大化答案正確性和邊界框保真度;VILASR(Wu 等人,2025a)將這一思路擴展到多視圖和視頻場景,強制跨視圖空間一致性。Ground-R1(Cao 等人,2025)和 BRPO(Chu 等人,2025)采用兩階段流程,先通過交并比(IoU)或反射獎勵高亮顯示證據區域,再進行語言推理。另一條研究路線探索像素空間或序列級操作:Visual Planning(Xu 等人,2025b)用想象的圖像推演替代文本鏈,通過下游任務的成功與否作為獎勵;Pixel Reasoner(Su 等人,2025a)在動作空間中加入裁剪、擦除和繪制原語,并通過好奇心驅動的獎勵平衡探索過程;DeepEyes(Zheng 等人,2025)則證明端到端強化學習可自發誘導此類視覺思考行為。最后,TACO(Kan 等人,2025)引入了“思考-答案一致性”目標,對較長的視覺-語言鏈進行重采樣,直到其中間編輯與最終答案對齊。這些系統共同表明,在推理過程中顯式生成或編輯視覺人工制品,并通過組相對策略優化(GRPO)或 R1 風格的結果強化學習進行優化,比純語言方法能實現更可靠、更具可解釋性和魯棒性的圖像理解。
3.1.4 視頻推理
視頻推理將多模態大型語言模型(MLLMs)的能力擴展到處理時間動態,不僅需要空間感知,還需具備序列理解和因果推理能力。該領域的近期研究提出了多種方法來應對視頻輸入的復雜推理挑戰。例如,VQ-Insight(Zhang 等人,2025h)針對長視頻問答過程,設計了分層獎勵機制和自一致性投票策略。TW-GRPO(Dang 等人,2025)將令牌級信用分配與組相對策略優化(GRPO)風格的優化相結合,以改進文本推理與視頻證據之間的細粒度時間對齊。同時,已有多種 R1 風格的框架被開發出來,以解鎖復雜真實場景或第一視角場景下的視頻理解能力。EgoVLM(Vinod 等人,2025)和 VAU-R1(Zhu 等人,2025b)專注于第一視角視頻推理,結合視覺記憶和基于效用的獎勵。DeepVideo-R(Park 等人,2025a)整合密集視頻編碼和外部獎勵函數,以監督長時程推理。TimeMaster(Zhang 等人,2025e)通過課程學習顯式構建時間抽象和推理結構;VideoR1(Feng 等人,2025)則為跨多個領域的基于視頻的問答任務提出了可擴展的強化學習框架。這些研究共同強調了通過強化學習使時間表示與語言軌跡對齊的重要性,為構建穩健且泛化能力強的視頻推理智能體奠定了基礎。
3.2 視覺生成
3.2.1 圖像生成
用于圖像生成模型的強化學習在動作空間(連續擴散步驟或提示優化)和獎勵設計上均有別于語言領域的強化學習,其獎勵需同時捕捉感知質量、文本-圖像對齊度和主體保真度。第一類方法學習顯式的視覺獎勵模型:ImageReward(Xu 等人,2023)提供人類偏好分數,驅動 DiffPPO(Xiao 等人,2024)、Dpok(Fan 等人,2023a)和 FocusDiff(Pan 等人,2025)中擴散骨干網絡的策略梯度微調。第二類方法繞過獎勵建模,直接優化成對或單一樣本偏好:DDPO(Black 等人,2023)、DiffusionDPO(Wallace 等人,2024)、Diffusion-KTO(Li 等人,2024b)和 DiffusionRPO(Gu 等人,2024)將去噪軌跡視為馬爾可夫決策過程(MDP),并應用 R1/組相對策略優化(GRPO)更新以最大化人類比較反饋。除對齊之外,PrefPaint(Liu 等人,2024a)、Parrot(Lee 等人,2024)和 RLRF(Rodriguez 等人,2025b)等研究設計多目標或渲染比較獎勵,以優化美學效果、多樣性或矢量圖形質量。強化學習還被用于注入推理和提示適配能力:ReasonGen-R1(Zhang 等人,2025i)、GoT-R1(Duan 等人,2025)和 RePrompt(Wu 等人,2025b)先生成文本規劃或優化后的提示,再通過強化學習訓練生成器以實現連貫的場景合成。最后,個性化方法(DPG-T2I(Wei 等人,2024)、RPO(Miao 等人,2024a)、B2-DiffuRL(Hu 等人,2025a))優化獎勵以在參考圖像稀缺的情況下衡量主體保真度。這些研究共同表明,結合感知或偏好獎勵的強化學習,能夠引導擴散模型實現更高的真實感、更強的提示忠誠度、可控的布局以及用戶特定的外觀生成能力,而這些能力是單純的似然訓練難以實現的。

3.2.2 視頻生成
將強化學習應用于視頻生成面臨圖像生成中不存在的挑戰:獎勵需捕捉時間連貫性、運動自然度以及跨數百幀的文本-視頻對齊度。早期研究(如 InstructVideo(Yuan 等人,2024))復用圖像評分器,并應用近鄰策略優化(PPO)優化短片段;而 VideoRM(Wu 等人,2024)和 VideoReward(Liu 等人,2025b)則學習專門的偏好模型,對整個序列的平滑度、一致性和提示忠誠度進行評分。基于組相對策略優化(GRPO)/R1,DanceGRPO(Xue 等人,2025)表明,組歸一化回報能穩定長時程優化,并在擴散和流骨干網絡上同時提升美學和對齊分數。
除偏好對齊外,專用獎勵還可應對特定領域目標。GAPO(Zhu 等人,2025a)利用間隙感知排序微調動漫視頻;Phys-AR(Lin 等人,2025)通過懲罰物理定律違背來生成合理軌跡;InfLVG(Fang 等人,2025)訓練推理時策略,僅保留對多場景連貫性有益的上下文令牌。輔助評判器進一步促進訓練:VideoScore(He 等人,2024b)和 Gradeo(Mou 等人,2025)提供可解釋的多因素評分;TeViR(Chen 等人,2025d)則將想象的視頻推演作為密集獎勵提供給下游控制智能體。這些研究共同表明,精心設計的序列級獎勵和組相對策略更新是生成時間連貫、語義對齊且物理合理的視頻的關鍵,而這些能力是單純的似然訓練難以實現的。
3.2.3 3D 生成
用于 3D 生成的強化學習與 2D 和視頻任務不同,其獎勵作用于體素結構或渲染視圖,通常需要昂貴的渲染-比較循環。DreamCS(Zou 等人,2025)開創了這一范式,將文本到網格合構造成馬爾可夫決策過程(MDP):擴散骨干網絡生成粗略形狀,然后策略在獎勵(聯合衡量輪廓交并比(IoU)、CLIP 文本-網格對齊度和網格平滑度)引導下優化頂點位置。在獎勵方面,DreamReward(Ye 等人,2024)構建了大規模 3D 資產人類偏好數據集,并訓練幾何感知評判器,對提示、渲染結果和潛在符號距離函數(SDF)進行評分;該學習信號支持對現有文本到形狀模型進行穩定的近鄰策略優化(PPO)微調。
另一條研究路線采用直接偏好優化。DreamDPO(Zhou 等人,2025c)將直接偏好優化(DPO)擴展到神經輻射場(NeRF)和網格擴散模型,通過采樣成對 3D 輸出并最大化人類比較確定的邊際,在無需顯式價值網絡的情況下實現更優的提示保真度。最后,Nabla-R2D3(Liu 等人,2025d)致力于交互式場景編輯:智能體通過添加、刪除或變換 3D 場景中的物體來執行序列動作;獎勵通過實時光柵化視圖和任務特定驗證器(如占用率、空間關系)計算。組相對策略優化(R2D3)在反饋稀疏的情況下仍能穩定訓練。這些研究共同表明,結合幾何感知或基于渲染的獎勵的強化學習,為控制 3D 領域中的結構完整性、文本對齊和交互式可編輯性提供了有效機制,而這些能力是標準似然或分數蒸餾目標難以實現的。
3.3 統一模型
任務特定強化學習最大化與單一目標相關的獎勵,而統一強化學習則在多個視覺-語言任務(如理解和生成)間優化共享策略和獎勵。
3.3.1 統一強化學習
與針對單一下游目標設計強化學習的任務特定流程不同,統一強化學習方法在單一強化信號下,跨異質多模態任務優化共享策略。其核心思想是將理解和生成軌跡合并到同一個訓練循環中,通常采用組相對或 R1 風格的方法。
UniRL(Mao 等人,2025)是該范式的典型代表:首先對視覺自回歸骨干網絡進行指令微調,然后在視覺問答(VQA)、圖像描述和圖像生成任務上聯合微調,使用融合文本正確性、CLIP 對齊度和美學質量的混合獎勵。CoRL(Jiang 等人,2025b)進一步推進這一思路,在同一組相對策略優化(GRPO)步驟中交替“協同理解”和“協同生成”批次。為解決密集令牌空間中的效率問題,SelfTok(Wang 等人,2025a)將多模態動作離散化為自進化令牌集,并證明單個強化學習頭可在添加極少額外參數的情況下控制檢索、定位和合成任務。最后,HermesFlow(Yang 等人,2025c)將自回歸文本模塊與修正流圖像解碼器在跨任務獎勵下結合,表明擴散風格和語言風格的策略可通過統一強化更新實現協調。這些研究共同表明,跨任務共享統一強化學習目標不僅降低訓練成本,還能促進孤立的任務特定微調無法實現的跨模態泛化能力。
3.3.2 任務特定強化學習
與第 3.3.1 節的統一方法不同,任務特定強化學習將獎勵信號限定于單一下游目標,僅優化一個功能頭,而不影響其他能力。VARGPT-v1.1(Zhuang 等人,2025)是該策略的典型示例:盡管其底層視覺自回歸模型可同時處理理解和生成任務,但其強化學習階段僅針對視覺生成任務采用直接偏好優化(DPO)。類似地,Emu3(Wang 等人,2024b)僅在其圖像生成分支引入強化學習,利用成對人類偏好進行優化;而對于模型的多模態理解能力(如圖像描述、視覺問答(VQA)),則僅通過任務特定微調進行訓練。
3.4 視覺-語言-行動模型
3.4.1 圖形用戶界面自動化
現代圖形用戶界面(GUI)強化學習研究將屏幕理解和動作預測構建為視覺-語言決策過程,然后采用基于規則或偏好的獎勵來閉合感知-行動循環。在桌面和網頁界面上,GUI-R1(Luo 等人,2025)引入 R1 風格規則集,將點擊成功、文本輸入和滾動有效性映射為密集獎勵。UI-R1(Lu 等人,2025)添加帶有新穎動作特定 KL 項的組相對策略優化(GRPO),以穩定長時程規劃;SE-GUI(Yuan 等人,2025b)應用自進化過濾來提煉高保真軌跡。針對軌跡復用,UIShift(Gao 等人,2025b)構建逆動力學目標,使多模態大型語言模型(MLLM)能從未標注圖形用戶界面(GUI)對中學習動作,再通過強化學習優化。互補的基于偏好的框架包括:LPO(Tang 等人,2025)通過獎勵空間接近度實現精確點擊;ProgRM(Zhang 等人,2025b)注入程序級邏輯檢查;RUIG(Zhang 等人,2023)利用帶有強化信號的指令接地。工具特定基線(如 Ui-tars(Qin 等人,2025))提供更大的動作詞匯表,但仍依賴規則驅動的強化學習實現穩健執行。
移動場景引入延遲和設備端約束。AgentCPM-GUI(Zhang 等人,2025j)壓縮動作空間并進行組相對策略優化(GRPO)微調。MobileGUI-RL(Shi 等人,2025)通過在線強化學習和任務級獎勵推進該路線,以在內存有限的情況下改進探索;Mobile-R1(Gu 等人,2025)將交互式多輪強化學習擴展到長任務中的錯誤級聯修正。在推理階段,GTA1(Yang 等人,2025e)采樣多個動作候選,并采用評判模型選擇最優動作,通過犧牲計算資源換取更高成功率。此外,Appvlm(Papoudakis 等人,2025)等輕量級模型表明,經過組相對策略優化(GRPO)微調的中等規模多模態大型語言模型(MLLM),可實現具有競爭力的智能手機應用控制精度。為自適應縮短思考長度,TON(Wang 等人,2025b)在監督微調階段提出“思考丟棄”(thought-dropout)方案,隨后通過組相對策略優化(GRPO)自適應跳過不必要的推理過程,以實現高效思考。
這些研究共同表明,圖形用戶界面(GUI)智能體可從規則可驗證獎勵、組歸一化策略更新和偏好引導定位中獲益,在實現可靠的跨平臺自動化方面取得了快速進展。
3.4.2 視覺導航
基于強化學習的視覺導航研究目前將大型視覺-語言模型與具身控制相結合,采用組歸一化或時間衰減回報來維持長時程穩定性。OctoNav-R1(Gao 等人,2025a)利用帶有“行動前思考”能力的混合強化學習流程構建視覺-語言-行動(VLA)模型,然后將第一視角幀轉換為低級動作。針對數據集效率,VLN-R1(Qi 等人,2025)構建端到端導航器,并引入時間衰減獎勵處理連續軌跡。在系統層面,Flare(Hu 等人,2024a)表明,在模擬環境中通過大規模強化學習微調多任務機器人策略,可泛化到真實世界家庭任務。補充進展包括:More(Zhao 等人,2025)通過內存引導策略蒸餾增強全向輸入;RAPID(Kim 等人,2025)整合姿態先驗以加速未知布局中的收斂。這些研究表明,將時間獎勵、內存采樣和環境先驗與組相對策略優化(GRPO)/近鄰策略優化(PPO)結合,有助于視覺-語言-行動(VLA)智能體更可靠、高效地導航。
3.4.3 視覺操作
視覺操作任務(如物體重定位、工具使用和多步重排)需要細粒度感知和長時程規劃。近期研究(Chen 等人,2025g;Shu 等人,2025)將強化學習與視覺-語言模型整合,以提升泛化能力、交互性和策略一致性。TGRPO(Chen 等人,2025g)引入任務接地獎勵公式和組歸一化更新,以穩定開放式物體操作的訓練。RFTF(Shu 等人,2025)應用基于規則的獎勵支持交互式桌面任務,并強調在極少人類監督下進行訓練。同時,RLVLA(Liu 等人,2025c)和 VLA-RL(Lu 等人,2025b)探索基于課程或漸進式的強化學習方法,用于基于視覺-語言模型(VLM)的機器人智能體,在多樣的重排環境中實現高成功率。
在此基礎上,ConRFT(Chen 等人,2025e)和 iRe-VLA(Guo 等人,2025b)分別引入一致性感知和指令優化策略,利用強化學習使視覺預測與物理交互結果對齊。RIPT-VLA 專注于操作過程中的交互式提示,通過強化反饋連接大型語言模型(LLM)規劃與低級控制(Tan 等人,2025b)。最后,ReinBot(Zhang 等人,2025c)利用多模態推演和基于偏好的更新,提升真實世界操作的魯棒性(Zhang 等人,2025c)。這些研究共同強調了視覺-語言推理、結構化獎勵設計和基于強化學習的優化在推進復雜語言條件下具身操作中的作用。

圖 6:視覺強化學習中的指標粒度。(a)集合級指標 :對整個提示集合的單一分數,用于最終評估(如 FID)。(b)樣本級指標 :用于訓練策略的每個輸出獎勵(RLHF、DPO)。(c)狀態級指標 :訓練時信號(如 KL 散度或長度偏移),用于監控穩定性。符號說明:、、 分別表示提示、生成輸出和真值。 和 分別表示初始策略模型和第 步策略模型。 表示獎勵模型。
4.指標與基準測試
評估大型模型視覺強化學習(RL)既需要傳統強化學習指標(Jordan 等人,2020;Agarwal 等人,2021),也需要為復雜開放式輸出設計的新指標。累積回報和任務成功率等指標在涉及智能體和環境的任務中仍有用武之地,但它們正越來越多地與基于偏好的評估相結合。在本節中,我們將討論大型模型強化學習四個主要應用領域的指標和基準測試。
4.1 指標粒度形式化
設 表示固定的提示(輸入)集合,生成策略 為每個提示 生成條件輸出 (文本、圖像、視頻等)。如圖 6 所示,我們將評估分為三個粒度級別:
任務指標 (集合級):如圖 6(a)所示,集合級指標通過比較生成輸出分布 與真值輸出參考集合 ,在整個測試提示集合 上評估生成策略 。當評估函數無需真值輸出(如 CLIPScore(Hessel 等人,2021))時,我們定義:其中 表示應用于每個生成輸出的樣本級獎勵函數。相比之下,許多經典視覺指標(如 IoU(Rezatofighi 等人,2019))依賴參考輸出。對于這類情況,集合級評估定義為:其中每個真值輸出 表示參考集合中的第 個真值。
獎勵/優勢指標 (樣本級):如圖 6(b)所示,獎勵和優勢指標 作用于單個輸入-輸出對粒度,是生成場景中強化學習的核心。給定提示 ,策略 生成樣本 ,隨后通過 為其評分,以計算標量獎勵或優勢信號。該反饋用于通過強化學習(如 PPO(Schulman 等人,2017)、DPO(Rafailov 等人,2023))優化策略。在基于偏好的學習中,樣本級指標通常從人類或 GPT-4 比較中學習(Ouyang 等人,2022;Sun 等人,2023),或通過 CLIPScore(Hessel 等人,2021)、ImageReward(Xu 等人,2023)等評分模型自動推導。當獎勵依賴參考(如使用 PSNR(Wang 等人,2004)或 IoU(Rezatofighi 等人,2019))時, 會將生成輸出 與真值輸出 進行比較。形式上,獎勵信號可表示為:或具體取決于獎勵模型 是否需要真值輸出。在實際應用中,每個樣本的分數會轉換為逐步優勢 (其中 表示生成步驟)。這些優勢直接驅動策略更新,支持在單個輸出粒度上進行獎勵塑造和探索控制。
狀態級指標 :如圖 6(c)所示,狀態級指標在迭代 時監控當前策略 的訓練動態。常用指標是與凍結參考策略 的KL散度:
其他診斷指標包括自回歸模型的輸出長度偏移以及擴散模型的DDIM步驟軌跡方差。通過在優化過程中跟蹤,研究人員可以在獎勵攻擊、模式崩潰或過度策略偏移等問題影響最終性能之前發現它們。
4.2 多模態大型語言模型的評估
任務指標:如表2所示,多模態大型語言模型(MLLM)首先通過外部無強化學習基準進行評估。MME(Fu等人,2023)、SEED-Bench(Li等人,2024a)和MMBench(Liu等人,2024b)等綜合推理套件,衡量圖像相關的事實問答、常識和多步思維鏈推理能力。特定領域子集則針對光學字符識別(OCR)(如TextVQA(Singh等人,2019))、數學(如MathVista(Lu等人,2023))、文檔(如ChartQA(Lu等人,2023))和多語言定位(如CMMMU(Zhang等人,2024a))等任務進行測試。

獎勵指標:訓練過程中,每個生成答案都會通過樣本級獎勵評分。當前主流的獎勵來源主要有三類。(i)人類偏好獎勵從大型基于人類反饋的強化學習(RLHF)語料庫(如InstructGPT(Ouyang等人,2022)、LLaVA-RLHF(Sun等人,2023))中學習,能提供與用戶判斷高度匹配的密集反饋。(ii)可驗證獎勵適用于存在確定性檢查的子任務,例如CodeRL(Le等人,2022)中的單元測試通過率,或DeepSeekMath(Shao等人,2024b)中的符號精確性;這類獎勵無噪聲,但適用范圍有限。(iii)模型偏好獎勵用性能更強的凍結評判器(如CriticGPT(McAleese等人,2024))替代人類,可擴展性強,但可能存在偏差。選定的獎勵會轉換為優勢,并通過近鄰策略優化(PPO)、組相對策略優化(GRPO)或直接偏好優化(DPO)進行優化。
模型狀態指標:除外部評分外,研究人員還會在整個強化學習更新過程中跟蹤輕量級診斷指標。目前廣泛采用的兩種輕量級診斷指標為:(i)輸出長度偏移,即答案長度與監督微調(SFT)基線的偏差——較大的偏移預示著模型可能出現冗余表述或重復生成問題(Rafailov等人,2023);(ii)當前策略與凍結監督微調參考策略之間的KL散度,這一指標在InstructGPT(Ouyang等人,2022)中已被采用。
4.3 視覺生成模型的評估
任務指標:如表2所示,最終質量通過標準無強化學習基準評估,這些基準針對不同維度設計。圖像保真度和多樣性通過FID(Fréchet Inception Distance)和Inception Score(IS)衡量;像素級重建任務(如超分辨率、圖像修復)則采用PSNR(峰值信噪比)或SSIM(結構相似性指數)。在提示對齊方面,CLIP Score和Fréchet CLIP Distance量化語義正確性;視頻模型還會額外報告FVD(Fréchet Video Distance)或Video IS,以捕捉時間連貫性。
獎勵指標:在強化學習微調過程中,每個生成的圖像或視頻都會通過樣本級獎勵評分。ImageReward(Xu等人,2023)和HPS(人類偏好分數)(Wu等人,2023b)等人類偏好獎勵提供與美學吸引力高度相關的密集信號。當存在確定性檢查器時,研究人員會采用可驗證獎勵:例如MotionPrompt(Nam等人,2025)和DSPO(Cai等人,2025b)使用光流、目標掩碼等無需人工參與即可評估的指標。第三種途徑依賴模型偏好獎勵,即通過性能更強的凍結評判器(如VideoPrefer(Wu等人,2024)或PARM(Zhang等人,2025f))對樣本評分,從而實現可擴展的直接偏好優化(DPO)/近鄰策略優化(PPO)訓練。
模型狀態指標:有兩種輕量級診斷指標可用于跟蹤訓練穩定性。(i)去噪軌跡統計:VARD(Dai等人,2025)和Inversion-DPO(Li等人,2025f)記錄每一步的噪聲預測或DDIM軌跡;異常峰值可反映早期崩潰問題。(ii)當前擴散策略與其凍結基礎模型()之間的KL散度,該指標在DDPO(Black等人,2023)中得到推廣,并在VARD中進一步應用。
4.4 統一模型的評估
任務指標:目前廣泛采用兩類基準測試。GenEval(Ghosh等人,2023)、DPG-Bench(Hu等人,2024b)和ParaPrompts(Wu等人,2025d)等面向生成的任務指標,重點關注提示忠實度生成,測試多目標組合、風格控制和長描述遵循能力。相反,MME(Fu等人,2023)、POPE(Li等人,2023)等面向理解的任務指標,在同一骨干網絡上衡量定位、推理和幻覺檢測能力。
獎勵指標:近期研究針對訓練信號探索了兩種設計思路。統一獎勵(如UniRL(Mao等人,2025)、CoRL(Jiang等人,2025b))將文本正確性、CLIP對齊度、美學質量等多個目標融合為單一標量,驅動跨任務共享策略的優化。與之相反,任務特定獎勵將生成頭和理解頭分開,僅對生成分支應用強化學習,例如Vargpt-v1.1(Zhuang等人,2025)或Emu3(Wang等人,2024b)。前者有助于促進跨模態遷移,后者則能保持感知模塊的穩定性。
模型狀態指標:統一模型在強化學習過程中還需跟蹤細粒度診斷指標。UniRL(Mao等人,2025)提出“生成-理解不平衡分數”——即兩類任務批次級獎勵的絕對差距,以防止某一模態在更新中占據主導地位。HermesFlow(Yang等人,2025c)則監控當前共享策略與其監督基線在生成和理解提示上的KL散度,將其作為策略崩潰的早期預警信號。這些狀態級曲線能幫助研究人員在外部任務評分下降前停止訓練或重新調整權重。
4.5 視覺-語言-行動模型的評估
任務指標:在圖形用戶界面(GUI)自動化任務中,存在多種基準測試,可分為離線和在線場景。在離線場景中,主要包括定位和導航任務。對于定位任務,主要檢查點擊動作是否落在目標按鈕區域;對于導航任務,要求模型根據已知的歷史記錄預測當前動作,這主要取決于每一步動作類別(點擊或輸入)的預測準確性。在線場景的挑戰性更大,因為它要求模型完整執行多步驟流程,然后檢查最終結果是否滿足任務要求。這種長流程設置會導致模型評估信號稀疏。
獎勵指標:在獎勵建模方面,大多數離線強化學習方法借鑒任務指標(如交并比(IoU))作為獎勵;而在在線環境中,由于任務成功率信號稀疏,端到端多輪強化學習訓練面臨重大挑戰(Lu等人,2025a),即訓練效率低、信息量不足。為解決這一問題,研究人員提出了步驟級獎勵,例如開發獎勵模型或評判器模型(Bai等人,2024;Chae等人,2024)。
模型狀態指標:為全面了解模型行為(而非僅關注任務成功率),軌跡長度成為一項重要指標,它能反映模型解決任務的效率。智能體應能以最少步驟完成任務,這對具備高級規劃能力的智能體而言是一項挑戰。
4.6 基準測試
一系列新基準專門支持視覺領域基于強化學習的訓練和評估(見表3)。針對多模態大型語言模型(MLLM),近期數據集聚焦復雜多跳推理和與人類偏好的對齊。例如,SEED-Bench-R1(Chen等人,2025c)構建了一個分層第一視角視頻問答基準,包含5萬個訓練問題和經過人類驗證的驗證集。Long Video RL(Chen等人,2025f)則擴展了長視頻多步推理任務,提供5.2萬個帶詳細推理標注的問答對。另一項近期基準Ego-R1 Bench(Tian等人,2025)專注于超長(長達一周)第一視角視頻;基于強化學習訓練的“工具思維鏈”智能體平均需調用7個連續感知工具才能回答每個查詢,這體現了將逐步推理準確性作為核心挑戰的設計思路。在圖像領域,VisuLogic(Xu等人,2025a)包含1000個精心設計的視覺推理謎題(如空間和邏輯問題),用于評估純視覺中心推理能力,而目前大多數模型在該基準上的表現僅略高于隨機水平。

視覺生成任務的基準主要提供人類偏好數據,作為策略優化的獎勵模型。ImageReward(Xu等人,2023)和HPS v1 & v2(Wu等人,2023b;2023a)等數據集收集文本到圖像輸出的人類排序對,可用于訓練標量獎勵函數對生成結果評分。這類獎勵模型已被用于通過基于人類反饋的強化學習(RLHF)優化文本到圖像擴散模型,使輸出與人類美學偏好對齊。類似地,Pick-a-Pic(Kirstain等人,2023)和VideoReward(Liu等人,2025b)將這一思路擴展到更廣泛的用戶偏好(如運動流暢度、文本對齊度)。部分基準還支持對生成式強化學習智能體的泛化能力進行穩健評估。T2I-CompBench(Huang等人,2023)是一個文本到圖像組合性測試集,要求模型正確處理屬性和目標關系的新組合——這一指標常用于評估基于強化學習訓練的生成器的組合泛化能力。此外,特定領域基準將可驗證成功標準定義為獎勵:StarVector(Rodriguez等人,2025a)提供SVG(可縮放矢量圖形)代碼生成任務及嚴格的形狀匹配獎勵;AnimeReward(Zhu等人,2025a)則通過多維度人類偏好分數(如圖像-視頻連貫性、角色一致性等),針對動畫視頻生成的一致性進行優化。

針對視覺-語言-行動(VLA)智能體,眾多基準提供專家軌跡和模擬環境,以及明確的獎勵信號,用于策略訓練和穩健評估。其中許多基準圍繞圖形用戶界面(GUI)和網頁交互任務設計,這些任務的成功標準可明確衡量。例如,GUI-R1-3K(Luo等人,2025)匯編了3000多個跨Windows、Linux、macOS、Android和網頁平臺的圖形用戶界面操作軌跡,并引入“R1風格”密集獎勵方案,將每個正確動作(如點擊正確按鈕、輸入正確文本、有效滾動)映射為正反饋,為智能體提供多步驟圖形用戶界面任務的逐步強化信號。在此基礎上,SE-GUI(Yuan等人,2025b)精選3000個高質量圖形用戶界面示例,包含接地指令和邊界框標注,用于訓練采用自模仿強化學習策略的智能體。UI-R1(Lu等人,2025)等面向評估的套件定義了一組未見過的任務(如136個涵蓋點擊、滾動、滑動、文本輸入動作的移動圖形用戶界面任務),用于測試所學策略的泛化能力。同時,Mind2Web(Deng等人,2023)等網頁交互基準提供2000個真實網站任務,并以任務完成與否作為二元獎勵。部分數據集強調精確匹配和可復現性:AITZ(Zhang等人,2024b)(基于CoAT推理的Android交互)記錄1.8萬個屏幕-動作對及相應的工具輔助推理過程,并采用精確動作匹配獎勵確保嚴格遵循指令。另一方面,OmniAct(Kapoor等人,2024)和GUICoURS(Chen等人,2024b)等更廣泛的基準則致力于提升智能體在不同領域的通用能力。OmniAct將近1萬個腳本化桌面和網頁任務整合到單一環境中;GUICoURS則融合多模態資源(1000萬個光學字符識別觀測結果、6.7萬個導航演示),涵蓋圖形用戶界面、網頁和聊天界面。這些基準中的獎勵結構經過精心設計(從基于規則的指標到偏好分數),既能指導策略學習,又能反映任務目標,使視覺強化學習智能體能從有意義的反饋中學習,且評估不僅關注任務成功與否,還包括與人類推理的對齊程度以及在復雜長時程決策中的表現。
5.挑戰與未來方向
5.1 高效推理:平衡深度與效率
視覺強化學習中一個反復出現的挑戰是推理校準:過長的視覺或語言思維鏈會導致延遲增加和誤差累積,而過度激進的剪枝則會丟失關鍵線索。我們預見兩個主要研究方向。(i)自適應時程策略:訓練終止評判器,同時優化答案質量和計算成本;基于課程學習的獎勵塑造可逐步懲罰冗余步驟,同時保留信息量高的步驟。(ii)元推理與少樣本自評估:整合輕量級評估器,對部分思維鏈進行評判(如通過凍結視覺-語言模型),并判斷是否需要進一步推理。因此,未來基準測試應同時報告成功率和推理效率指標(平均步驟數、浮點運算次數、延遲),鼓勵開發能以“恰到好處”的推理而非“過度”推理實現高準確性的算法。
5.2 視覺-語言-行動模型中的長時程強化學習
長時程視覺-語言-行動(VLA)智能體需執行數十個原子動作(如點擊、拖動、文本編輯)后,才能獲得最終任務獎勵。現有研究(如OS-World(Abhyankar等人,2025)、ARPO(Lu等人,2025a))因此采用每個點擊動作的稀疏獎勵和任務成功與否的二元標記,但實證結果表明,即使采用組相對策略優化(GRPO),在這種監督方式下性能提升仍有限。未來研究應致力于:(i)發現內在子目標:通過狀態變化檢測或語言條件聚類對軌跡進行分割,然后為子目標完成分配密集獎勵;(ii)學習可用性評判器:訓練對比性視覺-語言模型,評估動作對縮小與語言目標差距的貢獻,在無需人工標注的情況下提供塑造反饋;(iii)分層或選項式強化學習:將提出語義子任務的高級語言規劃器與通過離線強化學習或決策Transformer微調的低級策略相結合;
5.3 面向視覺思考的強化學習
近期視覺規劃相關研究(如Chain-of-Focus(Zhang等人,2025g)、Openthinkimg(Su等人,2025b))均將圖像視為外部工作空間:智能體在生成下一個語言令牌前,可對圖像進行裁剪、繪制、高亮或插入視覺令牌。盡管早期原型依賴監督啟發式方法實現這些空間動作,但向強化學習過渡過程中暴露出四個未解決的問題。(i)動作空間設計:裁剪或涂鴉本質上是連續的(如),但強化學習庫和GPU內存更傾向于小規模離散集合。BRPO(Chu等人,2025)和VRAG-RL(Wang等人,2025f)中提及的混合方案——先學習可微提議策略,再通過策略梯度微調優化坐標——目前仍未得到充分探索。(ii)信用分配:大多數基準僅獎勵最終任務成功(如VILASR(Wu等人,2025a)中的答案正確性);整個視覺思維鏈共享單一稀疏標量獎勵。未來研究應挖掘步驟級代理獎勵,例如裁剪后CLIP相似度的提升、學習信念狀態的熵減等,以支持引導式或分層強化學習。(iii)數據效率:繪制或插入補丁會觸發視覺編碼器的額外前向傳播,導致樸素的在線強化學習成本過高。Relabeling(DeepEyes(Zheng等人,2025))和基于模型的想象(Pixel Reasoner(Su等人,2025a))為樣本高效方法提供了思路,但針對視覺動作的系統性重放和不確定性感知規劃器仍有待開發。因此,未來方向包括:通過技能先驗強化學習學習結構化視覺技能(裁剪、縮放、繪制);設計跨模態獎勵塑造,通過評估每次編輯對簡化剩余推理的貢獻進行評分;構建不僅關注最終準確性的基準測試指標。
5.4 視覺生成的獎勵模型設計
基于強化學習的視覺生成面臨的核心障礙是缺乏可擴展且可靠的獎勵函數。FID(Heusel等人,2017)等廣泛使用的手工設計指標雖能提供便捷的數值信號,但與人類對美學、語義保真度或時間連貫性的判斷相關性較弱,尤其當任務超出單幀圖像范圍時。ImageReward(Xu等人,2023)、HPS(Wu等人,2023b)(針對圖像)和VideoReward(Liu等人,2025b)(針對視頻)等近期學習型評判器,通過在成對人類偏好數據上訓練來彌補這一差距,但每種模型僅針對特定模態,且僅捕捉感知質量的某一方面(如提示對齊或視覺吸引力)。因此,通過近鄰策略優化(PPO)或組相對策略優化(GRPO)優化的策略往往會利用單一標量信號的漏洞,生成高對比度偽影、重復紋理或物理上不合理的運動,這些結果雖能“欺騙”評判器,但并未提升實際用戶滿意度。因此,當前挑戰在于設計滿足以下條件的獎勵模型:(i)整合互補的低級信號(一致性、物理規律、幾何結構)與高級人類偏好;(ii)跨圖像、視頻和3D場景實現泛化;(iii)在防止獎勵攻擊的同時,保持足夠低的更新成本以適應用戶偏好的持續變化。
6 結論
視覺強化學習已從孤立的概念驗證發展為連接視覺、語言和行動的活躍研究前沿。我們的綜述表明,當前進展由三大力量共同推動:(i)可擴展的獎勵監督,從勞動密集型的基于人類反饋的強化學習(RLHF)逐步轉向組相對和可驗證信號流程;(ii)統一架構,通過單一策略聯合優化感知、推理和生成能力;(iii)日益豐富的基準測試,不僅衡量任務成功與否,還評估與人類偏好的對齊程度和策略穩定性。
然而,仍存在重大挑戰。首先,數據和計算效率亟待提升:現有方法通常需要比監督學習多一個數量級的樣本。其次,跨領域、跨視角和跨具身場景的穩健泛化能力仍有限。第三,針對長時程、開放世界任務的獎勵設計缺乏系統性指導,存在獎勵攻擊和不安全行為的風險。最后,評估標準需進一步發展,以涵蓋實際效用、倫理對齊和能耗等維度。解決這些問題可能需要更緊密地整合基于模型的規劃、自監督視覺預訓練、自適應課程學習和安全感知優化。
總之,視覺強化學習有望改變智能系統感知和與周圍環境交互的方式。通過整合方法學見解并明確未解決的問題,本綜述旨在為研究提供參考,并推動下一代樣本高效、可靠且社會對齊的視覺決策智能體的研究浪潮。
參考文獻
?標題:Reinforcement Learning in Vision: A Survey
?作者:Weijia Wu、Chen Gao、Joya Chen、Kevin Qinghong Lin、Qingwei Meng、Yiming Zhang、Yuke Qiu、Hong Zhou、Mike Zheng Shou
?單位:1.新加坡國立大學Show實驗室(Show Lab, National University of Singapore);2.浙江大學(Zhejiang University);3.香港中文大學(The Chinese University of Hong Kong)
?標簽:視覺強化學習、多模態大型語言模型、視覺生成、統一模型框架、視覺-語言-行動模型、強化學習算法(PPO/GRPO)、基準測試與評估
?概述:該文章對視覺強化學習領域進行全面且最新的綜述,涵蓋問題形式化、策略優化演變、四大主題領域研究、評估協議及挑戰,為該領域研究提供結構化參考。
?鏈接:https://arxiv.org/pdf/2508.08189
本文轉載自??旺知識??,作者:旺知識

















