GUI智能體訓練迎來新范式！半在線強化學習讓7B模型媲美GPT-4o

2025-09-24 08:53:10

人工智能新聞

浙江大學與通義實驗室Mobile-Agent團隊在UI-R1的基礎上，推出全新研究成果——UI-S1，提出了一種名為半在線強化學習（Semi-online Reinforcement Learning）的創新訓練范式。

如何讓AI更聰明地操作手機、電腦界面？

浙江大學與通義實驗室Mobile-Agent團隊在UI-R1的基礎上，推出全新研究成果——UI-S1，提出了一種名為半在線強化學習（Semi-online Reinforcement Learning）的創新訓練范式。

該工作融合了離線訓練的穩定性與在線學習的長程優化能力，在不依賴真實環境交互的前提下，顯著提升了模型在動態多輪任務中的表現。

也就是說，這種方法用的還是離線學習的現成操作數據，但會模擬在線學習的過程。

下面來看看是怎么做到的。

用“離線”數據，模擬“在線”過程

核心問題：傳統方法的局限性

現有的GUI Agent訓練主要依賴兩類強化學習范式：

離線強化學習（Offline RL）利用預先收集的專家軌跡進行訓練，具有高穩定性與低部署成本，但其本質是“行為克隆+單步模仿”，缺乏對軌跡級獎勵信號的學習能力，難以應對需要長期規劃的任務。在以下任務中：基于離線學習的模型表現出早停現象，面對長程任務缺乏有效的規劃。

在線強化學習（Online RL）通過與真實環境持續交互獲取反饋，能夠捕捉到任務完成與否的全局獎勵信號，適用于多步決策優化，但面臨獎勵稀疏、試錯成本高昂以及訓練不穩定等問題。

因此，如何在無需頻繁真實交互的前提下，賦予模型類似在線學習的上下文連貫性和長程推理能力，成為突破瓶頸的關鍵。

解決方案：三大核心技術構建半在線學習框架

為解決上述矛盾，研究團隊提出了三項關鍵技術，共同構成UI-S1的核心架構：

半在線機制：在離線數據中模擬在線交互

離線學習的軌跡是固定的，只能將專家軌跡的動作（*表示）作為歷史：

而在線學習的軌跡是可以動態變化的，將模型自己的原始輸出（π表示）作為歷史：

UI-S1首次提出半在線強化學習范式，其核心思想是在固定離線軌跡的基礎上，在每次rollout過程中保留模型自身的原始輸出（包括動作選擇與思維鏈），而非僅使用專家動作作為歷史輸入。

這一設計使得模型能夠在訓練中體驗“自我行為帶來的上下文變化”，從而增強策略的一致性和多輪連貫性。

換言之，即使沒有真實環境反饋，模型也能“感知”自己過去的行為，并據此調整后續決策，實現了對在線學習過程的有效模擬。

補丁機制（Patching Module）：自適應修復采樣偏差

由于模型在rollout中可能偏離專家路徑，導致后續狀態無法匹配原始軌跡，研究者引入了可配置的補丁機制，以恢復被中斷的操作流。具體包含三種策略：

Thought-Free Patch：僅修正錯誤動作，保持原思考過程不變
Off-Policy Thought Patch：調用更強外部模型重寫錯誤思維鏈
On-Policy Thought Patch：引導模型自身生成正確的推理路徑

此外，提高補丁次數上限可顯著提升模型訪問完整軌跡的能力，進而增強對后期步驟的學習效果。

分析顯示，更高的補丁閾值有助于維持策略熵，防止過早收斂，促進探索多樣性。

長程獎勵建模：從步驟級到軌跡級的優勢估計

為了彌補傳統離線RL無法捕獲未來收益的缺陷，UI-S1引入了帶折扣因子的未來獎勵傳播機制。對于每個中間步驟，系統不僅計算其即時規則獎勵還結合未來步驟的潛在價值（按衰減因子γ加權）形成綜合獎勵：有了這個步驟級別獎勵，研究者們用其估計同一個步驟組內的步驟級別優勢，最后一步的優勢被當作軌跡級別優勢，用于評估軌跡是否完成：研究者將兩個級別的優勢加權后（），采用動態采樣的方式優化策略模型：

評測革新：SOP——更貼近真實表現的動態評估指標

針對傳統靜態評測（如AC-High）無法反映多輪容錯能力的問題，研究團隊提出了新的評測——SOP（Semi-online Performance）。

該協議保留模型每一輪的真實輸出，一旦出現錯誤即終止任務，全面模擬真實使用場景下的連續交互過程。結果表明，SOP與真實在線性能高度對齊，且支持更高任務多樣性和更快評估速度，填補了現有評測體系在動態性與實用性之間的空白。

實驗結果：全面超越基線，逼近頂尖閉源模型

在多個主流GUI自動化基準上的測試中，UI-S1-7B展現出卓越性能：

實驗結果

特別是在AndroidWorld任務中，UI-S1-7B取得了34.0%的任務成功率，接近GPT-4o（34.5%）與UI-TARS-7B（33.0%），顯著優于純SFT或離線RL方法。

值得注意的是，部分基線方法在動態評測中甚至不如基礎模型，反映出其在多輪泛化方面的根本缺陷。

同時，在單輪任務（如GUI Odyssey）上，UI-S1-7B仍保持+7.1%的增益，說明半在線訓練并未犧牲局部精度，實現了“長短兼顧”的雙重優化。

在常規的GUI單輪評測上，UI-S1-7B相比于base模型也有一定程度的提升（比如GUI Odyssey +7.1），證明了半在線方法并沒有犧牲單輪預測能力。

深入分析：機制有效性與可擴展性驗證

補丁機制顯著提升數據利用率

作為UI-S1框架的核心組件之一，補丁模塊（Patch Module）在維持訓練穩定性與提升策略泛化能力方面發揮了不可替代的作用。

其設計初衷在于解決半在線強化學習中一個根本性矛盾：模型在rollout過程中不可避免地會偏離原始專家軌跡，導致后續狀態無法對齊真實數據，從而中斷整個軌跡的學習進程。

為緩解這一問題，研究團隊引入了可調節的補丁機制，允許系統在檢測到操作偏差時，以有限次數對歷史動作或思維鏈進行修正。通過設置超參數閾值控制每條軌跡最多可修補的次數，研究人員系統評估了不同配置下的性能變化。

實驗結果表明，提高補丁閾值顯著提升了模型在SOP和AndroidWorld兩個動態評測基準上的表現。

在具體修補策略的選擇上，研究對比了三種典型方案，揭示了性能與效率之間的深層權衡：

On-Policy Thought Patch由目標策略模型自身重新生成正確的推理過程，在語義風格和推理節奏上與原輸出高度一致，因此能提供最自然的上下文銜接，帶來最優性能。然而，該方法需額外執行完整的前向推理，計算開銷較大，不利于大規模訓練。
Thought-Free Patch僅修正錯誤的動作標簽，保留原有的思維鏈不變。盡管未修復潛在的邏輯缺陷，但由于GUI動作空間相對結構化且可通過規則校驗，該方式在實踐中表現出接近最優的性能，同時幾乎不引入額外計算成本，具備極高的工程實用性。
Off-Policy Thought Patch借助外部更強的大模型（如GPT-4）重寫錯誤的思考過程。雖然理論上可提供更高質量的推理指導，但因生成風格、術語使用與目標模型存在分布偏移，反而可能導致上下文斷裂或誤導訓練方向，實際效果不如預期。

更進一步分析發現，較大的補丁閾值有助于在訓練過程中維持較高的策略熵（policy entropy），即模型在動作選擇上的不確定性水平。

較高的熵值反映了更豐富的探索行為，避免策略過早收斂于少數高頻路徑。

這說明補丁機制不僅是誤差糾正工具，更是促進策略多樣性和防止模式坍縮的重要手段。

數據縮放規律揭示高效學習潛力

研究表明，UI-S1的性能增長符合指數型數據規模律。

隨著補丁閾值從0增至無窮，指數系數k從?1.13提升至?0.73，表明單位數據帶來的邊際收益明顯改善。

這意味著即使在有限數據條件下，該方法也能更充分挖掘非完美軌跡中的監督信號，具備良好的小樣本適應能力。

消融實驗確認關鍵組件貢獻

消融實驗進一步驗證了多個核心組件的技術貢獻。

首先，在未來獎勵建模方面，折扣因子γ的設置對多輪任務表現具有決定性影響：當γ=0（完全忽略未來獎勵）時，模型性能最低；而在 γ=0.5時達到峰值，說明適度納入長程優化信號可顯著提升策略的全局一致性與任務完成率，凸顯了半在線范式在捕獲跨步依賴關系上的優勢。

其次，在訓練范式組合上，聯合使用監督微調（SFT）與半在線強化學習（Semi-online RL）的效果明顯優于任一單獨方法——在AndroidWorld基準上，組合方案取得34.0%的任務成功率，分別高出僅用Semi-online RL（30.4%）和僅用SFT（21.7%）的配置，且平均任務完成步數更少，表明其具備更強的路徑規劃與執行效率。

最后，同時引入軌跡級與步驟級優勢函數計算，并保留多幀歷史觀測信息（包括動作、思考鏈與界面狀態），均被證實對最終性能有正向增益，去除任一組件均會導致性能下降，說明這些設計共同支撐了模型在復雜GUI交互中的穩健決策能力。

樣例分析

研究者們展示了一項復雜的跨應用任務，該任務要求在多個操作步驟中持續保留關鍵信息：從Simple Gallery中查看一張包含交易信息的圖片，并在Markor應用中創建文件記錄該信息。

實驗表明，基礎模型和離線強化學習（Offline RL）模型在執行過程中出現了思維與動作不一致的問題。

例如，Offline RL模型在規劃完切換至下一應用后便提前終止操作，可能因其過度擬合局部獎勵，未能統籌后續任務目標。而經過監督微調（SFT）的模型則在流程中遺失了關鍵信息，導致執行冗余操作，如嘗試創建一個已存在的文件。

相比之下，基于半在線強化學習（Semi-Online RL）框架的UI-S1模型在整個12步操作序列中保持了穩定的上下文連貫性，成功將交易信息“2023-03-23, Monitor Stand, $33.22”準確以CSV格式寫入文件。

這一表現驗證了該方法在學習多輪復雜行為方面的優勢，實現了推理過程與動作執行的高度對齊。

研究者認為，該成果體現了半在線范式在提升GUI智能體長程規劃能力與任務魯棒性方面的關鍵作用。

感興趣的朋友可戳下方點鏈接獲取更多內容～

論文地址：https://arxiv.org/abs/2509.11543

項目代碼：https://github.com/X-PLUG/MobileAgent/tree/main/UI-S1

模型地址：https://huggingface.co/mPLUG/UI-S1-7B

責任編輯：張燕妮來源：量子位

AI 模型訓練