精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

GUI智能體訓練迎來新范式!半在線強化學習讓7B模型媲美GPT-4o

人工智能 新聞
浙江大學與通義實驗室Mobile-Agent團隊在UI-R1的基礎上,推出全新研究成果——UI-S1,提出了一種名為半在線強化學習(Semi-online Reinforcement Learning)的創新訓練范式。

如何讓AI更聰明地操作手機、電腦界面?

浙江大學與通義實驗室Mobile-Agent團隊在UI-R1的基礎上,推出全新研究成果——UI-S1,提出了一種名為半在線強化學習(Semi-online Reinforcement Learning)的創新訓練范式。

該工作融合了離線訓練的穩定性與在線學習的長程優化能力,在不依賴真實環境交互的前提下,顯著提升了模型在動態多輪任務中的表現。

也就是說,這種方法用的還是離線學習的現成操作數據,但會模擬在線學習的過程。

下面來看看是怎么做到的。

用“離線”數據,模擬“在線”過程

核心問題:傳統方法的局限性

現有的GUI Agent訓練主要依賴兩類強化學習范式:

  • 離線強化學習(Offline RL)利用預先收集的專家軌跡進行訓練,具有高穩定性與低部署成本,但其本質是“行為克隆+單步模仿”,缺乏對軌跡級獎勵信號的學習能力,難以應對需要長期規劃的任務。在以下任務中:基于離線學習的模型表現出早停現象,面對長程任務缺乏有效的規劃。

  • 在線強化學習(Online RL)通過與真實環境持續交互獲取反饋,能夠捕捉到任務完成與否的全局獎勵信號,適用于多步決策優化,但面臨獎勵稀疏、試錯成本高昂以及訓練不穩定等問題。

因此,如何在無需頻繁真實交互的前提下,賦予模型類似在線學習的上下文連貫性和長程推理能力,成為突破瓶頸的關鍵。

解決方案:三大核心技術構建半在線學習框架

為解決上述矛盾,研究團隊提出了三項關鍵技術,共同構成UI-S1的核心架構:

半在線機制:在離線數據中模擬在線交互

離線學習的軌跡是固定的,只能將專家軌跡的動作(*表示)作為歷史:

而在線學習的軌跡是可以動態變化的,將模型自己的原始輸出(π表示)作為歷史:

UI-S1首次提出半在線強化學習范式,其核心思想是在固定離線軌跡的基礎上,在每次rollout過程中保留模型自身的原始輸出(包括動作選擇與思維鏈),而非僅使用專家動作作為歷史輸入。

這一設計使得模型能夠在訓練中體驗“自我行為帶來的上下文變化”,從而增強策略的一致性和多輪連貫性。

換言之,即使沒有真實環境反饋,模型也能“感知”自己過去的行為,并據此調整后續決策,實現了對在線學習過程的有效模擬。

補丁機制(Patching Module):自適應修復采樣偏差

由于模型在rollout中可能偏離專家路徑,導致后續狀態無法匹配原始軌跡,研究者引入了可配置的補丁機制,以恢復被中斷的操作流。具體包含三種策略:

  • Thought-Free Patch:僅修正錯誤動作,保持原思考過程不變
  • Off-Policy Thought Patch:調用更強外部模型重寫錯誤思維鏈
  • On-Policy Thought Patch:引導模型自身生成正確的推理路徑

此外,提高補丁次數上限可顯著提升模型訪問完整軌跡的能力,進而增強對后期步驟的學習效果。

分析顯示,更高的補丁閾值有助于維持策略熵,防止過早收斂,促進探索多樣性。

長程獎勵建模:從步驟級到軌跡級的優勢估計

為了彌補傳統離線RL無法捕獲未來收益的缺陷,UI-S1引入了帶折扣因子的未來獎勵傳播機制。對于每個中間步驟,系統不僅計算其即時規則獎勵還結合未來步驟的潛在價值(按衰減因子γ加權)形成綜合獎勵:有了這個步驟級別獎勵,研究者們用其估計同一個步驟組內的步驟級別優勢,最后一步的優勢被當作軌跡級別優勢,用于評估軌跡是否完成:研究者將兩個級別的優勢加權后(),采用動態采樣的方式優化策略模型:

評測革新:SOP——更貼近真實表現的動態評估指標

針對傳統靜態評測(如AC-High)無法反映多輪容錯能力的問題,研究團隊提出了新的評測——SOP(Semi-online Performance)

該協議保留模型每一輪的真實輸出,一旦出現錯誤即終止任務,全面模擬真實使用場景下的連續交互過程。結果表明,SOP與真實在線性能高度對齊,且支持更高任務多樣性和更快評估速度,填補了現有評測體系在動態性與實用性之間的空白。

實驗結果:全面超越基線,逼近頂尖閉源模型

在多個主流GUI自動化基準上的測試中,UI-S1-7B展現出卓越性能:

實驗結果

特別是在AndroidWorld任務中,UI-S1-7B取得了34.0%的任務成功率,接近GPT-4o(34.5%)與UI-TARS-7B(33.0%),顯著優于純SFT或離線RL方法。

值得注意的是,部分基線方法在動態評測中甚至不如基礎模型,反映出其在多輪泛化方面的根本缺陷。

同時,在單輪任務(如GUI Odyssey)上,UI-S1-7B仍保持+7.1%的增益,說明半在線訓練并未犧牲局部精度,實現了“長短兼顧”的雙重優化。

在常規的GUI單輪評測上,UI-S1-7B相比于base模型也有一定程度的提升(比如GUI Odyssey +7.1),證明了半在線方法并沒有犧牲單輪預測能力。

深入分析:機制有效性與可擴展性驗證

補丁機制顯著提升數據利用率

作為UI-S1框架的核心組件之一,補丁模塊(Patch Module)在維持訓練穩定性與提升策略泛化能力方面發揮了不可替代的作用。

其設計初衷在于解決半在線強化學習中一個根本性矛盾:模型在rollout過程中不可避免地會偏離原始專家軌跡,導致后續狀態無法對齊真實數據,從而中斷整個軌跡的學習進程。

為緩解這一問題,研究團隊引入了可調節的補丁機制,允許系統在檢測到操作偏差時,以有限次數對歷史動作或思維鏈進行修正。通過設置超參數閾值控制每條軌跡最多可修補的次數,研究人員系統評估了不同配置下的性能變化。

實驗結果表明,提高補丁閾值顯著提升了模型在SOP和AndroidWorld兩個動態評測基準上的表現

在具體修補策略的選擇上,研究對比了三種典型方案,揭示了性能與效率之間的深層權衡:

  1. On-Policy Thought Patch由目標策略模型自身重新生成正確的推理過程,在語義風格和推理節奏上與原輸出高度一致,因此能提供最自然的上下文銜接,帶來最優性能。然而,該方法需額外執行完整的前向推理,計算開銷較大,不利于大規模訓練。
  2. Thought-Free Patch僅修正錯誤的動作標簽,保留原有的思維鏈不變。盡管未修復潛在的邏輯缺陷,但由于GUI動作空間相對結構化且可通過規則校驗,該方式在實踐中表現出接近最優的性能,同時幾乎不引入額外計算成本,具備極高的工程實用性。
  3. Off-Policy Thought Patch借助外部更強的大模型(如GPT-4)重寫錯誤的思考過程。雖然理論上可提供更高質量的推理指導,但因生成風格、術語使用與目標模型存在分布偏移,反而可能導致上下文斷裂或誤導訓練方向,實際效果不如預期。

更進一步分析發現,較大的補丁閾值有助于在訓練過程中維持較高的策略熵(policy entropy),即模型在動作選擇上的不確定性水平。

較高的熵值反映了更豐富的探索行為,避免策略過早收斂于少數高頻路徑。

這說明補丁機制不僅是誤差糾正工具,更是促進策略多樣性和防止模式坍縮的重要手段。

數據縮放規律揭示高效學習潛力

研究表明,UI-S1的性能增長符合指數型數據規模律。

隨著補丁閾值從0增至無窮,指數系數k從?1.13提升至?0.73,表明單位數據帶來的邊際收益明顯改善。

這意味著即使在有限數據條件下,該方法也能更充分挖掘非完美軌跡中的監督信號,具備良好的小樣本適應能力。

消融實驗確認關鍵組件貢獻

消融實驗進一步驗證了多個核心組件的技術貢獻。

首先,在未來獎勵建模方面,折扣因子γ的設置對多輪任務表現具有決定性影響:當γ=0(完全忽略未來獎勵)時,模型性能最低;而在 γ=0.5時達到峰值,說明適度納入長程優化信號可顯著提升策略的全局一致性與任務完成率,凸顯了半在線范式在捕獲跨步依賴關系上的優勢。

其次,在訓練范式組合上,聯合使用監督微調(SFT)與半在線強化學習(Semi-online RL)的效果明顯優于任一單獨方法——在AndroidWorld基準上,組合方案取得34.0%的任務成功率,分別高出僅用Semi-online RL(30.4%)和僅用SFT(21.7%)的配置,且平均任務完成步數更少,表明其具備更強的路徑規劃與執行效率。

最后,同時引入軌跡級與步驟級優勢函數計算,并保留多幀歷史觀測信息(包括動作、思考鏈與界面狀態),均被證實對最終性能有正向增益,去除任一組件均會導致性能下降,說明這些設計共同支撐了模型在復雜GUI交互中的穩健決策能力。

樣例分析

研究者們展示了一項復雜的跨應用任務,該任務要求在多個操作步驟中持續保留關鍵信息:從Simple Gallery中查看一張包含交易信息的圖片,并在Markor應用中創建文件記錄該信息。

實驗表明,基礎模型和離線強化學習(Offline RL)模型在執行過程中出現了思維與動作不一致的問題。

例如,Offline RL模型在規劃完切換至下一應用后便提前終止操作,可能因其過度擬合局部獎勵,未能統籌后續任務目標。而經過監督微調(SFT)的模型則在流程中遺失了關鍵信息,導致執行冗余操作,如嘗試創建一個已存在的文件。

相比之下,基于半在線強化學習(Semi-Online RL)框架的UI-S1模型在整個12步操作序列中保持了穩定的上下文連貫性,成功將交易信息“2023-03-23, Monitor Stand, $33.22”準確以CSV格式寫入文件。

這一表現驗證了該方法在學習多輪復雜行為方面的優勢,實現了推理過程與動作執行的高度對齊。

研究者認為,該成果體現了半在線范式在提升GUI智能體長程規劃能力與任務魯棒性方面的關鍵作用。

感興趣的朋友可戳下方點鏈接獲取更多內容~

論文地址:https://arxiv.org/abs/2509.11543

項目代碼:https://github.com/X-PLUG/MobileAgent/tree/main/UI-S1

模型地址:https://huggingface.co/mPLUG/UI-S1-7B

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-08-14 10:25:11

2025-10-24 12:07:12

2025-01-06 12:46:16

模型數據訓練

2025-11-04 08:42:27

2025-07-14 09:00:00

2020-04-15 16:44:38

谷歌強化學習算法

2025-08-07 14:05:40

OpenAI大模型開源

2025-04-23 15:25:27

語言模型Eagle 2.5英偉達

2024-12-13 14:03:44

模型訓練AI

2025-06-10 09:07:00

2025-10-28 02:11:00

2025-09-28 15:35:32

AI模型強化學習

2023-08-28 06:52:29

2025-02-27 13:45:00

2024-11-22 14:10:00

AI智能體

2025-03-11 13:07:58

2024-09-23 15:04:16

2023-05-04 15:53:34

強化學習開發

2025-06-06 14:17:11

模型訓練AI

2025-08-01 14:32:35

AI模型訓練
點贊
收藏

51CTO技術棧公眾號

国产suv精品一区二区33| youjizz.com日本| 日本电影在线观看网站| 美腿丝袜一区二区三区| 久久天天躁狠狠躁夜夜躁2014 | 岛国av在线播放| 久久久综合网站| 国产精品中文字幕久久久| 91嫩草丨国产丨精品| 久久久久观看| 欧美日韩国产另类不卡| 国产高清www| 国产免费av在线| 成人污污视频在线观看| 国产精品视频公开费视频| 校园春色 亚洲| 欧美人与物videos另类xxxxx| 欧美精品日日鲁夜夜添| 尤物av无码色av无码| 黄色av电影在线播放| 91丨porny丨首页| 91手机在线播放| 欧美另类高清videos的特点| 在线不卡亚洲| 久久精品国产久精国产一老狼| 国产黑丝一区二区| av日韩在线免费观看| 精品人伦一区二区三区蜜桃网站| 国产a级片免费看| 久久久久久久久亚洲精品| 国产精品1区2区| 国产精品久久久久久久久久| 自拍偷拍欧美亚洲| 欧美久久99| 久久视频这里只有精品| 中字幕一区二区三区乱码| 高清日韩中文字幕| 欧美一区二区三区色| 欧美婷婷精品激情| 9lporm自拍视频区在线| 伊人开心综合网| 一区二区三区四区五区精品 | 伊人精品综合| 欧美日韩高清不卡| 日本成人黄色网| 日韩脚交footjobhdboots| 亚洲曰韩产成在线| 影音先锋成人资源网站| a级毛片免费观看在线| 国产精品久久午夜| 日韩和欧美的一区二区| 可以在线观看的av| 国产亚洲女人久久久久毛片| 久久综合久久综合这里只有精品| 丰满大乳国产精品| 国产宾馆实践打屁股91| 成人黄色片视频网站| www.天天干.com| 国产盗摄视频一区二区三区| 亚洲在线www| 99久久婷婷国产一区二区三区| 久久精品99国产精品| 成人a级免费视频| 国产精品一级视频| 国产精品1024| 国产在线精品日韩| 三区在线观看| 国产日韩欧美激情| 一本久久a久久精品vr综合| 亚洲成人三级| 亚洲欧美综合色| 青草全福视在线| 黄页网站在线| 欧美色videos| wwww.国产| 免费观看亚洲视频大全| 精品久久免费看| 国产精品嫩草av| 奇米亚洲欧美| 久久久极品av| 日韩乱码在线观看| 人人超碰91尤物精品国产| 国产主播在线一区| 亚洲精品久久久久久久久久久久久久| 成人丝袜高跟foot| 清纯唯美一区二区三区| 秋霞午夜在线观看| 亚洲成人av电影| 97公开免费视频| 久久99成人| 精品香蕉一区二区三区| 人人艹在线视频| 激情欧美一区| 国产精品美女久久久久av超清| 国产情侣一区二区| 99亚偷拍自图区亚洲| 亚洲日本理论电影| 99热99re6国产在线播放| 欧美影视一区在线| 免费观看污网站| 久久99精品久久久久久园产越南| 久久精品影视伊人网| 日本学生初尝黑人巨免费视频| 久热国产精品| av一区和二区| 日本亚洲精品| 福利二区91精品bt7086| 精品亚洲视频在线| 国产探花一区在线观看| 欧美大片在线免费观看| 亚洲成人av网址| 成人激情校园春色| 在线观看欧美激情| 不卡一二三区| 欧美草草影院在线视频| 刘亦菲国产毛片bd| 国产色综合网| 91视频婷婷| 精品麻豆一区二区三区| 色天天综合色天天久久| 美女久久久久久久久| 婷婷亚洲最大| 国产精品高潮呻吟久久av无限| 免费看国产片在线观看| 日韩美女视频一区| 男女污污的视频| 台湾佬综合网| 国内成人精品一区| 精品国产黄色片| 国产精品传媒在线| 少妇一级淫免费播放| 免费看成人哺乳视频网站| 欧美激情按摩在线| 国产黄a三级三级三级| 国产精品精品国产色婷婷| 免费在线观看的av网站| 国产一区调教| 久久免费精品日本久久中文字幕| 99热这里只有精品99| 国产精品二三区| 中文字幕第36页| 国产探花一区在线观看| 日韩av观看网址| 九色在线视频蝌蚪| 在线视频国产一区| 国产精品成人无码免费| 日韩精品成人一区二区在线| 欧美精品在线一区| 第84页国产精品| 亚洲视频在线播放| 精品一区二区无码| 国产精品欧美一区二区三区| 污污网站免费看| 国产韩日影视精品| 成人国产亚洲精品a区天堂华泰| av网站在线播放| 欧美老肥妇做.爰bbww| 国产三级aaa| 激情综合网激情| 中国女人做爰视频| 国产精品主播在线观看| 66m—66摸成人免费视频| 天天综合网在线| 色婷婷久久一区二区三区麻豆| 自拍偷拍视频亚洲| 精品一区二区三区影院在线午夜| 亚洲av综合色区| 好吊妞国产欧美日韩免费观看网站| 国内精久久久久久久久久人| 九色网友自拍视频手机在线| 欧美网站大全在线观看| av成人免费网站| 成人精品一区二区三区四区| 久久成人免费观看| 精品无码一区二区三区电影桃花| 一区二区三区四区五区精品视频| 久久久av水蜜桃| www.一区| 欧美激情第6页| 日本ー区在线视频| 欧美精品免费视频| 国产精品成人av久久| 久久这里都是精品| 国产成年人视频网站| 激情欧美丁香| 亚州欧美一区三区三区在线| 婷婷综合国产| 国产成人一区二| 在线三级电影| 亚洲欧美中文字幕在线一区| 国产免费福利视频| 欧美日韩视频免费播放| 亚洲黄色网址大全| 成人精品国产福利| 狠狠干狠狠操视频| 国产欧美午夜| 懂色av一区二区三区四区五区| 老汉色老汉首页av亚洲| 国产在线观看不卡| 天堂资源在线| 欧美老女人xx| 91在线视频| 日韩成人在线观看| 99产精品成人啪免费网站| 性做久久久久久免费观看欧美| 黄色av片三级三级三级免费看| 成人小视频在线观看| 高清av免费看| 老司机免费视频久久| 国产 欧美 日韩 一区| 成人影院天天5g天天爽无毒影院| 国产一区二区黄色| 成人短视频软件网站大全app| 欧美在线视频观看免费网站| 黄色精品在线观看| 永久免费毛片在线播放不卡| 天天色综合久久| 日韩免费视频一区二区| 中文字幕在线网站| 一本大道久久a久久精二百| 欧美日韩一级在线观看| 国产精品超碰97尤物18| 精品无人区无码乱码毛片国产| 成人涩涩免费视频| 午夜免费福利网站| 麻豆国产欧美日韩综合精品二区 | 国产99re66在线视频| 最新国产成人av网站网址麻豆| 亚洲 欧美 精品| 欧美r级电影在线观看| 91在线精品入口| 欧美日精品一区视频| 秋霞av一区二区三区| 精品成人在线视频| 国产精品suv一区二区| 亚洲一区二区成人在线观看| 天天鲁一鲁摸一摸爽一爽| 中文无字幕一区二区三区| 蜜桃无码一区二区三区| 97国产精品videossex| 欧美大喷水吹潮合集在线观看| 国产盗摄一区二区三区| 国内av免费观看| 国产精品一区二区黑丝| 尤物网站在线看| 国产精品99久久不卡二区| 午夜影院免费观看视频| 精品无人区卡一卡二卡三乱码免费卡| 在线观看日本一区二区| 蜜臀av亚洲一区中文字幕| 日日躁夜夜躁aaaabbbb| 久久国产麻豆精品| 亚洲一区精品视频在线观看| 精东粉嫩av免费一区二区三区| 久国产精品视频| 国产高清久久久| 日本女人性视频| 成人午夜私人影院| 国产制服丝袜在线| 国产欧美视频一区二区| 四虎影视1304t| 亚洲人成精品久久久久| 欧美成人黄色网| 黄色一区二区在线| 欧美激情黑白配| 欧美三级蜜桃2在线观看| 国产精品毛片一区二区在线看舒淇| 欧美一级一级性生活免费录像| 亚洲第一色网站| 亚洲精品综合久久中文字幕| 国产高清视频在线| 久久精品久久久久| √最新版天堂资源网在线| 日韩av电影国产| 国产不卡精品| 精品国产_亚洲人成在线| 精品国产乱码久久久久久果冻传媒 | 日韩在线无毛| 色狠狠av一区二区三区香蕉蜜桃| 高清全集视频免费在线| 91精品国产九九九久久久亚洲| 中文字幕在线视频网站| 成人av资源在线播放| 欧美电影完整版在线观看| 午夜精品一区二区三区四区| 欧美精品播放| 欧美成人xxxxx| 久久99精品视频| 好男人香蕉影院| 欧美国产一区二区在线观看| 免费在线一区二区三区| 欧美视频国产精品| 国产毛片毛片毛片毛片| 日韩精品中文字幕久久臀| 麻豆视频在线观看免费| 欧美亚洲国产视频小说| 国内不卡的一区二区三区中文字幕 | 97人人爽人人| 91视频精品在这里| 91久久国产综合| 在线欧美日韩精品| 天天干天天爱天天操| 久久精品国产久精国产一老狼| 一二三四视频在线中文| 91手机在线观看| 欧美激情777| 青青在线视频免费| 成人免费高清在线| 青青草原在线免费观看| 欧美性猛片aaaaaaa做受| 蜜臀久久精品久久久久| 久久精品在线视频| 97精品国产综合久久久动漫日韩| 国产乱码精品一区二区三区卡| 无需播放器亚洲| av五月天在线| 久久人人爽人人爽| 日韩免费黄色片| 日韩欧美一区电影| 日本精品在线| 国产日韩欧美黄色| 欧美人与物videos另类xxxxx| 蜜桃传媒一区二区三区| 国产成人av电影在线| 亚洲 欧美 变态 另类 综合| 欧美日韩专区在线| 国产免费永久在线观看| 国产v综合ⅴ日韩v欧美大片| 欧美日韩一本| 久久精品国产sm调教网站演员| 国产精品自在在线| 尤物在线免费视频| 欧美人与性动xxxx| 日韩在线观看www| 国产精品永久在线| 欧美呦呦网站| 亚洲 欧美 日韩系列| 国产精品热久久久久夜色精品三区 | 午夜在线精品| 亚洲最大免费视频| 欧美日韩国内自拍| 香蕉国产在线视频| 81精品国产乱码久久久久久| 美女视频免费精品| 男人和女人啪啪网站| 久久综合九色综合97_久久久| 亚洲成人第一网站| 国产亚洲欧洲在线| www.国产精品| 公共露出暴露狂另类av| 国产精品亚洲专一区二区三区 | 欧美日韩xx| 91九色在线视频| 欧美/亚洲一区| 国产精品成人免费一区久久羞羞| 亚洲综合色自拍一区| 色噜噜一区二区三区| 91av在线看| 韩日一区二区三区| 色天使在线观看| 伊人色综合久久天天人手人婷| 好吊色一区二区| 97在线看福利| 狠狠做六月爱婷婷综合aⅴ| 日本激情综合网| 日韩久久一区二区| 风流老熟女一区二区三区| 97精品欧美一区二区三区| 欧美人与拘性视交免费看| 欧美成年人视频在线观看| 亚洲精品成人a在线观看| 六月婷婷综合网| 国产97色在线|日韩| 手机在线电影一区| 麻豆av免费看| 色婷婷久久综合| 精品国产99久久久久久| 国产一区二区三区免费不卡| 久久狠狠婷婷| 四虎精品免费视频| 亚洲级视频在线观看免费1级| 亚洲1234区| 玖玖精品在线视频| 91啪九色porn原创视频在线观看| 亚洲午夜激情视频| 国模精品系列视频| 日韩大片在线观看| 丰满岳乱妇一区二区| 欧美伊人精品成人久久综合97| 午夜av在线播放| 青青草原亚洲| 成人小视频在线| 在线免费观看高清视频| 韩国福利视频一区| 婷婷久久综合| 女~淫辱の触手3d动漫| 日韩三级.com| 粉嫩91精品久久久久久久99蜜桃| wwwwww欧美| 亚洲视频图片小说|