可驗證GUI數據集;智能體調用中的經濟效率平衡;自我進化的GUI智能體,從經驗學習;寬頻譜人類圖片偏好評估
VeriGUI: Verifiable Long-Chain GUI Dataset
2025-08-06||??117
??http://arxiv.org/abs/2508.04026v1???
???https://huggingface.co/papers/2508.04026???
???https://github.com/VeriGUI-Team/VeriGUI??
研究背景與意義

- 問題定義與現狀概述
當前自主GUI代理的研究已取得初步成果,主要聚焦于短期任務和基于結果的驗證,難以滿足現實中復雜、長鏈任務的需求。現有數據集多為短步驟操作,缺乏對多步驟、跨應用復雜流程的支持,且驗證方式多為粗粒度的最終結果判斷,難以細粒度評估中間步驟的正確性。
- 挑戰與目標闡明
真實GUI任務要求代理具備長鏈規劃、多步驟推理和動態環境適應能力,同時需要高質量、多樣化且可驗證的長鏈任務數據集支持訓練與評估。本文提出的VeriGUI數據集,旨在填補現有數據集在長鏈復雜性和子任務級可驗證性方面的空白,推動通用GUI代理的發展。
研究方法與創新



- 技術描述VeriGUI構建了一個涵蓋桌面和網頁環境的長鏈GUI任務數據集,任務由4-8個相互依賴的子任務組成,每個子任務包含數百個具體GUI操作。數據集支持從任意子任務開始執行,促進多階段、多策略的探索。
- 創新點突出
a.長鏈復雜性:任務設計涵蓋跨應用和網頁的復雜操作序列,逼近真實工作流的復雜度。
b.子任務級可驗證性:不僅驗證最終任務結果,還對每個子任務的完成情況進行二元判定,支持細粒度監督和評估。
c.多樣化交互動作統一定義:動作空間涵蓋點擊、輸入、拖拽、滾動等多種GUI操作,兼容多平臺。
d.結合大語言模型與人工標注:采用多階段語言模型生成與人類專家審核相結合的方法,確保任務指令的真實性和執行軌跡的高質量。
- 理論基礎與對比相較于現有數據集,VeriGUI在任務長度、驗證細粒度和多樣性方面均有顯著提升,支持更復雜的決策與規劃能力開發,突破了傳統基于結果的驗證局限。
實驗設計與結果分析


- 實驗設計采用130個網頁任務軌跡,評估多種基于不同基礎模型的代理,包括閉源深度研究代理、搜索引擎代理、瀏覽器交互代理及多代理系統。評測指標涵蓋任務成功率(SR)、任務完成率(CR)和動作效率(AE),并引入基于GPT-4.1的語義評判確保結果準確性。
- 結果分析
a.整體表現不佳:所有模型平均任務成功率均低于10%,完成率不超過30%,反映任務的高難度和當前模型在長鏈規劃、復雜推理上的不足。
b.基礎模型差異顯著:OpenAI-o3和Gemini-2.5-Pro表現相對較好,顯示其較強的推理和泛化能力;GPT-4系列表現不及預期,表明高性能模型在復雜GUI任務中仍面臨挑戰。
c.交互范式影響明顯:瀏覽器交互代理整體優于純文本搜索代理,說明直接操作界面和利用結構信息對任務完成有顯著幫助。
d.領域差異明顯:藝術娛樂類任務成功率和完成率最高,因數據結構較為規范;金融、社會政策等領域較難,信息分散且抽象,增加了任務復雜度。
結論與展望
- 貢獻總結本文提出的VeriGUI數據集突破了現有GUI任務數據集的短鏈與粗粒度驗證限制,首次實現了長鏈、多子任務且子任務可驗證的真實GUI操作數據集,推動了通用GUI代理長鏈規劃與決策能力的研究。
- 局限分析當前版本主要包含網頁任務,桌面任務數據仍在收集中,且實驗僅覆蓋部分基礎模型,未來需擴展更多模型和任務類型。任務執行環境的復雜性和不確定性仍是挑戰。
- 未來展望未來工作將完善桌面任務數據,豐富任務多樣性,提升數據集規模。結合強化學習和更先進的多模態模型,提升代理在長鏈復雜任務中的規劃和錯誤恢復能力。同時,探索更細粒度的評估指標,促進代理性能的全面提升。
Efficient Agents: Building Effective Agents While Reducing Cost
2025-07-24|OPPO AI Agent Team|??51
??http://arxiv.org/abs/2508.02694v1???
???https://huggingface.co/papers/2508.02694???
???https://github.com/OPPO-PersonalAI/OAgents??
研究背景與意義

- 研究背景:隨著大型語言模型(LLM)驅動的智能代理在復雜多步驟任務中的卓越表現,其高昂的計算成本成為制約規模化和普及的瓶頸。當前研究多聚焦于提升模型性能,鮮有系統性地探討性能與效率的權衡,尤其是在代理系統層面的優化尚處于初步階段。
- 研究意義:本文首次系統地分析現代智能代理系統中效率與效果的權衡,深入剖析不同組件(如LLM骨干模型、代理框架設計、測試時擴展策略)對成本與性能的影響。研究旨在為設計經濟高效且性能優異的智能代理提供理論依據和實踐指導,推動AI技術的可持續發展和廣泛應用。
研究方法與創新

- 技術描述:研究基于GAIA基準,采用“cost-of-pass”指標衡量代理系統在完成任務時的經濟效率。通過對比不同LLM骨干模型(包括GPT-4.1、Claude 3.7 Sonnet、Qwen系列等)、代理框架設計(規劃模塊、工具使用、記憶機制)及測試時擴展策略(Best-of-N等),系統評估各因素對性能和成本的影響。
- 創新點:
a.系統性效率-效果權衡分析:首次全面解構代理系統各組成部分的成本貢獻與性能提升,揭示復雜度與收益遞減的臨界點。
b.高效代理框架設計(Efficient Agents):基于實證研究結果,提出一種任務自適應的代理框架,合理配置組件以實現性能與成本的最優平衡。
c.實證驗證:在GAIA基準上,Efficient Agents實現了96.7%的OWL框架性能,同時將成本降低28.4%,顯著提升經濟效益。
- 理論基礎:研究結合了系統2推理理論、鏈式思維(Chain-of-Thought)機制及經濟學中的成本效益分析,融合了強化學習和稀疏激活模型架構的最新進展,構建了多維度的效率評價體系。
- 優勢對比:與現有高性能但成本巨大的代理系統相比,Efficient Agents通過精簡規劃步驟、合理選擇骨干模型、優化工具調用和記憶策略,有效避免了“過度思考”和資源浪費,兼顧了性能與可持續性。
實驗設計與結果分析


- 實驗設計:
a.采用GAIA基準測試復雜推理任務,逐項替換和調節骨干模型、規劃步數、工具使用策略和記憶機制。
b.評估指標包括準確率(pass@1)、token消耗量、實際成本和cost-of-pass。
c.控制變量法確保單因素影響的準確測量。
- 結果分析:
a.骨干模型選擇:高性能模型(如Claude 3.7 Sonnet)雖準確率高,但成本顯著上升,稀疏模型(Qwen3-30B-A3B)則在簡單任務中表現出色,成本低廉。
b.測試時擴展策略:Best-of-N策略雖略增準確率,但成本呈指數增長,收益遞減明顯。
c.規劃模塊:增加最大規劃步數提升性能,但成本隨之大幅上升,存在最優規劃步數區間。
d.工具使用:多源搜索和簡化瀏覽操作提高效率與效果,復雜瀏覽操作反而增加成本。
e.記憶機制:簡單記憶設計(僅保留觀察和動作)既節約成本又提升性能,復雜記憶策略反而帶來額外負擔。
- 多場景表現:各組件在不同難度任務(GAIA Level 1-3)中表現差異明顯,復雜任務對成本敏感度更高,強調了任務適應性設計的重要性。
結論與展望
- 總結貢獻:本文首次系統揭示了LLM驅動代理系統中各模塊對性能和經濟成本的影響,提出了基于實證分析的Efficient Agents框架,實現了性能與成本的最佳權衡,推動了智能代理系統的可持續發展。
- 局限分析:當前研究主要聚焦于GAIA基準和特定代理組件,未來需拓展至更多實際應用場景和多模態任務,進一步驗證框架的泛化能力。
- 方法展望:
a.任務自適應復雜度調節:未來可探索動態調整代理復雜度以匹配任務需求,進一步優化資源分配。
b.多代理協作與通信優化:減少通信冗余,提升多代理系統整體效率。
c.能耗與環境影響評估:結合綠色AI理念,設計更環保的智能代理系統。
d.集成更豐富的工具與記憶機制:提升代理的環境適應性和長期學習能力。
本研究為智能代理領域提供了系統性的效率優化方案,期待未來在理論深化和實際部署中得到更廣泛的應用與發展。
SEAgent: Self-Evolving Computer Use Agent with Autonomous Learning from Experience
2025-08-06|SJTU, Shanghai AI Lab, CUHK|??37
??http://arxiv.org/abs/2508.04700v1???
???https://huggingface.co/papers/2508.04700???
???https://github.com/SunzeY/SEAgent??
研究背景與意義

- 問題定義與現狀概述隨著大型視覺語言模型(LVLMs)的迅速發展,計算機使用代理(CUAs)應運而生,具備了基于視覺輸入操作計算機的能力。然而,現有CUAs高度依賴昂貴的人類標注數據,難以適應新穎或專業的軟件環境,尤其在缺乏人工注釋的場景下表現不佳。
- 挑戰與目標闡述主要挑戰包括:如何在陌生軟件環境中自動生成可執行任務,以及如何準確評估任務的完成情況和定位失敗步驟。本文旨在設計一種自主演化框架,使CUAs能夠通過自主探索和經驗學習,擺脫對人工監督的依賴,實現對新軟件的高效掌握。
- 研究意義該研究推動了從依賴人類標注向經驗驅動的智能代理轉變,開辟了CUA自主適應和持續演化的新路徑,對提升智能代理的通用性和實用性具有重要意義。
研究方法與創新

- 核心架構設計SEAgent框架由三大核心組件構成:
- Actor模型:執行任務指令,進行探索性操作。
- World State模型:基于LVLM,負責環境狀態描述與任務執行軌跡的逐步評估,提供細粒度的獎勵信號。
- Curriculum Generator:利用大型語言模型自動生成任務,構建逐步遞進的學習課程,并維護動態更新的軟件指南。
- 自主演化的課程學習范式通過多階段迭代,系統從基礎任務開始,依據Actor模型的能力和任務完成情況,自動生成更復雜多樣的任務,實現任務集的自我進化。此過程無需人工干預,形成閉環的自適應訓練機制。
- 強化學習策略創新
- 獎勵模型改進:World State模型對整個操作軌跡進行綜合分析,提供精確的步驟級獎勵,顯著優于傳統僅依賴最終狀態的獎勵機制。
- 對失敗動作的對抗模仿:通過最大化策略與失敗動作的差異,顯式懲罰錯誤行為,提升探索效率。
- **Group Relative Policy Optimization (GRPO)**:基于驗證獎勵計算相對優勢,促進策略優化,支持多樣化自由形式的推理和規劃。
- 專家到通用者的訓練策略先分別訓練針對單一軟件的專家模型,再通過監督微調整合成功軌跡,最終在多軟件環境中進行強化學習微調,獲得性能超越單一專家集成的通用模型,解決了直接訓練通用模型性能不佳的問題。
- 理論基礎與對比分析SEAgent結合了強化學習、模仿學習和課程學習的優勢,創新性地設計了獎勵和任務生成機制,顯著提升了CUA在新軟件環境中的自適應能力,優于傳統依賴靜態數據和單一獎勵信號的方法。
實驗設計與結果分析


- 實驗環境與基線選用五款專業辦公軟件(如VSCode、GIMP、Impress等)作為測試環境,基線包括UI-TARS、DigiRL、WebRL等開源CUA模型及大型商業模型(GPT-4o、Gemini等)。
- 獎勵模型評估World State模型在AgentRewardBench和OS-World數據集上進行評測,表現出較高的精準率和負預測值,尤其在考慮完整操作軌跡的條件下,顯著優于其他開源模型,且接近GPT-4o水平,保證了訓練中獎勵信號的準確性和穩定性。
- 自我演化訓練過程采用三階段迭代訓練,課程生成器自動升級任務復雜度,Actor模型不斷通過強化學習優化策略。實驗顯示,成功率從初始的11.3%提升至32.2%(專家模型),進一步通過專家到通用者策略提升至34.5%。
- 專家與通用模型對比通用模型在多軟件環境中表現超越單個專家模型的集成,驗證了專家到通用者訓練策略的有效性。相比直接訓練通用模型,專家先行訓練顯著提升了學習效率和最終性能。
- 消融實驗證明了World State模型作為獎勵信號生成器的關鍵作用,以及強化學習框架中對抗模仿和GRPO策略對性能提升的貢獻,強調了從失敗和成功中學習的重要性。
結論與展望
- 研究貢獻總結本文提出了SEAgent,一種基于自主探索和經驗學習的計算機使用代理框架,核心創新包括細粒度軌跡評估的World State模型、自適應課程生成機制和專家到通用者的訓練策略。實驗驗證了其在多種專業軟件環境下顯著提升CUA性能的能力。
- 局限性分析
- 當前獎勵信號依賴于World State模型的評估,尚未實現與真實環境的直接反饋結合。
- 任務復雜度和持續時間仍有限,尚未覆蓋人類專家長時間、多步驟的復雜工作流程。
- 未來研究方向
- 探索更豐富和真實的獎勵信號來源,提升環境交互的真實感和反饋質量。
- 擴展系統以支持更長時序、更復雜的任務,適應真實世界中專業軟件的復雜操作需求。
- 探討該框架在游戲和實體機器人等其他智能體系統中的應用潛力,推動智能代理的跨領域發展。
HPSv3: Towards Wide-Spectrum Human Preference Score
2025-08-05|MizzenAI, CUHK MMLab, KCL, Shanghai AI Lab, CPII|ICCV 2025|??12
??http://arxiv.org/abs/2508.03789v1???
???https://huggingface.co/papers/2508.03789???
???https://mizzenai.github.io/HPSv3.project/??
研究背景與意義

- 背景概述:隨著文本到圖像生成模型的快速發展,評估這些模型的質量越來越依賴于與人類主觀感知高度一致的指標。現有的人類偏好評估指標如HPS、ImageReward、PickScore等,雖然引入了人類反饋,但在數據覆蓋范圍、特征提取能力和訓練方法等方面存在局限,難以全面反映多樣化生成模型的表現。
- 問題定義:當前評估方法受限于訓練數據的質量和多樣性,主要集中在擴散模型生成的圖像,缺乏對最新模型及高質量真實圖像的覆蓋,且缺乏對注釋不確定性的有效建模,導致偏好預測準確性不足。
- 研究目標:本研究旨在構建一個覆蓋更廣泛模型類型和圖像質量范圍的“寬頻譜”人類偏好數據集(HPDv3),并基于此設計一個基于視覺語言模型(VLM)且引入不確定性感知的排序損失函數的偏好評分模型(HPSv3),以提升人類偏好預測的準確性和泛化能力。同時,提出一種基于人類偏好的鏈式推理迭代優化方法(CoHP),用于改進圖像生成質量。
研究方法與創新


- 數據集構建:HPDv3集成了1.08百萬文本-圖像對和1.17百萬對圖像偏好注釋,涵蓋了包括GAN、擴散和自回歸等16種生成模型的輸出,以及高質量真實攝影圖像。數據來源多樣,包括用戶生成的Midjourney圖像、互聯網真實照片(通過VLM自動生成描述)、以及多個文本提示類別,保證了數據的廣泛性和多樣性。注釋過程嚴格,采用9至19名專業注釋員進行多重標注,確保超過76.5%的高一致性,顯著優于前代數據集。
- 偏好評分模型設計:HPSv3采用Qwen2-VL視覺語言模型作為骨干,提取圖像和文本的多模態特征,并通過多層感知機(MLP)進行偏好評分映射。創新性地引入了不確定性感知的排序損失,將評分視為高斯分布,建模注釋中的不確定性,有效緩解了標注噪聲帶來的影響,提升了模型對細微偏好差異的識別能力。
- 迭代推理優化框架(CoHP):CoHP基于HPSv3作為獎勵模型,設計了兩階段的迭代篩選機制——模型級選擇階段通過多輪評分選出最優生成模型,樣本級選擇階段則迭代優化單個提示下生成圖像的細節和語義一致性。該方法無需額外訓練數據,利用鏈式推理思想系統性提升生成圖像的整體質量和人類偏好匹配度。
實驗設計與結果分析




- 實驗設計:構建包含12,000條提示的HPDv3基準測試集,涵蓋多種圖像類別和模型生成的圖像。采用11個主流生成模型生成圖像,并使用HPSv3及其他主流偏好模型進行評分比較。訓練HPSv3時,使用1.5百萬高置信度的注釋對,訓練參數充分,采用448×448分辨率輸入。
- 結果分析:
a.在模型排名任務中,HPSv3與人類偏好具有最高的相關性(Spearman r=0.94,Kendall τ=0.82),明顯優于HPSv2、PickScore和ImageReward,體現了其卓越的判別能力和泛化性。
b.在多數據集偏好預測準確率測試中,HPSv3分別在PickScore、HPDv2和HPDv3測試集上達到72.8%、85.4%和76.9%的準確率,領先其他模型顯著,且在更具挑戰性的HPDv3數據集上表現尤為穩定。
c.消融實驗表明,采用Qwen2VL-7B骨干和不確定性感知排序損失顯著提升性能,較CLIP和較小骨干模型分別提升10%以上準確率,驗證了方法設計的有效性。
d.CoHP框架實驗顯示,通過4輪模型選擇和樣本選擇迭代,生成圖像的HPSv3評分持續提升,圖像質量和語義一致性顯著增強,優于基于其他偏好模型的迭代方法。
e.用戶研究進一步證實CoHP-HPSv3生成的圖像在真實人類評估中具有更高的偏好得分,勝率遠超其他方法。
結論與展望
- 研究貢獻總結:本研究成功構建了首個覆蓋廣泛模型和圖像質量范圍的寬頻譜人類偏好數據集HPDv3,極大豐富了文本到圖像生成評估的數據基礎。基于該數據集,提出的HPSv3模型利用VLM強大特征表達和不確定性感知排序損失,實現了對人類偏好的精準建模,顯著優于現有方法。進一步,CoHP推理框架創新性地將偏好評分應用于生成過程的迭代優化,提升了圖像生成的整體質量和人類滿意度。
- 局限性分析:盡管HPDv3數據集規模龐大且多樣,但仍依賴人工注釋,存在成本和時間限制。HPSv3模型雖提升了偏好預測準確性,但在極端復雜語義或風格上仍有提升空間。CoHP方法的迭代過程增加了生成計算開銷,實際應用需權衡效率與質量。
- 未來展望:未來可探索結合更大規模多模態預訓練模型,進一步提升偏好模型的泛化能力和細粒度識別能力。同時,可研究自動化注釋策略降低人工成本,擴展數據集多樣性。CoHP框架可與生成模型的訓練過程深度融合,實現端到端的偏好驅動生成優化。此外,拓展該方法至視頻、三維等多模態生成領域,推動人類偏好對生成內容的全面引導。
本文轉載自??AI研究前瞻??,作者:胡耀淇

















