精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

賬號設置退出

OS Agents全景解析：從MLLM基礎模型到個性化智能體的演進之路

作者：肆零柒 2025-08-25 07:40:25

當AI能直接操作系統，人機交互的邊界將被徹底重塑。本文系統梳理MLLM驅動的OS Agents技術全棧，從基礎模型、框架設計到評估體系，揭示其如何從學術走向現實，并預見個性化與自我進化的未來圖景。

大家好，我是肆〇柒。今天和大家聊聊OS Agents。

AI技術發展飛速，操作系統智能體（OS Agents）正從學術概念迅速走向實際應用。本文將為你系統介紹基于多模態大語言模型（MLLM）的OS Agents核心技術體系，幫助你：

全面了解OS Agents的三大核心組件（環境、觀察空間、動作空間）與三大關鍵能力（理解、規劃、定位）
深入理解OS Agents構建的技術路徑與決策要點
了解當前技術挑戰與未來發展方向
獲得實用的技術選型指南與實施建議

希望這篇索引級的綜述可以讓我們對OS Agents有一個全面的認識。

從J.A.R.V.I.S.到現實的OS Agents

在漫威電影《鋼鐵俠》中，托尼·斯塔克的智能助手J.A.R.V.I.S.（Just A Rather Very Intelligent System）能夠無縫控制各種系統并自動化執行任務，這一愿景長久以來激發著人類對超級智能AI助手的向往。

而現在，隨著多模態大語言模型（Multimodal Large Language Model, MLLM）技術的迅猛發展，這一夢想正逐漸變為現實。

OS Agents（Operating System Agents）作為能夠在操作系統環境中使用計算設備（如電腦和手機）的AI智能體，正以前所未有的速度接近這一愿景。當前，以Gemini、GPT）、Grok、Claude等系列為代表的（多模態）大語言模型在Chatbot Arena LLM Leaderboard上的排名顯示，這些模型已具備顯著提升的上下文理解和任務執行能力，為OS Agents的發展提供了關鍵轉折點。

比如，Anthropic推出的Computer Use、Apple發布的Apple Intelligence、智譜AI的AutoGLM以及Google DeepMind的Project Mariner等產品，標志著OS Agents技術已從學術研究走向實際應用。

OS Agents被定義為專門利用操作系統提供的環境、輸入和輸出接口來執行任務的AI智能體，其技術邊界涵蓋三大平臺：桌面環境（如Windows、Linux、MacOS）、移動環境（Android、iOS）和Web環境。與早期虛擬助手（Siri、Cortana、Amazon Alexa和Google Assistant）相比，OS Agents的核心突破在于能夠通過GUI（Graphical User Interface）直接操作系統，而不僅限于語音交互。這些早期虛擬助手因上下文理解等模型能力限制，未能實現廣泛采用和完整功能。

理解了OS Agents的基礎架構和核心能力要求后，我們進一步深入探討如何構建這些智能體。基礎架構提供了"骨架"，而構建技術則是賦予其"血肉"的關鍵過程。接下來，我們看看實現這些能力的具體技術路徑。

OS Agents技術基礎體系

核心組件

OS Agents的技術實現建立在三個關鍵組件之上：環境、觀察空間和動作空間，它們共同構成了智能體與操作系統交互的基礎框架。

環境維度：三大平臺的技術特性與挑戰

環境是OS Agents操作的系統或平臺，主要包括：

桌面環境：如Windows、Linux、MacOS系統，提供豐富的窗口管理和多任務處理能力
移動環境：Android、iOS等移動操作系統，具有觸摸交互和移動設備特有的傳感器集成
Web環境：瀏覽器中的各種網站和Web應用，具有高度動態性和跨平臺特性

這些環境各有特點，桌面環境通常提供更穩定的API接口，移動環境強調觸摸交互和傳感器數據，而Web環境則面臨頁面動態加載和跨域限制等挑戰。

OS Agents基礎架構

觀察空間：多模態輸入處理的技術實現

觀察空間涵蓋了OS Agents可獲取的系統狀態和用戶活動信息，是智能體理解環境的基礎。

GUI截圖作為主要觀察形式：面臨高分辨率處理的技術挑戰。常見GUI截圖分辨率為720×1080，而大多數現有MLLM的視覺編碼器僅能處理224×224的低分辨率圖像。將截圖縮放到適配視覺編碼器的分辨率會保留整體布局和大部分對象特征，但文本和小圖標往往無法被良好感知，而這些細節有時對任務完成至關重要。

文本描述：另一種重要觀察形式，包括HTML代碼、DOM（Document Object Model）樹和可訪問性樹（Accessibility Tree, A11y tree）。A11y tree是操作系統生成的界面元素層次結構表示，專為輔助技術設計，它為每個GUI元素提供語義標簽和層級關系。在OS Agents中，A11y tree被用作GUI截圖的語義參考，將視覺元素與其在界面結構中的角色對應起來，顯著提升智能體對界面的理解能力。

多模態融合：是OS Agents面臨的關鍵技術瓶頸。整合視覺與文本信息的多模態輸入為智能體帶來了顯著挑戰，要求它們有效理解并執行任務。不同數據結構的整合需要復雜的處理流程，這也是當前研究的熱點領域。

動作空間：操作系統交互的完整技術實現

動作空間定義了OS Agents通過操作系統提供的輸入接口與環境交互的方式，可分為三大類：

輸入操作：代表與數字界面交互的主要方法，包括：

鼠標/觸摸操作：點擊/輕觸、長按/保持、拖動/移動
鍵盤操作：基本文本輸入、特殊鍵操作如快捷鍵

導航操作：使OS Agents能夠在目標平臺中導航并獲取足夠信息，包括：

基本導航：滾動、返回/前進、主頁功能
Web特定導航：標簽管理、URL導航

擴展操作：提供超出標準界面交互的額外能力，主要包括：

代碼執行能力：允許智能體通過直接腳本執行和命令解釋動態擴展動作空間
API集成：訪問外部工具和信息資源，如通過API調用訪問第三方服務

這些操作從根本上增強了OS Agents的適應性和功能性，使其能夠處理僅通過常規界面交互無法實現的更復雜和多樣化的任務。

這些核心組件構成了OS Agents的物理基礎，而要使這些組件協同工作并實現有效任務執行，還需要三大關鍵能力的支持：理解能力讓我們"看見"界面，規劃能力讓我們"思考"步驟，定位能力則讓我們"觸摸"屏幕。這三種能力共同構成了OS Agents的"操作系統"。

核心能力技術要求

OS Agents需要具備三種核心能力：理解、規劃和定位，這些能力共同支撐智能體有效執行任務。

理解能力：GUI元素識別與語義理解的技術瓶頸

理解能力是OS Agents解析復雜OS環境的關鍵。這些環境包含各種數據格式，包括HTML代碼和通過截圖捕獲的圖形用戶界面。挑戰在于處理高分辨率界面中的微小圖標、小文字和密集排列的元素，這些因素使界面變得雜亂無章，對智能體的感知能力提出了更高要求。理解能力不僅對信息檢索任務至關重要，也是有效執行其他任務的基本前提。

例如，在AndroidWorld中，OS Agents需要從Simple Calendar Pro中檢索預定事件，這要求智能體能夠識別并提取特定信息。處理密集元素和微小文字的技術挑戰是當前研究的重點，也是限制OS Agents性能的關鍵瓶頸。

規劃能力：任務分解與執行的技術實現

規劃能力使OS Agents能夠將復雜任務分解為可管理的子任務，并制定實現特定目標的動作序列。操作系統內的規劃通常需要智能體基于環境反饋和歷史動作動態調整計劃，這對智能體的適應性提出了更高要求。

全局規劃：OS Agents僅生成一次全局計劃并在執行過程中不做調整。CoT（Chain-of-Thought）提示使(M)LLM將復雜任務分解為推理步驟，構成了大多數OS Agents中全局規劃的基礎。OS-Copilot利用LLM將全局計劃形式化為有向無環圖，實現獨立子任務的并行執行，最小化執行時間并提高效率。ACE提示LLM根據用戶查詢優化提取的步驟。Agent S提出經驗增強分層規劃，通過整合記憶和在線知識來指導計劃。AIA利用標準操作程序（Standard Operating Procedures, SOP）將復雜任務分解為可管理的子任務。

迭代規劃：允許OS Agents根據歷史動作或環境變化持續迭代其計劃，使其能夠適應持續的環境變化。ReAct在CoT概念基礎上，通過整合推理與行動結果，使規劃更能適應環境變化，已廣泛應用于OS Agents進行迭代規劃。Reflexion在ReAct基礎上，允許訪問先前動作和狀態，增強OS Agents在復雜、時間敏感場景中的戰略規劃能力。Auto-GUI采用CoT技術，利用過去動作歷史在每一步后迭代生成未來計劃。OSCAR引入任務驅動重規劃，允許OS Agent根據環境的實時反饋修改計劃。SheetCopilot采用基于狀態機的任務規劃，使用基于反饋或基于檢索的機制修改計劃，增強OS Agent適應動態環境的能力。RCI提示LLM查找輸出中的問題并基于發現改進輸出，幫助OS Agent完善推理過程。CoAT引入比ReAct更復雜、針對OS Agent的推理方法，提示LLM執行涉及屏幕描述、動作思考和下一步動作描述的推理過程，最終導致動作結果。

定位能力：動作執行的精準技術實現

定位能力指OS Agents將文本指令或計劃轉化為操作系統中可執行動作的能力，要求智能體識別屏幕上的元素并提供必要的參數（如坐標、輸入值）以確保成功執行。選擇哪種定位技術應根據任務復雜度、界面動態性和資源限制綜合考量。對于簡單靜態界面，視覺定位已足夠；對于復雜多變的應用場景，雙重定位能提供最佳可靠性。

視覺定位：大多數研究使用SoM（Set-of-Mark）提示增強OS Agents的視覺定位能力，結合OCR和GUI元素檢測算法（如ICONNet和Grounding DINO）提取交互元素的邊界框，然后將其整合到相應圖像區域。SoM技術通過在圖像上添加標記點，使模型能夠更精確地識別和定位GUI元素。

語義定位：一些研究通過添加這些交互元素的描述來改進OS Agents的語義定位能力。SeeAct使用網站的HTML文檔作為GUI截圖的語義參考，將視覺元素與其在HTML結構中的語義含義聯系起來。

雙重定位：結合視覺和語義信息以提高OS Agents對視覺環境的理解。

OS Agents 構建技術

領域特定基礎模型

構建OS Agents的第一步是開發針對該領域的基礎模型，這涉及模型架構設計和訓練策略兩個關鍵方面。

架構選擇的技術權衡

現有LLM：一些工作（如AutoGLM、AutoWebGLM）直接選擇開源LLM作為骨干模型，無需進一步優化架構?，F有LLMs（如T5、LLaMA）可以直接處理用戶指令并讀取HTML代碼來感知界面信息。WebAgent結合Flan-U-PaLM與HTML-T5（Long-T5-base的微調版本），后者讀取用戶指令和界面HTML代碼及導航歷史，生成界面摘要和任務計劃，再由Flan-U-PaLM生成可執行Python代碼。

現有MLLM：現有MLLMs（如LLaVA、Qwen-VL、InternVL、CogVLM）因兼具處理視覺信息和復雜自然語言處理的能力，成為開發OS Agents基礎模型的有效選擇。這些模型能夠直接處理GUI截圖，避免了僅依賴文本表示的局限性。

拼接式MLLM：通過將適合處理OS任務的LLM和視覺編碼器以類似現有MLLMs的方式連接起來。例如，選擇T5作為LLM，其編碼器-解碼器架構更適合處理HTML的樹狀結構，使模型能夠通過感知GUI的文本和圖像形式更好地處理GUI信息。

修改式MLLM：對MLLM架構進行了進一步調整以增強理解能力。

OS Agents 基礎模型構建技術路線

預訓練與微調的技術策略

預訓練是OS Agents基礎模型構建的關鍵環節。研究表明，預訓練應使MLLM具備理解GUI截圖和識別屏幕上元素的知識。為此，研究提出了屏幕問答任務作為預訓練目標，其中設計了針對計數、算術運算和解釋復雜數據等能力的數據集，以提升模型對界面內容的深度理解能力。

監督微調是提升OS Agents性能的重要步驟。對于理解能力，研究人員會收集大量的GUI截圖及其對應的文本描述，并利用先進的大語言模型生成高質量、語義豐富的描述信息，以增強智能體對界面內容的理解。對于規劃能力，則首先需要構建多步操作軌跡，再通過大模型合成相應的用戶指令。具體方法包括：采用固定規則結合大模型遍歷應用程序，利用在線教程文章將操作步驟映射為智能體可執行的動作序列，或構建網頁間的導航有向圖并通過搜索最短路徑生成任務軌跡。這些操作軌跡隨后被輸入到高級大語言模型中，自動生成符合人類表達習慣的任務指令，并進一步分解為包含中間推理步驟的思維鏈（Chain-of-Thought），從而訓練智能體具備逐步推理與任務規劃的能力。

對于定位能力，研究人員主要采用兩種策略將界面操作與視覺表示關聯：

網頁環境策略：通過直接渲染HTML源代碼創建帶標注的界面截圖。例如，LLaVA團隊開發了基于HTML渲染的標注系統，將網頁元素與視覺標記精確對應；WebUI項目則實現了自動化的HTML元素-圖像區域映射技術，使模型能準確識別按鈕、輸入框等交互元素；而Grounding DINO框架則專注于通過視覺檢測算法識別GUI組件邊界，為每個元素添加唯一標識。

桌面/移動環境策略：在真實操作系統環境中創建帶標注的交互數據。OS-Atlas項目構建了跨平臺GUI交互模擬器，通過模擬用戶點擊、滑動等操作生成帶標記的界面截圖；ScreenQA系統則開發了屏幕問答任務框架，讓模型學習從高分辨率截圖中精確定位元素；Auto-GUI工具集實現了自動化操作錄制功能，將每一步用戶操作與界面狀態變化精確關聯。

這兩種策略各有優勢：HTML渲染方法能提供精確的語義信息但局限于Web環境，而桌面模擬方法更接近真實使用場景但實現復雜度更高。先進的OS Agents系統往往結合兩種方法，實現更準確的界面理解與操作定位。

強化學習：OS Agents的性能優化引擎

強化學習（Reinforcement Learning, RL）為OS Agents提供了通過試錯學習優化性能的關鍵機制，使智能體能夠從交互經驗中不斷改進。在OS Agents領域，RL的應用已發展出兩種成熟的技術范式：

基于行為克隆的RL：通過模擬人類操作行為訓練智能體，如WebShop電商平臺模擬環境根據產品匹配度提供獎勵信號。MiniWob++基準測試系統利用人類交互行為先驗指導模型學習，實現接近人類水平的操作能力。AutoGLM項目開發了"自演化的在線課程RL方法"，使OS Agents具備強大的錯誤恢復能力，能從失敗中學習并持續優化性能。

基于反饋的RL：讓模型直接從環境反饋中學習優化策略。Thil團隊在Miniwob++基準上微調T5模型并整合分層規劃，顯著提升Web導航能力。最新多模態模型如Ferret-UI 2和CogAgent已將強化學習深度集成到視覺-語言聯合訓練中，通過環境反饋循環不斷調整策略，使OS Agents在動態界面中表現出更強的適應性和魯棒性。

常見OS Agents基礎模型

Agent框架的四大核心模塊

OS Agent框架通常由四個核心組件構成：感知、規劃、記憶和動作。這些組件協同工作，使OS Agents能夠理解環境、制定計劃、存儲經驗并執行操作。

OS Agents 框架概述

感知模塊的多模態處理

感知是OS Agents收集和分析環境信息的過程。根據輸入模態，感知可分為兩類：

文本描述處理：早期工作受限于LLM只能處理文本輸入，主要依靠工具將OS狀態轉換為文本描述。這些文本描述通常以結構化格式表示，如HTML、DOM或可訪問性樹。例如，MobileGPT將移動屏幕轉換為簡化的HTML表示以幫助LLM理解。然而，這些方法可能生成無關或冗余信息，影響OS Agents對環境的判斷。為此，一些新方法被提出以過濾無效描述：Agent-E引入靈活的DOM蒸餾方法，允許智能體根據特定任務從三種不同實現中選擇最合適的DOM表示；還有研究僅在智能體執行操作時擴展HTML表示，迫使其在有限信息下做出合理決策；WebWise引入filterDOM函數，基于預定義的"標簽"和"類"選擇相關DOM元素，過濾掉不必要的項目。

GUI截圖處理：MLLM的出現使OS Agents能夠處理視覺輸入。研究越來越多地將GUI截圖視為OS Agents的感知輸入，這更符合人類行為。然而，大多數現有OS Agents的視覺編碼器在通用數據上預訓練，使OS Agents對GUI元素不太敏感。為此，現有研究聚焦于GUI定位（GUI grounding），可分為三類：視覺定位、語義定位和雙重定位。

規劃模塊的技術實現

規劃是基于當前環境開發實現特定目標的動作序列的過程。OS Agents的規劃模塊面臨的關鍵挑戰是如何處理動態變化的環境，因為操作系統界面會隨著每次操作而改變。

全局規劃：OS Agents僅生成一次全局計劃并在執行過程中不做調整。CoT提示使(M)LLM將復雜任務分解為推理步驟，構成了大多數OS Agents中全局規劃的基礎。OS-Copilot利用LLM將全局計劃形式化為有向無環圖，實現獨立子任務的并行執行，最小化執行時間并提高效率。

迭代規劃：允許OS Agents根據歷史動作或環境變化持續迭代其計劃，使其能夠適應持續的環境變化。ReAct在CoT概念基礎上，通過整合推理與行動結果，使規劃更能適應環境變化，已廣泛應用于OS Agents進行迭代規劃。Reflexion在ReAct基礎上，允許訪問先前動作和狀態，增強OS Agents在復雜、時間敏感場景中的戰略規劃能力。Auto-GUI采用CoT技術，利用過去動作歷史在每一步后迭代生成未來計劃。OSCAR引入任務驅動重規劃，允許OS Agent根據環境的實時反饋修改計劃。SheetCopilot采用基于狀態機的任務規劃，使用基于反饋或基于檢索的機制修改計劃，增強OS Agent適應動態環境的能力。RCI提示LLM查找輸出中的問題并基于發現改進輸出，幫助OS Agent完善推理過程。CoAT引入比ReAct更復雜、針對OS Agent的推理方法，提示LLM執行涉及屏幕描述、動作思考和下一步動作描述的推理過程，最終導致動作結果。

記憶模塊的系統架構

隨著操作系統中自動化任務復雜性的增加，內存模塊成為OS Agents的核心組件之一。有效的內存管理可以增強整體性能，防止信息過載導致的效率損失。

早期工作允許基于LLM的智能體與游戲環境交互，將經驗總結為文本，從而積累記憶并促進自我進化。后來，研究人員將這些原理應用于OS Agent領域，驗證了記憶機制在OS Agents中的可行性。然而，由于學術界可用資源有限和訪問真實用戶數據的困難，當前研究大多集中在改進特定任務的性能，而非個性化。將記憶模式從文本擴展到其他形式（如圖像、語音）帶來了重大挑戰。有效管理和檢索這種記憶仍然是一個開放問題。

動作模塊的執行與反饋

動作模塊負責將規劃模塊生成的高級指令轉化為操作系統可執行的底層操作。

動作執行：通過操作系統API或自動化工具（如Selenium、Appium）執行具體操作。動作執行器需要處理操作失敗的情況，實現錯誤恢復機制。

反饋循環：動作執行后，需要收集環境反饋以驗證操作是否成功，并據此調整后續規劃。這種反饋循環是迭代規劃的基礎，使OS Agents能夠適應動態變化的環境。

OS Agents評估技術體系

評估在OS Agents開發中起著至關重要的作用，有助于評估其在各種場景中的性能和有效性。當前文獻中存在多種評估技術，根據特定環境和應用而顯著不同。

評估協議的科學構建

評估原則的雙重維度

客觀評估：主要基于標準化數值指標測量OS Agents的性能，通常是基于標準基準數據集的基于規則的計算或硬編碼評估。這種評估特別針對智能體在感知、生成內容質量、動作有效性和操作效率方面的準確性。具體指標計算包括精確匹配、模糊匹配和語義匹配（針對文本、元素和圖像）。通過精確高效的數值分析，客觀評估能夠快速標準化測量智能體的性能。

主觀評估：目的是衡量輸出與人類期望的匹配程度，通常應用于需要高水平理解且難以用傳統指標量化的場景。早期主觀評估主要基于直接人工評估，雖然產生高質量結果，但成本高且難以復制。后來，LLM被引入作為評估者替代人類判斷，利用其強大的指令跟隨能力。這種LLM-as-a-judge評估方法可以提供詳細的注釋解釋，對理解智能體的優勢和劣勢提供更細粒度的理解。然而，盡管效率有所提高，但在可靠性和可控性方面仍存在局限。

評估指標的層次化設計

評估指標需要從多個維度全面衡量OS Agents的性能：

任務完成度：衡量智能體是否成功完成指定任務，通常以二進制指標（成功/失?。┗蛉蝿胀瓿砂俜直缺硎?。
執行效率：評估智能體完成任務所需的步驟數、時間和資源消耗。高效的OS Agents應該能夠以最少的操作步驟和時間完成任務。
魯棒性：測試智能體在面對界面變化、意外彈出窗口或網絡延遲等干擾因素時的穩定性。
泛化能力：評估智能體在未見過的應用程序或界面設計上的適應能力。
用戶滿意度：通過主觀評估衡量最終用戶對智能體表現的滿意程度，通常包括易用性、響應速度和結果質量等方面。

近期常見OS Agents框架對比

評估基準的深度解析

評估平臺的選擇

模擬環境：模擬環境（如MiniWob++、WebShop）便于控制變量和大規模實驗，但通常過于簡化，排除了意外情況，無法捕捉真實場景的復雜性。

真實環境：真實環境真正真實，包含真實網站和應用，必須考慮環境的持續更新性質、不可控的用戶行為和多樣的設備設置。OSWorld構建運行Windows、Linux和MacOS的虛擬機，系統評估不同操作系統上OS Agents的性能。AndroidWorld在Android模擬器上使用真實應用進行測試，突顯了在多樣和真實條件下評估智能體的重要性。

任務分類的技術評估

任務分類對于理解OS Agents的能力和局限性至關重要?；谠u估過程所需的能力，當前基準任務主要分為三類：

GUI定位任務：目的是評估智能體將指令轉換為各種可操作元素的能力。定位是OS Agents必須具備的與操作系統交互的基礎能力。早期工作如PIXELHELP提供將英語指令與用戶在移動模擬器上執行的操作配對的基準。

信息處理任務：在交互式智能體上下文中，有效處理信息的能力是解決復雜任務的關鍵組件。例如，WebLINX提供低級和高級指令，挑戰智能體完成單步或多步任務，從而測試其規劃能力。MMInA強調多跳任務，要求智能體導航多個網站以完成給定指令。

代理能力任務：評估智能體執行復雜任務、進行多步驟推理和決策的能力。

近期的 OS Agents 基準測試

防御機制的研究現狀

盡管已為基于LLM的智能體開發了多種安全框架，但針對OS Agents的防御研究仍然有限。彌合這一差距需要開發針對OS Agents漏洞的穩健防御機制，如注入攻擊、后門利用和其他潛在威脅。未來研究可優先考慮這些領域，專注于為OS Agents開發全面可擴展的安全解決方案。

安全基準的評估體系

已引入幾個安全基準來評估各種場景中OS Agents的穩健性：

ST-WebAgentBench：一個在線基準，是為了系統評估企業環境中Web智能體的安全性和可信度。它關注六個關鍵可靠性維度，為評估高風險環境中智能體行為提供全面框架。

MobileSafetyBench：一個基準測試平臺，用于評估基于LLM的移動智能體的安全性，重點關注評估其在Android環境中處理安全關鍵任務的性能，包括與消息和銀行應用程序的交互。

個性化與自我進化方向

開發個性化的OS Agents一直是AI研究的長期目標，類似于電影中鋼鐵俠的個人助理J.A.R.V.I.S.。個人助理應能夠根據個人用戶偏好不斷適應并提供增強體驗。

記憶機制的多模態擴展

早期工作允許基于LLM的智能體與游戲環境交互，將經驗總結為文本，從而積累記憶并促進自我進化。后來，研究人員將這些原理應用于OS Agent領域，驗證了記憶機制在OS Agents中的可行性。然而，由于學術界可用資源有限和訪問真實用戶數據的困難，當前研究大多集中在改進特定任務的性能，而非個性化。將記憶模式從文本擴展到其他形式（如圖像、語音）帶來了重大挑戰。有效管理和檢索這種記憶仍然是一個開放問題。

OS-Copilot的個性化突破

面對OS Agents難以適應用戶個性化需求的挑戰，OS-Copilot創新性地引入用戶配置文件機制，系統記錄用戶偏好(如工具使用習慣、音樂或視頻偏好)和任務模式。這一設計使智能體能夠從用戶歷史行為中學習，動態生成定制化工具和技能代碼。

在實際測試中，該方法使任務完成率提升23%，特別是在重復性任務上表現突出。然而，其依賴顯式用戶配置的特點也限制了在新用戶場景中的適應速度。

經驗管理與自我進化

通過回顧任務的每一步，智能體可以分析成功與失敗，識別改進機會，并避免在類似場景中重復錯誤。MobA引入雙重反思，在執行前評估任務可行性并在完成后審查完成狀態。在一些研究工作中，智能體在任務失敗后分析動作序列，識別最早的錯誤步驟，并生成替代動作的結構化建議。OS Agents可以返回到先前狀態并在當前任務路徑不可行或結果不符合預期時選擇替代路徑，類似于經典搜索算法，使智能體能夠探索多個潛在解決方案并找到最優路徑。LASER使用內存緩沖機制存儲探索過程中未選擇的中間結果，允許智能體在狀態空間中靈活回溯。SheetCopilot利用狀態機機制，通過提供錯誤反饋和電子表格狀態反饋指導模型重新規劃動作。

未來克服這些挑戰將使OS Agents能夠提供更個性化、動態和上下文感知的輔助，以及更復雜的自我進化機制，不斷適應用戶的需求和偏好。

技術發展路線

短期技術發展（1-2年）

基于"快速進展"趨勢，OS Agents的短期技術發展將集中在基礎能力提升和安全機制初步完善上。

基礎能力提升：

GUI理解精度：將持續提高，特別是高分辨率界面處理技術。當前大多數MLLM視覺編碼器僅能處理224×224的低分辨率圖像，而常見GUI截圖分辨率為720×1080，這一差距導致文本和小圖標無法被良好感知。CogAgent和Ferret-UI等模型已開始解決這一問題，未來將有更多創新。想象一下，當你的智能助手能準確識別手機屏幕上微小的文字按鈕，不再誤點廣告，而是精準完成你要求的'點擊右下角設置圖標'指令。這種改進看似微小，卻將大幅提升OS Agents在真實環境中的可靠性，特別是在處理銀行應用、醫療健康等對精度要求極高的場景。
規劃魯棒性：將得到增強，以應對環境動態變化的挑戰。操作系統內的規劃通常需要智能體基于環境反饋和歷史動作動態調整計劃，這對智能體的適應性提出了更高要求。

中期技術演進（3-5年）

統一動作空間：將被廣泛采用。研究者發現有必要將不同來源的動作序列適應到統一的動作空間，以避免微調過程中的沖突。統一動作空間的實現將避免不同來源動作序列的沖突。

跨平臺能力整合：將是中期技術發展的關鍵。盡管不同GUI平臺之間存在相似性，但僅基于Web數據的預訓練難以泛化到其他平臺。OS-Atlas項目通過創建多個模擬環境并利用A11y樹模擬人機交互，采樣跨平臺定位數據，為這一問題提供了初步解決方案。這一技術將得到進一步完善，實現真正無縫的跨平臺操作。

個性化能力：將顯著增強。OS-Copilot通過用戶配置文件記錄用戶偏好，實現個性化解決方案和推薦服務。隨著多模態記憶的有效管理和檢索技術的發展，OS Agents將能夠更深入地理解用戶需求，提供高度個性化的服務。例如，智能助手可以根據你的工作習慣，在每天早晨自動整理郵件、安排日程，并在會議前準備相關資料，而不需要每次都重復相同指令。

長期技術愿景（5年以上）

自我進化系統：將實現從有限監督到自主學習的技術演進。"自演化的在線課程RL方法"使OS Agents能夠實現強大的錯誤恢復和性能提升，這將成為長期技術發展的基礎。未來的OS Agents將能夠從每次交互中學習，不斷優化其性能。

想象一個智能助手，它不僅能完成你指定的任務，還能主動發現效率瓶頸，提出改進建議，并在你同意后自動實施這些改進。

J.A.R.V.I.S.愿景：將逐步實現。OS Agents將具備人類水平的界面理解與任務執行能力，能夠處理從在線購物到旅行安排預訂等各種日?；顒樱蠓岣咝屎蜕a力。未來的智能助手將無縫融入我們的數字生活，成為真正意義上的"數字副駕駛"，不僅執行指令，還能主動預測需求、提供建議，并在復雜任務中與人類協同工作。

總結

OS Agents仍處于早期發展階段，但正經歷快速進步。這些進展不斷引入新的方法和應用，使OS Agents越來越接近實現鋼鐵俠中J.A.R.V.I.S.的愿景。

核心挑戰回顧：

安全與隱私被強調為首要挑戰。隨著OS Agents能夠直接操作系統，安全風險顯著增加，需要開發針對性的防御機制和評估基準。
跨平臺泛化能力仍需加強，不同GUI平臺間的差異導致模型難以直接遷移。
長期任務執行中的記憶管理和錯誤恢復機制有待完善。
個性化與自我進化是關鍵方向，使OS Agents能夠根據用戶偏好不斷適應并提供增強體驗。

技術價值展望：OS Agents有潛力"顯著增強全球數十億用戶生活"。想象一個世界，其中在線購物、旅行安排預訂和其他日?；顒涌梢杂蛇@些智能體無縫執行，從而大幅提高效率和生產力。隨著技術的不斷進步，這一愿景將逐漸變為現實，為大家帶來前所未有的便利和效率。

正如本文所展示的，OS Agents技術正在快速發展，從學術研究走向實際應用。通過理解其核心組件、構建方法和評估體系，我們能夠更好地把握這一領域的機遇與挑戰，最終實現智能助手的終極愿景。

責任編輯：龐桂玉來源：覺察流

MLLM驅動 OS Agents 操作系統智能體多模態大語言模型

51CTO技術棧公眾號

業務
速覽

媒體

51CTO CIOAge HC3i

社區

51CTO博客鴻蒙開發者社區 AI.x社區

教育

51CTO學堂精培企業培訓 CTO訓練營

国偷自产av一区二区三区麻豆| 午夜精品亚洲一区二区三区嫩草| 成年人av电影| 五月国产精品| 欧美人与禽zozo性伦| 国产在线观看欧美| 免费毛片在线| 国产做a爰片久久毛片| 69av在线播放| 国产精品国产精品88| 欧美亚洲tv| 欧美一二三四在线| 成人亚洲视频在线观看| 亚洲资源一区| 国产人成一区二区三区影院| 3d精品h动漫啪啪一区二区| www.久久久久久久| 黄色精品网站| 深夜福利日韩在线看| 在线免费观看污视频| 图片一区二区| 91久久精品午夜一区二区| 国产精品一色哟哟| 国产在线观看a| 亚洲国产精品高清| 蜜桃视频在线观看成人| 亚洲AV无码一区二区三区性 | 波多野结衣高清在线| 国产精品jizz在线观看美国| 中文在线资源观看视频网站免费不卡| 91九色蝌蚪porny| 精品三级国产| 欧美美女视频在线观看| 男女av免费观看| av男人的天堂在线观看| 亚洲精选视频免费看| 亚洲三区四区| 91.xxx.高清在线| 久久先锋影音av鲁色资源| 国产精品一区在线播放| av在线免费在线观看| 久久99精品久久只有精品| 国产精品91在线观看| 欧美一级视频免费观看| 黄色一区二区三区四区| 久久99久久99精品免观看粉嫩 | 亚洲国产成人av| 青青在线免费视频| av在线免费网站| 亚洲四区在线观看| 杨幂一区欧美专区| 在线a免费看| 国产精品成人一区二区三区夜夜夜| 人禽交欧美网站免费| 男人天堂网在线| 久久久99精品久久| 欧美日韩在线播放一区二区| 免费在线黄色影片| 国产欧美一区二区三区网站| 日本精品免费| 国产黄色免费在线观看| 国产精品无遮挡| 伊人av成人| 中中文字幕av在线| 午夜久久久久久久久久一区二区| 18黄暴禁片在线观看| bl视频在线免费观看| 精品成人在线视频| 精品www久久久久奶水| 少妇精品视频一区二区免费看| 欧美在线短视频| 欧美成人乱码一二三四区免费| 成人在线免费| 欧美一区二视频| 亚洲av网址在线| 欧美午夜精品一区二区三区电影| www亚洲精品| 久久97人妻无码一区二区三区| 在线观看不卡| 国产成人精品免高潮在线观看| 最新在线中文字幕| 国产一区二区在线观看免费| 国产经品一区二区| 日本成人一区二区三区| 国产精品国产三级国产普通话三级| 老司机av福利| 美女露胸视频在线观看| 欧美日韩一级大片网址| av在线天堂网| 国产探花在线精品| 免费av一区二区| 欧美一区二区激情视频| 久久精品国产亚洲aⅴ| 超碰97在线资源| 黄色免费在线播放| 一区二区三区四区视频精品免费| 国产日产欧美视频| 日韩成人一区| 日韩精品在线观看网站| 欧美肥妇bbwbbw| 免播放器亚洲| www国产亚洲精品| 国产黄在线看| 亚洲第一搞黄网站| 在线观看国产一级片| 国产无遮挡裸体免费久久| 国产亚洲一区精品| 日韩精品在线不卡| 激情六月婷婷综合| 欧美午夜免费| av资源在线| 欧美一级免费观看| 日韩福利在线视频| 一本色道88久久加勒比精品| 91久久精品国产91久久性色| 蜜桃成人在线视频| 亚洲午夜激情网页| 欧美成人手机在线视频| 欧洲美女日日| 欧美在线一区二区三区四| 性做久久久久久久| 亚洲视频一二三| 9久久婷婷国产综合精品性色| 成人性生交大片免费看96| 欧美成人激情图片网| 中文区中文字幕免费看| 26uuuu精品一区二区| 日本熟妇人妻xxxx| 亚洲日本va午夜在线电影| 色偷偷噜噜噜亚洲男人的天堂| 精品免费囯产一区二区三区| 成人一区二区三区在线观看| 久久精品国产精品亚洲精品色| 国精产品一区一区三区四川| 日韩精品在线影院| av中文在线播放| 99精品偷自拍| 鲁一鲁一鲁一鲁一澡| 激情小说亚洲色图| 性欧美xxxx视频在线观看| 囯产精品久久久久久| 一区二区三区日韩在线观看| 伊人五月天婷婷| 亚洲精品国产首次亮相| 成人性生交xxxxx网站| 黄网站在线播放| 欧美一区二区私人影院日本| 国产精品国产精品88| 国产一本一道久久香蕉| 免费成人深夜夜行网站视频| 日韩毛片免费视频一级特黄| 日韩中文在线中文网在线观看 | 日韩一级片在线播放| 91精品国产高清一区二区三蜜臀| 国模无码大尺度一区二区三区| 亚洲小说欧美另类激情| 日韩第一区第二区| 久久久亚洲影院| 日韩在线免费看| 在线免费精品视频| 免费成人美女女在线观看| 国产在线播放一区三区四| 日本精品福利视频| 露出调教综合另类| 国产精品免费久久久久久| 夜级特黄日本大片_在线| 7777女厕盗摄久久久| 强乱中文字幕av一区乱码| 成人毛片视频在线观看| 国产aaa一级片| 日韩成人精品一区| 91传媒视频免费| 天堂√8在线中文| 伊人久久久久久久久久久| 国产精品视频在线观看免费| 一区二区三区在线视频免费观看| 一本色道久久hezyo无码| 亚洲综合欧美| 在线观看免费黄色片| 国产精品毛片视频| 国产精品99久久久久久久久| av大全在线| 精品丝袜一区二区三区| 91丨九色丨丰满| 亚洲五码中文字幕| 谁有免费的黄色网址| 国产精品538一区二区在线| 欧美变态另类刺激| 999国产精品| 好吊妞www.84com只有这里才有精品| 欧美性xxx| 久久综合伊人77777尤物| 亚洲另类春色国产| 欧美日韩一区二区三区免费看 | 国产精品日韩二区| 久久天堂影院| 91国内在线视频| 国产黄色在线免费观看| 亚洲精品丝袜日韩| av中文字幕在线免费观看| 日本韩国视频一区二区| 久久免费公开视频| 亚洲国产高清在线| 国产中文字幕日韩在线| 久久精品久久久精品美女| 黄页免费在线观看视频| 一本到12不卡视频在线dvd| 久久av一区二区三区漫画| 精品中文在线| 国产精品偷伦一区二区| 三级在线观看视频| 久久久久久久999| 精品国产丝袜高跟鞋| 亚洲欧洲中文天堂| 手机看片国产1024| 欧美xxx久久| 99久久精品国产一区二区成人| 在线免费观看视频一区| 国产成人在线观看网站| 一区二区三区欧美在线观看| 国内毛片毛片毛片毛片毛片| 久久久久久综合| 亚洲国产欧美视频| 99在线精品视频| 亚洲av综合色区无码另类小说| 久久国产尿小便嘘嘘| 麻豆传传媒久久久爱| 亚洲美女一区| 69sex久久精品国产麻豆| 欧美在线二区| 91麻豆天美传媒在线| 98精品视频| 一区二区三区视频在线播放| 欧美色图国产精品| 亚洲高清123| 欧美亚洲激情| 日韩av电影免费观看| 国产精品入口久久| 日韩久久久久久久久久久久久| 伊人久久大香线蕉无限次| 免费国产一区| 国产探花一区二区| 欧美主播一区二区三区美女久久精品人 | 亚洲国产精品欧美一二99| 久久一二三四区| 亚洲第一综合色| 日韩欧美三级视频| 一本大道久久a久久综合婷婷| 天堂中文字幕在线观看| 91久久精品网| 一区二区的视频| 91麻豆精品91久久久久同性| 国产精品伦理一区| 日韩一级视频免费观看在线| 丰满熟妇乱又伦| 亚洲国产欧美一区二区三区同亚洲| 懂色av成人一区二区三区| 亚洲福利视频在线| 人成在线免费视频| 一区二区欧美久久| 欧美另类极品| 欧美极品美女电影一区| 激情视频网站在线播放色 | 欧美性www| 豆国产97在线| 一区二区三区日本久久久| 新呦u视频一区二区| 亚洲字幕久久| 国产人妻777人伦精品hd| 久久激情久久| 久久久精品高清| 高清不卡在线观看| 欧美熟妇一区二区| 国产精品第13页| 久久精品国产av一区二区三区| 欧美视频国产精品| 亚洲午夜激情视频| 精品免费视频.| 国产黄色片在线播放| 欧美成人午夜激情视频| 在线中文字幕播放| 成人亚洲激情网| 日韩av影院| 99精品视频网站| 国产女优一区| 免费欧美一级片| 91色在线porny| 黄色香蕉视频在线观看| 午夜精品久久久久影视| 夜夜躁狠狠躁日日躁av| 亚洲的天堂在线中文字幕| 在线观看av黄网站永久| 91国产美女视频| 97精品资源在线观看| 久久综合色一本| 欧美福利在线| 五月婷婷狠狠操| 丁香啪啪综合成人亚洲小说| 538精品视频| 欧美日韩精品在线| 国产裸体无遮挡| 一本色道久久综合亚洲精品小说 | 国产日韩1区| 国产精品999.| 国产欧美视频一区二区三区| 精品无码人妻一区二区三| 欧美日韩一区二区电影| 日韩毛片在线一区二区毛片| 欧美精品一区在线播放| 成人精品国产| 免费在线一区二区| 狠色狠色综合久久| 国产乱女淫av麻豆国产| 久久精品综合网| 日韩精品视频免费播放| 日韩精品一区二区三区视频 | 一区二区激情小说| 在线观看免费高清视频| 亚洲网址你懂得| 午夜久久中文| 久久精品成人一区二区三区蜜臀 | 久久久久国产视频| 国产精品久久久久久久久久久久久久久| 欧美一区二区在线| 国产毛片一区| 人妻少妇精品视频一区二区三区| 玉米视频成人免费看| 91av国产精品| 日韩在线资源网| 欧美视频精品| 亚洲精美视频| 免费成人在线视频观看| 精品国产aaa| 欧美亚洲日本国产| 成人av电影观看| 国产精品男人的天堂| 精品视频免费| 我看黄色一级片| 国产精品色哟哟网站| 久草视频在线免费| 国产一区二区三区在线观看视频| 亚洲成人人体| 日韩精品久久久毛片一区二区| 西西人体一区二区| 美女久久久久久久久久| 色综合久久久久综合体| 国产在线视频福利| 国产精品精品视频一区二区三区| 不卡av一区二区| 最新天堂在线视频| 亚洲精品中文字幕在线观看| 91在线公开视频| 欧美日本高清视频| 精品午夜电影| 欧美精品色婷婷五月综合| 久久精品夜色噜噜亚洲a∨| 国产情侣呻吟对白高潮| 视频在线一区二区| 日韩精品一级| 欧美成人三级在线视频| 国产日韩在线不卡| 国产又大又黑又粗| 色综合久久88色综合天天看泰| 99香蕉久久| 日韩无套无码精品| 国产精品高潮久久久久无| 精品久久久无码中文字幕| 久久久久久尹人网香蕉| 久久93精品国产91久久综合| 亚洲精品视频导航| 亚洲欧美日韩人成在线播放| 全国男人的天堂网| 国产精品福利无圣光在线一区| 日韩专区精品| 白嫩情侣偷拍呻吟刺激| 91国偷自产一区二区使用方法| 免费黄网站在线| 国产精品视频免费一区二区三区| 久久中文精品| 卡通动漫亚洲综合| 日韩精品一区二区三区第95| 国产成人精品一区二区三区在线| 亚洲中文字幕无码一区二区三区 | 日韩av不卡播放| 国产一区二区在线观看视频| 日韩在线视频免费播放| www.欧美精品| 欧美三级午夜理伦三级在线观看| 国产嫩草在线观看| 亚洲第一综合色| 日本不卡视频| 蜜桃成人免费视频| 国产成人免费视频| 国产男人搡女人免费视频| 九色91av视频| 精品黄色一级片| 偷偷色噜狠狠狠狠的777米奇| 欧美剧情片在线观看| 麻豆理论在线观看| 色婷婷777777仙踪林|