Manus 爆火，再次證明 Computer Use Agent 的潛力

作者：范文杰 2025-03-07 09:08:43

今天我更想聊聊它背后的技術(shù)：Computer use，這個概念最早由 Anthropic 在 24年11月提出，雖然國內(nèi)討論的聲浪并不大，但這種通過 LLM 自行操作計(jì)算機(jī)系統(tǒng)，進(jìn)而實(shí)現(xiàn)更通用 Agent 能力的技術(shù)，卻又非常大的想象空間，國外有不少廠商陸續(xù)跟進(jìn)，做出了許多優(yōu)秀作品。

2025年3月4號晚，Monica.im 發(fā)布了一款通用型 AI Agent 產(chǎn)品： Manus(https://manus.im/)，從官網(wǎng)透露出的視頻來看，這是一款基于 Computer Use 實(shí)現(xiàn)的 AI Agent，特點(diǎn)在于能夠自主操作計(jì)算機(jī)完成更復(fù)雜的任務(wù)，例如做 PPT，分析股票市場變化，整理數(shù)據(jù)等。

本文無意探討 Manus 的具體能力，畢竟咱也沒試用過，沒資格評價。今天我更想聊聊它背后的技術(shù)：Computer use，這個概念最早由 Anthropic 在 24年11月提出，雖然國內(nèi)討論的聲浪并不大，但這種通過 LLM 自行操作計(jì)算機(jī)系統(tǒng)，進(jìn)而實(shí)現(xiàn)更通用 Agent 能力的技術(shù)，卻又非常大的想象空間，國外有不少廠商陸續(xù)跟進(jìn)，做出了許多優(yōu)秀作品。

我認(rèn)為，Computer Use 將會成為未來 AI Agent 的一種重要設(shè)計(jì)模式，因此有必要更深入理解這一概念以及背后的執(zhí)行原理。

Computer Use 是什么

24年11月，Anthropic官宣了Claude 3.5的同時，也低調(diào)官宣了一個Beta版本的能力 Computer Use，目前處于公開測試階段，這項(xiàng)功能允許 Claude 像人類一樣使用計(jì)算機(jī)，具體表現(xiàn)為：用戶可以指導(dǎo) Claude 像人類一樣使用計(jì)算機(jī) —— 通過查看屏幕、移動光標(biāo)、單擊按鈕和輸入文本，來完成各類任務(wù)。

https://www.anthropic.com/news/3-5-models-and-computer-use

這項(xiàng)技術(shù)旨在教會Claude通用的計(jì)算機(jī)操作技能，包括理解用戶界面內(nèi)容和執(zhí)行界面交互，而無需為每種軟件單獨(dú)開發(fā)代理程序，這使得 Claude 模型得以實(shí)現(xiàn)：

跨平臺界面解析：基于計(jì)算機(jī)視覺實(shí)時識別GUI元素（按鈕/輸入框/菜單欄等），準(zhǔn)確率達(dá)92%

參考：https://www.mittrchina.com/news/detail/13924?locale=zh_CN

擬人化操作鏈：構(gòu)建「屏幕感知→光標(biāo)定位→點(diǎn)擊/輸入→結(jié)果驗(yàn)證」的完整動作流：
自適應(yīng)學(xué)習(xí)框架：通過強(qiáng)化學(xué)習(xí)動態(tài)優(yōu)化操作路徑，處理非結(jié)構(gòu)化界面時響應(yīng)速度提升40%
雙向反饋機(jī)制：在執(zhí)行過程中實(shí)時捕獲屏幕變化，動態(tài)調(diào)整操作策略
等等

特別適合替代人類完成一些常規(guī)計(jì)算機(jī)操作任務(wù)，如端到端測試（E2E）、自動化重復(fù)流程處理，以及將簡單指令轉(zhuǎn)化為復(fù)雜計(jì)算機(jī)指令等。

Computer Use 解決了什么問題

Computer Use 技術(shù)極具想象空間，設(shè)想一套 Agent 軟件就能將自然語言精確轉(zhuǎn)換為復(fù)雜的系統(tǒng)操作指令，未來工作中可能不再需要耗費(fèi)精力學(xué)習(xí)各類專業(yè)軟件(如 excel、word等)的繁瑣操作邏輯，只需以自然語言方式發(fā)出指令即可完成各種常見工作任務(wù)，AI 輻射范圍將會進(jìn)一步涵蓋所有依賴計(jì)算機(jī)的工種。

也因此，多家團(tuán)隊(duì)正在積極探索推動這一技術(shù)落地應(yīng)用：

OpenAI 發(fā)布 Operator，可根據(jù)用戶指令操縱瀏覽器：
Xlang Lab 發(fā)起的 Computer Agent Arena；
開源 Agent browser-use，可根據(jù)用戶指令操作瀏覽器；
以及最近剛發(fā)布的國產(chǎn)通用 Agent ：Manus
等等

甚至可以說，Computer Use 的設(shè)計(jì)算是對當(dāng)前 AI 系統(tǒng)工具使用范式做了一次根本性重構(gòu)，過去實(shí)現(xiàn) LLM 與外部通訊手段多是集中在：function call、MCP 等技術(shù)，而這類技術(shù)都需要 case by case 地針對各類具體場景設(shè)計(jì)實(shí)現(xiàn)，而 computer use 則可以直接讀取、操作電腦，就像一個極高性能又通用的人類一樣，能夠理解各種復(fù)雜計(jì)算機(jī)界面并完成任務(wù)，進(jìn)而降低 agent 的開發(fā)成本(理論上)。

方案1：使用 VLM 模型

Computer Use Agent 重點(diǎn)在于理解計(jì)算機(jī)界面，因此通常強(qiáng)依賴于 VLM（Vision-Language Model）模型作為核心決策單元，通過多模態(tài)交互實(shí)現(xiàn)自動化的計(jì)算機(jī)操作。流程上整體遵循感知-決策-執(zhí)行的控制范式：

大致包含三個步驟：

感知：采用動態(tài)屏幕捕捉技術(shù)獲取RGB像素流，通過GPU加速實(shí)現(xiàn)≤100ms的實(shí)時幀捕獲，同步記錄界面元數(shù)據(jù)（窗口層級/控件屬性/焦點(diǎn)等）；
決策：使用 VLM（Vision-Language Model）實(shí)現(xiàn)界面元素檢測（Faster R-CNN）+語義分割（Mask R-CNN），理解屏幕截圖和用戶輸入，從而制定相應(yīng)的行為策略，例如鼠標(biāo)移動到哪里，點(diǎn)擊哪里；在哪里輸入文本等等；
執(zhí)行：最后，通過系統(tǒng)級輸入驅(qū)動來執(zhí)行相應(yīng)的操作指令；

持續(xù)執(zhí)行上述循環(huán)，直到大語言模型（LLM）判斷任務(wù)完成、達(dá)到預(yù)設(shè)的最大操作次數(shù)，或超出上下文限制為止。

這種模式的優(yōu)點(diǎn)是清晰簡潔，容易理解上手。但是：對VLM本身的能力要求非常高，需要能夠可靠地識別用戶界面中的可交互圖標(biāo)，以及理解屏幕截圖中各種元素的語義，并準(zhǔn)確地將預(yù)期作與屏幕上的相應(yīng)區(qū)域相關(guān)聯(lián)，想要實(shí)現(xiàn)精確點(diǎn)擊和移動，難度很大。

方案2：基于VLM與OCR融合的增強(qiáng)型 CUA

在上述 VLM 技術(shù)的基礎(chǔ)上，我們還可以疊加 OCR 技術(shù)實(shí)現(xiàn)更精確的內(nèi)容理解與定位操作，實(shí)現(xiàn)流程：

截圖
基于視覺語言大模型（Vision-Language Model, VLM）+ OCR 實(shí)現(xiàn)多模態(tài)推理

[{{ "reasoning": "cognitive process here", "action_type": "click", "target_text": "target element"}}]

結(jié)合OCR文本定位與視覺特征，進(jìn)行坐標(biāo)映射計(jì)算

輸入屏幕快照與用戶指令，生成操作指令集
當(dāng)指令類型為指針交互時，模型輸出結(jié)構(gòu)化定位請求：
通過系統(tǒng)級輸入驅(qū)動執(zhí)行操作指令

直至LLM認(rèn)為任務(wù)完成，或者達(dá)到設(shè)定的最大行為次數(shù)，或者超出上下文上限。

這個過程中，VLM作為系統(tǒng)的認(rèn)知中樞，負(fù)責(zé)跨模態(tài)信息融合相關(guān)的工作，包括視覺-語言對齊、指令上下文建模與推理、隱含需求推理等；而 OCR 主要負(fù)責(zé)解析界面文本信息的原子化解析，解決字形干擾、多語言支持、藝術(shù)字體解析等問題，進(jìn)一步提升結(jié)果的準(zhǔn)確度。

方案3：使用 MicroSoft Omniparser V2 實(shí)現(xiàn) CUA

2025年2月，Microsoft研究院發(fā)布Omniparser V2范式轉(zhuǎn)換技術(shù)，可將任意大型語言模型（LLM）轉(zhuǎn)化為能直接操作計(jì)算機(jī)的智能代理。它通過實(shí)時解析屏幕界面元素（如按鈕、圖標(biāo)），將其轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)，使AI能理解用戶指令并執(zhí)行點(diǎn)擊、輸入等操作，無需針對特定界面微調(diào)。該技術(shù)顯著提升了處理效率（延遲降低60%）和精準(zhǔn)度（在復(fù)雜界面測試中達(dá)先進(jìn)水平），成為實(shí)現(xiàn)跨平臺、跨應(yīng)用的智能自動化操作的核心工具。