Google 再出手:Gemini 2.5「Computer Use」讓AI學會真正動手操作瀏覽器 原創 精華
當我們談論“AI代理(AI Agent)”時,很多人想到的是能幫你寫文檔、總結網頁、生成報告的智能助手。但有一個問題一直沒被真正解決——它們都“看得懂”網頁,卻“點不了”網頁。
而就在本周,Google AI 給出了解法: 推出全新的 Gemini 2.5 Computer Use(電腦操作版),一個能在瀏覽器中真實執行點擊、輸入、拖拽等交互操作的模型。 這意味著,AI 不再只是讀懂網頁,而是能像一個“虛擬助手”那樣,親自替你完成操作流程。
一、從“會看”到“會動”:AI瀏覽器控制的突破
過去的AI代理往往停留在“觀察層面”——它們可以理解網頁結構、預測下一步操作,但無法真正與瀏覽器互動。 Gemini 2.5 Computer Use 則打通了這道壁壘。
Google 為它設計了一套受限的 Action API(動作接口),可執行13種標準化操作,包括:
- ?
?open_web_browser??:打開瀏覽器 - ?
?navigate??:訪問指定URL - ?
?click_at??? /??hover_at??:點擊或懸停在特定坐標 - ?
?type_text_at??:在輸入框中輸入文字 - ?
?scroll_document??? /??scroll_at??:滾動網頁 - ?
?drag_and_drop??:拖拽操作 - 以及通用動作如?
?go_back??、??wait_5_seconds?? 等
這些動作由客戶端執行(例如 Playwright 或 Browserbase),并在每次操作后重新截圖、更新URL、進入下一步循環。 整個過程形成了一個“AI觀察—計劃—執行—校驗”的閉環,使代理可以安全地在真實網頁上完成任務。

二、Google 如何保證安全與可控?
AI能“動手”后,最先需要解決的問題不是智能,而是安全。
Google在模型中內置了多層安全機制:
- 受限操作空間:模型只能執行13類預定義動作,避免自由執行系統命令;
- 確認機制:涉及高風險操作(如支付、發送消息、訪問敏感數據)時,AI必須請求用戶確認;
- 瀏覽器范圍限制:目前模型僅針對Web瀏覽器優化,不具備系統級控制權限;
- 自定義擴展:移動端或特定業務場景可替換自定義動作,如?
?open_app??、??go_home?? 等,以增強靈活性。
這樣的設計既讓AI具備執行力,又確保操作過程可監控、可回滾。 對企業來說,這種“受控的執行力”正是自動化落地的關鍵。
三、性能實測:在Web控制領域遙遙領先
根據 Google 官方與第三方評測平臺 Browserbase 的數據,Gemini 2.5 Computer Use 在多個UI控制基準測試中表現出色:
測試集 | 指標 | 成績(Pass@1) | 備注 |
Online-Mind2Web | 69.0% | 人類評估一致認可 | |
Browserbase-OM2W | 65.7% | 同步測試環境 | |
WebVoyager | 79.9% | 延遲與精度領先 | |
AndroidWorld(移動端) | 69.7% | 通過自定義動作兼容 |
Google報告顯示,在標準化測試下,模型可實現約70%的準確率,平均延遲225秒。 這意味著,它不僅聰明,而且執行穩定、延遲可控。

四、落地信號:UI測試和自動化運營的“救星”
除了實驗室數據,更值得關注的是早期生產反饋。
- Google Payments團隊報告稱,該模型修復了超過60%此前無法通過的自動化UI測試任務。換句話說,過去靠腳本難以復現或調試的測試流程,如今AI能自動修復并執行。
- 外部早期測試方Poke.com則表示,使用 Gemini 2.5 Computer Use 的自動化流程相比其他方案**速度提升約50%**。
這兩個信號揭示出一個趨勢:
從測試到運營,AI正在逐步接管“點擊與執行”的繁瑣環節。
想象一下,未來瀏覽器上的一切機械性操作——填寫表單、上傳文件、檢索數據、執行測試——都能交給AI去做。 企業研發團隊、QA測試團隊、甚至個人用戶,都將因此獲益。
五、Gemini 2.5的意義:AI進入“執行智能”時代
Gemini 2.5 Computer Use 之所以值得關注,不僅在于功能新穎,更在于它標志著AI代理的形態轉折點:
- 從文本智能 → 操作智能以前的AI理解語言,如今的AI能理解“界面語義”并執行動作。
- 從靜態回答 → 動態執行不再是給出建議,而是直接替你去點、去輸、去驗證。
- 從可交互 → 可行動真正意義上讓“AI助理”變成“AI操作員”,具備執行閉環。
未來,隨著Google持續完善API安全規范、延展至桌面與移動操作系統層面, 這類“行動型AI”有望成為企業級自動化的主力引擎。
它讓我們第一次看到一個可行的未來場景:
你對AI說“幫我導出昨天的銷售數據發給客戶”, 它不再只是生成腳本,而是——打開瀏覽器 → 登錄 → 點擊 → 導出 → 郵件發送。 整個過程,無需人類手動參與。
六、結語:AI代理的下一個拐點
Gemini 2.5 Computer Use 是AI邁向“可執行智能”的關鍵一步。 它讓AI不再是旁觀者,而是真正參與到數字世界的每一次點擊中。
這不僅意味著辦公自動化的重塑,也預示著未來軟件交互的方向: 用戶不再需要學習如何操作界面,而是通過自然語言,讓AI替你完成所有動作。
可以預見,在未來的一兩年里,AI瀏覽器控制能力將成為智能代理系統的基礎能力。 誰先掌握可執行的AI代理,誰就能率先構建新一代的人機交互生態。
本文轉載自???Halo咯咯?? 作者:基咯咯

















