不止能聊，還能“動手”：谷歌AI代理掀起數字浪潮精華

發布于 2025-10-15 00:07

瀏覽

0收藏

想象一下，你不再需要親自盯著屏幕，點擊鼠標，輸入文字，一遍遍重復那些枯燥的在線操作。有一天，你只需對AI說一聲：“幫我預訂下周五的餐廳，找到離家最近的那個，并且確保能帶寵物。”然后，它就能像一個訓練有素的助手，熟練地在瀏覽器中穿梭，完成一系列復雜的任務——搜索、篩選、填寫信息、預約……

這并非遙遠的科幻場景。就在最近，谷歌扔下了一顆重磅炸彈：Gemini 2.5 Computer Use模型正式登場。這不僅僅是一個新模型，更是谷歌向“計算機使用智能體”（CUA）這個未來戰場吹響的號角，預示著AI將從“能說會道”邁向“能看會做”的新階段。

不止能聊，還能“動手”：谷歌AI代理掀起數字浪潮-AI.x社區

當AI擁有“數字之手”：它是如何做到的？

簡而言之，Gemini 2.5 Computer Use，這個基于強大Gemini 2.5 Pro構建的視覺理解與推理模型，就是讓AI學會了像人類一樣“看”和“操作”圖形用戶界面，尤其是我們最熟悉的網頁瀏覽器。

它的工作模式，簡直就是把一個經驗豐富的“數字助理”裝進了AI的大腦。你可以把它想象成一個聰明的循環過程：

“看”： 你給AI一個任務，它立刻接收到當前屏幕的截圖，就像人眼一樣捕捉到界面上的每一個按鈕、文本框和圖片。
“想”： 結合你的指令和它“看到”的畫面，AI開始思考下一步。它會推理出完成任務需要哪些操作，比如點擊哪里、輸入什么文字、何時需要滾動頁面。
“做”： 思考完畢，AI會生成具體的、人類化的操作指令——點擊某個坐標、輸入特定內容、拖拽元素，它能模擬多達13種日常操作。
“反饋與迭代”： 指令執行后，屏幕狀態隨之改變，AI會再次“看”到新的畫面，然后進入下一輪“想-做”循環，直到任務圓滿完成。

每一次操作，都像一個深思熟慮的決策過程，而不是簡單的預設腳本，這才是它的顛覆性所在。

不止能聊，還能“動手”：谷歌AI代理掀起數字浪潮-AI.x社區

實力不容小覷：超越對手，效率倍增

別以為這只是個概念。谷歌的數據顯示，Gemini 2.5 Computer Use在多項網頁和移動端自動化任務中，不僅超越了OpenAI和Anthropic的同類產品，甚至在速度上實現了低延遲的優勢。這意味著，它在處理復雜數據錄入、跨網站信息整理、甚至網頁游戲等任務時，都能展現出領先的性能。國內媒體“機器之心”的初步測試也印證了這一點：在處理簡單任務時，它表現得游刃有余；雖然面對高度復雜的、需要深層語義理解和跨領域知識的任務時仍有進步空間，但其基礎能力已足夠令人驚嘆。

比如，從一個網頁抓取寵物信息，然后自動填入另一個在線表格，并設置后續預約——這些過去需要耗費人力的繁瑣工作，如今AI能一氣呵成。

不止能聊，還能“動手”：谷歌AI代理掀起數字浪潮-AI.x社區