編輯 | 云昭
剛剛過去的24小時,是谷歌又一次的高光時刻。
今天的谷歌,發生了兩件大事。
兩年,5位得主諾獎再一次花落谷歌系
不到9個小時前,谷歌CEO皮查伊驕傲的心情再一次藏不住了。
當得知自家量子AI實驗室的兩位大佬又一次獲得了諾貝爾物理學獎時,他忍不住在X上置頂了一條推文。
圖片
“祝賀 Michel Devoret、John Martinis 和 John Clarke 獲得諾貝爾物理學獎。????
Michel 是我們量子 AI 實驗室的硬件首席科學家,John Martinis 多年來一直領導該實驗室的硬件團隊。
他們在上世紀 80 年代量子力學領域的開創性研究,使得如今的突破成為可能,也為未來可實現誤差校正的量子計算機奠定了基礎。
我昨天剛在圣塔芭芭拉的量子實驗室看到令人驚嘆的進展,希望他們今天能好好慶祝。今早感到無比幸運——能在一家擁有 5 位諾貝爾獎得主的公司工作,而且僅兩年就拿下了 3 個獎項!”
圖片
去年的諾獎的得主還記得嗎,辛頓和現任DeepMind CEO Demis,這兩位也都是谷歌系的。
圖片
圖片
- Geoffrey Hinton
- 所屬:曾在 Google Brain 工作。
- 獲獎情況:2024 年諾貝爾物理學獎。
- 獎項理由:因其在機器學習與神經網絡方面的基礎性發現與發明,這些發現與發明使現代人工智能尤其是深度學習成為可能。
- Demis Hassabis
所屬:Google DeepMind 的聯合創始人兼 CEO。
獲獎情況:2024 年諾貝爾化學獎。
獎項理由:與 John Jumper 等一起通過 AI 模型(AlphaFold2)預測幾乎所有已知蛋白質結構,解決了生命科學中長期未解的蛋白質結構預測問題。
John Jumper
所屬:Google DeepMind 的資深研究科學家。
獲獎情況:與 Hassabis 共同獲得 2024 年諾貝爾化學獎。
獎項理由:同上,參與 AlphaFold2 項目,蛋白質結構預測。
Michel Devoret
所屬:現為 Google Quantum AI 的硬件首席科學家。
獲獎情況:2025 年諾貝爾物理學獎。
獲獎理由:他與 John Martinis, John Clarke 等人的研究在 1980 年代展示了宏觀量子隧穿現象,在電路中觀察到量子能級的量子化,為超導量子比特和量子計算機的硬件基礎奠定了基礎。
5. John Martinis
- 所屬:曾長期領導 Google 的量子硬件團隊(Google Quantum AI)。
- 獲獎情況:2025 年諾貝爾物理學獎,與 Michel Devoret 和 John Clarke 共同獲得。
- 獲獎原因:同上,參與上述宏觀量子效應的實驗與電子電路的設計。
谷歌發布最新版本:計算機使用(computer-use)模型
今天,讓皮查伊高興的另一件事,則是其DeepMind實驗室發布的最新Gemini 2.5 Pro的版本: “Gemini 2.5 Pro Computer Use”。
顧名思義,它并不是一個普通的聊天模型。這一版本專門強化了與用戶界面的直接交互能力,包括網頁與移動端應用。
它會“看屏幕”,系統會給它網頁截圖、歷史操作記錄,然后讓它決定下一步該點擊哪里、輸入什么。這一循環持續進行,直到任務完成或出現錯誤。
據谷歌blog中介紹,該模型經過了專門微調與定制訓練,可以通過虛擬瀏覽器為用戶執行網頁操作:上網檢索、填寫表單,甚至直接在網站上采取行動——只需用戶輸入一句文字指令。
在安全層面,谷歌設置了嚴格限制——比如,當模型遇到驗證碼(CAPTCHA)時,它可以生成點擊動作,但必須等待人工確認,不能私自越權。
換句話說,Gemini 2.5 已經具備“行動力”,但還處于“有安全帶的自由”階段。
皮查伊在社交平臺 X 上發文稱:“目前還只是早期階段,但模型能夠與網頁交互——比如滾動、填寫表單、導航下拉菜單——這是構建通用智能體(general-purpose agents)的重要一步。”
圖片
不過,該模型目前尚未面向普通消費者開放。
但這并不影響大家對于該款模型的熱情。Hackernews上,網友的討論已經熱鬧了起來。
大家熱議的點在于,讓AI幫自己操作計算機或手機,的確有不少剛性需求,比如下面愛騎車聽播客的這位。
圖片
值得注意的是,OpenAI很早就開始了這方面的探索,今年年初,智能體Operator訪問網站的例子讓人印象深刻。而在假期前,Anthropic 也發布了最強版本的Claude Sonnet 4.5,computer use 也是其主打的宣傳點之一。
答案就是,Gemini 2.5 Computer Use 目前的核心能力聚焦在網頁與移動端界面操作:點擊、輸入、滾動,并沒有支持直接創建文件——它無法生成PPT、Excel或文檔。
若需結構化輸出(如文件),則需由開發者通過自定義代碼或第三方工具處理。
但這反而讓它的定位更純粹:Gemini 2.5 是一個專門面向“界面交互自動化”的Agent,而不是一個全能的文件助理。
|工作原理:指令+截圖+操作記錄
由 Computer Use 模型驅動的智能體在一個“交互循環”中運行。每次循環中,它接收以下輸入:
- 用戶任務指令
- 當前界面截圖
- 歷史操作記錄
模型分析后輸出一個界面操作建議,比如點擊按鈕或在輸入框中鍵入內容。如任務涉及風險(例如購買行為),模型會請求用戶確認。
執行后,系統會截取更新的界面截圖并重新輸入模型,循環持續,直到任務完成或被錯誤/安全機制中止。
模型使用專門的 computer_use 工具,可通過 Playwright 或 Browserbase 的沙盒環境集成到自定義系統中。
|哪里可以體驗?
這次谷歌選擇了一家名為 Browserbase 的公司進行首批合作。
這家公司由前 Twilio 工程師 Paul Klein 于 2024 年初創立,提供專為 AI agent 和應用設計的虛擬“無頭瀏覽器”服務。所謂“無頭瀏覽器”,是指無需圖形界面(GUI)即可瀏覽網頁的瀏覽器——不過 Browserbase 為用戶顯示了一個可視化的網頁操作界面。
用戶現在可以在 Browserbase 網站上直接體驗 Gemini 2.5 Computer Use,并能與 OpenAI 或 Anthropic 的同類產品做對比——Browserbase 為此推出了一個新的“Browser Arena”比拼平臺(但每次只能選一個競爭模型與 Gemini 同時對比)。
對于 AI 開發者而言,這款模型可通過 Gemini API(在 Google AI Studio) 和 Google Cloud 的 Vertex AI 模型平臺獲取,用于快速原型開發。
|實測:能選中摩托車的AI,秒過驗證
在媒體的早期測試中,Gemini 2.5 成功打開了泰勒·斯威夫特的官方網站,并準確描述了首頁展示的內容。
更有意思的是,在另一項任務中,它被要求在亞馬遜上查找高評分的太陽能燈。途中遇到 Google 搜索驗證碼“請選擇所有有摩托車的方格”時,Gemini 2.5 居然秒過——證明它能“看懂”并“選擇”。
雖然最終任務卡在后續頁面,但這已經算得上是一種質變:相較于之前的瀏覽索索,這次真真兒是一個能執行視覺與操作任務的系統。
|性能評測
谷歌稱,Gemini 2.5 Computer Use 在多個界面操作基準測試中表現領先,超越了包括 Anthropic Claude Sonnet 和 OpenAI Agent 在內的主要競爭者。測試由 Browserbase 與谷歌團隊共同進行。
圖片
部分結果如下:
- Online-Mind2Web(Browserbase):Gemini 2.5 得分 65.7%,Claude Sonnet 4 為 61.0%,OpenAI Agent 為 44.3%。
- WebVoyager(Browserbase):Gemini 2.5 得分 79.9%,Claude Sonnet 4 為 69.4%,OpenAI Agent 為 61.0%。
- AndroidWorld(DeepMind):Gemini 2.5 得分 69.7%,Claude Sonnet 4 為 62.1%;OpenAI 模型因訪問受限未能測評。
- OSWorld:Gemini 暫不支持;競爭者最高成績為 61.4%。
谷歌補充稱,該模型延遲更低,在 UI 自動化與測試類場景中表現尤為出色。
|企業級落地:谷歌自己也在用
谷歌稱,內部和外部多個團隊已在不同場景中使用該模型:
- Google 支付團隊表示,該模型能恢復超過 60% 的失敗測試用例,顯著減少工程低效。
- Autotab(第三方 AI agent 平臺)稱該模型在復雜數據解析任務上性能提升達 18%。
- Poke.com(主動式AI助手公司)指出,Gemini 模型在界面交互中速度比競品快 50%。
- 此外,該模型也被用于谷歌內部項目,如 Project Mariner、Firebase 測試代理,以及 Search 中的 AI 模式。
|安全與約束:谷歌設置了多層安全帶
由于模型能直接控制軟件界面,谷歌強調采用多層安全機制:
- 每一步操作前都有安全服務審查。
- 開發者可設定系統級指令來阻止或強制確認特定行為。
- 模型內置安全防護,防止觸發敏感或違規操作。
例如,當模型遇到驗證碼(CAPTCHA)時,會生成點擊動作,但標記為“需用戶確認”,防止自動繞過安全驗證。
|價格政策:僅支持付費用戶
Gemini 2.5 Computer Use 的定價與標準版 Gemini 2.5 Pro 基本一致。
但在訪問層級與功能上有所不同:
- Gemini 2.5 Pro 提供免費層,開發者可免費調用(受限于速率或配額),并包含輸入與輸出 token。
- 一旦超出配額或切換到付費層,按標準費率計費。
- Gemini 2.5 Computer Use 則僅提供付費層,沒有免費訪問。
此外:
- Pro 版支持“上下文緩存”(每百萬 token 收費 $0.31)與“Google 搜索接地”(每日1500次免費,之后每千次$35)。但 Computer Use 暫不支持這些功能。
- 在數據使用政策上,Computer Use 的付費使用不會用于改進谷歌產品,而 Pro 免費層的數據則默認用于模型優化(除非用戶選擇退出)。
總的來說,兩款模型的 token 成本相近,但開發者應依據訪問層、功能需求及數據政策選擇使用哪一版本。
為什么谷歌如此恐怖?
谷歌,又是谷歌。有沒有發現,谷歌已經在一次又一次浪潮中始終站在前沿?不管是現在大火的GenAI,還是更有未來想象力的量子計算。
為什么谷歌創造了這么多前沿貢獻?小編看來有這樣幾點:
首先,谷歌自誕生之初就有一種研究文化,天然會把科學家放在核心位置。
谷歌一開始就不是一家“純互聯網公司”,而是由兩個博士(拉里·佩奇和謝爾蓋·布林)在斯坦福實驗室里創立的。這意味著它的DNA里天然帶著“科研導向”——從論文出發解決實際問題。
據了解,Google Research 和 DeepMind 的團隊結構跟大學實驗室幾乎一模一樣,研究員們不以“交付KPI”為核心,而以“發表論文、推動領域前沿”為榮。
許多頂級科學家都愿意留下來,因為他們在谷歌不僅能拿到頂薪,還能在工業界做出諾獎級的基礎科學突破。
其次,基礎科學投入超常。谷歌的研發支出是全世界最高之一(可以說是按國家級實驗室級別來燒錢的),單2024年就超過 430億美元,而其中很大一部分投入了沒有短期商業回報的項目,比如:量子計算(Google Quantum AI)、深度學習(Google Brain、DeepMind)、AI 芯片(TPU)、材料科學、生物信息學(AlphaFold)等等。
而大家都知道,許多公司往往是把ROI放在第一位的。而谷歌他們的邏輯是:基礎科學一旦突破,未來的商業生態會自動生長出來(比如 AlphaFold→藥物發現、TPU→云計算)。
其次,當然這些也看得出來,也是谷歌的超前的科研布局。谷歌每10年都會做幾次“豪賭”:
- 2010s:賭 AI → 成功(Google Brain、DeepMind)
- 2020s:賭 Quantum → 已見成果(量子霸權、2025諾獎)
- 2030s:可能賭 AGI 或 AI+生物、AI+能源
這種布局讓谷歌總能站在下一個科學前沿的入口。諾獎得主的集中出現,正是這些“長線投注”的副產品。
第四點,開放協作 + 學術生態。
谷歌和學界的邊界非常模糊。它的研究員可以:
- 持續在 Nature、Science、NeurIPS 等頂會發論文;
- 兼任高校教授(比如 Devoret 在耶魯、Hassabis 在劍橋都有研究身份);
- 與全球大學聯合培養博士后或實驗項目。
這讓谷歌成了學界的“延伸實驗室”——科學家不必離開科研生態就能獲得工業級資源。
大家可能不知道,Sundar Pichai 本人是材料科學出身的工程師,而非純商業背景的CEO。
他對科研的態度非常“寬容”——允許團隊做高風險、高成本的探索項目(比如 Waymo、Verily、Quantum AI)。
他常說一句話:“我們不做每一個可能賺錢的項目,只做那些能讓科學往前走的事。”
這句話其實解釋了谷歌的核心邏輯——科學帶來壟斷,創新是最好的護城河。
參考鏈接:
https://blog.google/technology/google-deepmind/gemini-computer-use-model/
https://www.nobelprize.org/all-nobel-prizes-2025/
































