干翻全場!OpenAI深夜發布通用Agent 原創 精華
嘿,大家好!這里是一個專注于前沿AI和智能體的頻道~
家人們,昨晚 OpenAI 直播,不聲不響地甩出了一個重磅產品:ChatGPT Agent 正式發布!
一個全新產品,把之前的 Operator(網頁操作)和 Deep Research(深度研究)能力真正合體,塞進了一個統一的系統里。讓 ChatGPT 有一個可以自己操作的虛擬電腦,從頭到尾地干完一件復雜的活兒。
今天給家人深度分析一下這個新產品的功能與特性,以及對市場上同類型產品的影響。
通用智能體?
首先要搞清楚,這次的 Agent 不是一個新產品,而是 ChatGPT 的一次能力糅合。它把三種看家本領融為一體:
- 能力一: operator - 像人一樣點擊、滾動、輸入,直接與網頁的圖形界面(GUI)互動。
- 能力二: Deep Research - 強大的信息分析、推理和總結能力。
- 能力三: 4o - 流暢的自然語言交互能力。
這三者結合,讓 ChatGPT Agent 可以在一個專屬的虛擬環境中,根據你的指令,自主規劃、調用工具、執行任務。比如,你可以直接甩給它一句:“分析三個競爭對手,做個PPT出來”。它會自己去上網搜集資料、分析數據、總結要點,最后交付一個你可以直接編輯的PPT文件。
整個過程,你都能在屏幕上看到它的“思維鏈”和操作步驟,就像在看一個超級助理幫你干活。
5個核心亮點
簡單總結了一下,新產品的5個亮點功能,當然可能別的通用智能體也有。
端到端任務執行
可以理解用戶的模糊需求,上網篩選信息,再到登錄網站、填寫表單、下載文件,最后生成報告,可以一氣呵成。
官方演示了一個例子,讓它預訂一個“羅馬評分最高的一日游”。它會自己打開 TripAdvisor,篩選、比較,然后把最暢銷的那個找出來,整個過程挺流暢。

人機協作
在執行任何關鍵或不可逆操作(比如下單付款、提交表單)之前。 都會請求用戶確認。
你隨時可以暫停任務,也可以直接“接管”它的瀏覽器自己操作,整個過程控制權都在你手里。
可編輯、可復用的專業級輸出
生成的結果是可以原生編輯的 PPT 和 Excel 文件。

這意味著它幫你做的競品分析PPT,你可以直接打開修改圖表和文字。在 ??SpreadsheetBench?? (表格處理) 測試中,它的準確率達到了45.5%,是 Excel Copilot 的兩倍還多!

性能數據
不看廣告看療效。官方博客公布了一系列性能數據,基本都是“屠榜”級別的。
HLE 得分 41.6%,再次刷新 SOTA。

在構建財務模型的復雜任務上,準確率達到 71.3%,顯著優于之前的 o3 和 Deep Research。

在網上尋找刁鉆信息的任務中,創下了 68.9% 的新紀錄。

總的來說,就是新產品的能力在多個專業領域都已經達到了非常高的水準。
可定時執行
結合了之前的任務能力,新產品用戶同樣可以安排一個已經完成的任務,讓它自動重復執行。
比如,你可以讓它“每天早上,幫我生成一份關于xxx的動態報告”。

它會干掉Manus們嗎?
ChatGPT Agent 如此強大,那是不是意味著 Manus、Genspark 這類創業公司的末日到了?
manus還發了一個帖子,用了一些樣例對比他們的結果和chatgpt agent的結果~

當前有2個現實問題。
目前價格昂貴
強大功能背后是高昂的成本。根據目前公布的信息,這玩意兒可不便宜:
- Pro 用戶:每月 400 條 Agent 消息額度。
- Plus 和 Team 用戶:每月僅 40 個額度。
用完就得花錢買。對于需要長時間、高強度執行任務的專業用戶來說,這個成本可能會非常高。相比之下,目前來自一些創業公司的智能體產品的定價可能會便宜一些。(盡管 manus 的定價也被吐槽~)。
安全問題
官方提及,當一個 AI 能自己上網、登錄你的賬戶、操作你的數據時,安全問題就變得非常重要。
比如說,一個惡意網站在看不見的地方藏了一段prompt hack,誘騙你的 Agent 把你的個人信息發給攻擊者。
因為 Agent 擁有了實際操作權,這種攻擊的危害比以往任何時候都大。盡管 OpenAI 做了很多防護(比如高風險操作需確認、Watch Mode 監視模式等),但問題仍然存在。

最后
對于那些致力于通用型 Agent 的創業公司來說,這無疑是一次降維打擊。當平臺方親自下場,并拿出在性能、集成度上都遙遙領先的產品時,留給其他玩家的空間就被極大地壓縮了。
未來的機會,或許更多地在于那些更垂直、更深入特定行業場景的專用 Agent,或者是在開源生態中提供差異化價值的框架和工具。
本文轉載自??探索AGI??,作者:獼猴桃

















