OpenAI深夜發布ChatGPT Agent：能主動思考、自選工具，智能體賽道大變天

2025-07-18 10:46:11

人工智能新聞

ChatGPT Agent具備自主思考和行動的能力，能夠主動從其技能庫中選擇合適的工具，包括Operator、 Deep Research和ChatGPT來完成各種超復雜任務。

今天凌晨1點，OpenAI進行了技術直播發布了重磅產品ChatGPT Agent。

ChatGPT Agent具備自主思考和行動的能力，能夠主動從其技能庫中選擇合適的工具，包括Operator、 Deep Research和ChatGPT來完成各種超復雜任務。

例如，用戶可以要求 ChatGPT Agent分析三個競爭對手并制作幻燈片演示文稿等請求。ChatGPT會智能地瀏覽網站、選擇日期、篩選結果、運行代碼，甚至自動生成經過潤色的幻燈片演示文稿或電子表格。

也就是說你只需要一個提示，ChatGPT Agent就會幫你完成所有工作等待結果就好。

完整技術直播

OpenAI首席執行官Sam Altman還非常罕見地發表了一篇長文來說明ChatGPT Agent：

今天我們推出了一款名為 ChatGPT Agent 的新產品。

Agent代表著 AI 系統能力的新高度，可以借助自身的計算機為你完成一些出色的復雜任務。它融合了Deep Research和 Operator 的核心優勢，但實際功能比聽起來更強大，它能進行長時間思考、使用多種工具、進一步思考、采取行動，之后再深入思考，如此循環。

例如，在發布會上，我們展示了一個為朋友婚禮做準備的演示：購買服裝、預訂行程、挑選禮物等。我們還展示了一個工作場景的案例：分析數據并制作演示文稿。

盡管它的實用性很強，但潛在風險也不容忽視。

我們在其中內置了大量安全保障和警示機制，并且部署了比以往任何時候都更全面的風險緩解措施，從強化訓練、系統防護到用戶控制等方方面面都有覆蓋，但我們無法預判所有情況。本著迭代部署的原則，我們會向用戶發出重點警示，同時給予用戶自主選擇的空間，讓他們可以謹慎地使用各項功能。

如果要向我的家人解釋這款產品，我會說它處于技術前沿，尚在試驗階段；是一個體驗未來的機會，但在我們通過實際應用研究并改進它之前，不建議用它處理高風險事務或涉及大量個人信息的場景。

我們并不確切知道它會產生哪些影響，但不良分子可能會試圖 “欺騙” 用戶的 AI 代理，讓它們泄露不應泄露的隱私信息，或執行不應執行的操作，而這些手段是我們無法預知的。我們建議，為了降低隱私和安全風險，僅向代理提供完成任務所需的最低權限。

比如，我可以讓 Agent 訪問我的日歷，以便為團體晚餐找到合適的時間。但如果只是讓它幫我買些衣服，就不需要授予任何額外權限。

像查看我昨晚收到的郵件，并自主處理所有需要處理的內容，無需進一步詢問這類任務，風險會更高。這可能導致惡意郵件中的不可信內容欺騙模型，造成你的數據泄露。

我們認為，從實際應用中學習至關重要，同時人們也應在我們更好地量化和緩解潛在風險的過程中，謹慎、逐步地采用這些工具。與其他新的能力層級一樣，社會、技術以及風險緩解策略需要協同發展。

技術架構方面，ChatGPT Agent通過其虛擬計算機處理任務，能夠流暢地在推理與執行之間切換。在面對復雜任務時，不僅能夠進行邏輯推理，還能夠實際執行任務，從而獨立完成復雜的多步驟任務。

例如，當用戶要求 ChatGPT Agent“查看我的日歷，并根據最新動態簡要匯報即將舉行的客戶會議”時，能夠理解任務需求，主動從日歷應用中獲取信息，并整理出簡潔的匯報內容。

ChatGPT Agent另一個重要功能模塊是其多工具集成能力，將 Operator 的網站交互能力、Deep Research的信息整合能力以及 ChatGPT的深度對話能力融合在一起，形成統一的智能體系統。

Operator的能力使得 ChatGPT 智能體能夠在網頁上滾動、點擊和輸入文本，從而與網站進行直接互動；而Deep Research則擅長分析和總結信息，能夠幫助 ChatGPT 智能體處理復雜的多步驟任務。

此外，ChatGPT Agent還配備了多種網絡工具，包括可視化瀏覽器、文本瀏覽器和直接API 訪問權限。這些工具為 ChatGPT 智能體提供了不同的網絡信息訪問與交互途徑，使其能夠選擇最優路徑以最高效地完成任務。

例如，可以通過 API 快速獲取財務數據或體育賽事比分，同時也能與主要面向人類設計的網頁進行視覺交互。所有這些操作均通過 ChatGPT 自身的計算環境完成，無論采用何種工具組合，任務全程的相關背景信息均會共享。

在執行任務時，ChatGPT 智能體能夠動態學習并優化其工作方式。通過強化學習，模型在執行任務時會根據結果調整其策略，從而不斷改進其性能。這種動態學習能力使得 ChatGPT 智能體能夠根據不同的任務需求靈活調整其行動策略，提高任務完成的速度和準確性。

ChatGPT Agent還專為迭代式、協作式工作流程設計，顯著提升了其交互性和靈活性。在任務執行過程中，用戶可以隨時中斷對話以澄清指令、重新定位任務方向，或引導其朝向預期結果。ChatGPT 智能體會從中斷處繼續，同時整合新信息，但不會丟失先前進展。使得用戶能夠在任務執行過程中隨時調整任務方向，確保任務結果符合用戶的預期。

在安全性方面，ChatGPT 智能體的設計也充分考慮了用戶的安全需求。在執行涉及敏感或重要操作前，ChatGPT會明確征得用戶的授權，確保用戶始終掌握控制權。此外，ChatGPT 智能體還具備主動監督和風險緩解功能，能夠主動拒絕高風險任務，例如，金融交易或敏感法律互動。

根據OpenAI公布的測試數據顯示，ChatGPT Agent 在多項測試中表現優異。在 “人類終極考試” 中，單次嘗試通過率達41.6的新SOTA成績，采用并行策略時分數提升至44.4；在“前沿數學”基準中，準確率達27.4%，大幅超越以往模型。

在模擬復雜現實世界任務的內部基準測試中，針對復雜且具經濟價值的知識型工作任務，其輸出在約一半案例中與人類相當或更好，顯著優于o3和o4-mini，涵蓋多種現實專業工作。

在DSBench 中表現顯著超越人類；在SpreadsheetBench 中大幅優于現有模型，被賦予直接編輯電子表格能力時得分達 45.5%，遠超 Excel 中Copilot 的 20.0%。

在衡量投資銀行分析師建模任務能力的內部基準中，顯著優于深度研究和 o3，涉及多種建模任務，均按數百項標準評分。

在BrowseComp基準中以68.9% 的成績創SOTA，比深度研究高17.4 %；在WebArena中表現優于由o3驅動的CUA。

有網友表示，ChatGPT Agent更像是Manus 2.0。Manus剛推出時概念確實很有意思，但它太不穩定了，根本沒法好好用。

很期待體驗 ChatGPT Agent，看看它是否能配得上這些熱度，這算是向 AGI又邁進了一步嗎？

這真的太令人興奮了，已經迫不及待想嘗試了。而且我完全認同這種做法：“強大的智能體可能擁有超強能力，但同時也伴隨著巨大風險。風險不僅來自惡意攻擊者，還包括幻覺問題。讓我們一起探索，去理解其中的深層影響吧。

團隊這次更新太棒了，對此我非常期待。盼著能用起來，也期待著它會隨著時間推移變得更強大。

我很欣賞你們把它交到我們手中的做法，沒有等到那個遙不可及的零風險高標準才發布。在我看來，帶著提醒和注意事項去信任用戶，這做法非常好。

這太不可思議了！看著人工智能真的能瀏覽網站、完成實際任務，感覺就像科幻小說照進了現實。我已經在琢磨，這能如何為內容創作者和小企業簡化工作流程了。生產力革命，從現在開始！

責任編輯：張燕妮來源： AIGC開放社區

ChatGPT AI 模型