OpenAI 最新發(fā)布 ChatGPT Agent 架構(gòu)設(shè)計(jì)剖析 原創(chuàng)
7月17日,OpenAI 重磅發(fā)布了 ChatGPT Agent。ChatGPT Agent 的核心是一個(gè)統(tǒng)一的智能體系統(tǒng)。它融合了 ChatGPT、Deep Research、Operator 三大技術(shù)突破的優(yōu)勢(shì):Operator 與網(wǎng)站交互的能力,Deep Research 整合信息的技巧,以及 ChatGPT 智能對(duì)話優(yōu)勢(shì)。

因此它不再是一個(gè)簡(jiǎn)單的問(wèn)答機(jī)器人,而是一個(gè)能夠主動(dòng)思考并自主執(zhí)行任務(wù)的 AI 智能體。本文將深入剖析 ChatGPT Agent 的技術(shù)架構(gòu)、核心能力、應(yīng)用場(chǎng)景、安全限制。

下文我們?cè)敿?xì)剖析之。
一、ChatGPT Agent 概述
1、ChatGPT Agent 是什么?
ChatGPT 現(xiàn)可通過(guò)其自有虛擬計(jì)算機(jī)為您處理任務(wù),能夠流暢地在推理與執(zhí)行之間切換,全程獨(dú)立完成復(fù)雜任務(wù)。
ChatGPT Agent 將 Operator 與網(wǎng)站交互的能力、深入研究在整合網(wǎng)絡(luò)信息方面的優(yōu)勢(shì),以及 ChatGPT 的對(duì)話能力有機(jī)融合,形成一個(gè)統(tǒng)一的 AI 智能體系統(tǒng)。這意味著您現(xiàn)在可以將想法和問(wèn)題轉(zhuǎn)化為實(shí)際行動(dòng)——無(wú)論是進(jìn)行深入的財(cái)務(wù)研究、填寫在線表格,還是制作精美的幻燈片。按照您的指示,ChatGPT 將為您完成這些工作,從而加快您的工作進(jìn)度,同時(shí)釋放您的時(shí)間,讓您能夠?qū)W⒂谝惶熘械钠渌聞?wù)。
讓 ChatGPT 處理諸如“查看我的日歷,并根據(jù)最新動(dòng)態(tài)簡(jiǎn)要匯報(bào)即將舉行的客戶會(huì)議”或“分析三個(gè)競(jìng)爭(zhēng)對(duì)手并制作幻燈片演示文稿”等請(qǐng)求。它將智能地瀏覽網(wǎng)站、選擇日期、篩選結(jié)果、提示您安全登錄、運(yùn)行代碼,甚至生成經(jīng)過(guò)潤(rùn)色且可編輯的輸出內(nèi)容——例如:幻燈片演示文稿和電子表格——以總結(jié)其分析結(jié)果。
最重要的是,您始終掌握控制權(quán)。ChatGPT 在執(zhí)行重要操作前會(huì)先征得您的許可,您可隨時(shí)中斷操作、接管瀏覽器或停止任務(wù)。
2、與傳統(tǒng) ChatGPT 的區(qū)別

二、ChatGPT Agent 技術(shù)架構(gòu)和核心能力剖析
1、ChatGPT Agent 技術(shù)架構(gòu)剖析
ChatGPT Agent 技術(shù)架構(gòu)由:統(tǒng)一 AI 智能體架構(gòu)設(shè)計(jì)、雙瀏覽器架構(gòu)設(shè)計(jì)、虛擬計(jì)算機(jī)環(huán)境架構(gòu)設(shè)計(jì)構(gòu)成。
第一、統(tǒng)一 AI 智能體系統(tǒng)架構(gòu)設(shè)計(jì)
ChatGPT Agent 的架構(gòu)設(shè)計(jì)是 OpenAI 的一次“大統(tǒng)一”嘗試。它不是簡(jiǎn)單地拼接功能模塊,而是重新設(shè)計(jì)了一套能夠無(wú)縫協(xié)作的系統(tǒng)架構(gòu),確保各個(gè)組件之間高效協(xié)同。

第二、雙瀏覽器架構(gòu)設(shè)計(jì)
ChatGPT Agent 使用兩種不同的瀏覽器與在線服務(wù)交互:
這種設(shè)計(jì)讓 AI 智能體具備了“左右手”,能夠靈活應(yīng)對(duì)各種任務(wù)。

- 文本瀏覽器(左手):專門處理結(jié)構(gòu)化數(shù)據(jù),快速提取關(guān)鍵信息,適合 API 調(diào)用和數(shù)據(jù)分析。
- 可視化瀏覽器(右手):模擬人類操作習(xí)慣,處理復(fù)雜的 GUI 界面,適合電商購(gòu)物、表單填寫等任務(wù)。
第三、虛擬計(jì)算機(jī)環(huán)境架構(gòu)設(shè)計(jì)
ChatGPT Agent 使用自己的虛擬計(jì)算機(jī),能夠?qū)Ш骄W(wǎng)站、篩選結(jié)果、提示用戶登錄,并提供摘要。這個(gè)虛擬環(huán)境相當(dāng)于為 AI 智能體分配了一臺(tái)專屬的“云電腦”,使其能夠真正“動(dòng)手操作”。

2、ChatGPT Agent 核心能力解析
ChatGPT Agent 整合了 Operator 的網(wǎng)頁(yè)操作能力、Deep Research 的信息綜合能力以及 ChatGPT 的對(duì)話能力,形成了一個(gè)“三位一體”的強(qiáng)大 AI 智能體系統(tǒng)。它不僅能夠處理文本,還能操作多媒體文件,提供端到端的解決方案。

三、ChatGPT Agent 實(shí)際使用場(chǎng)景
ChatGPT Agent 在很多場(chǎng)景都能很好賦能,本文主要剖析以下3類典型使用場(chǎng)景。
1、商務(wù)辦公場(chǎng)景
- 競(jìng)爭(zhēng)分析報(bào)告:用戶可以要求“分析三個(gè)競(jìng)爭(zhēng)對(duì)手并制作幻燈片”。ChatGPT Agent 會(huì)自動(dòng)搜索指定的競(jìng)爭(zhēng)對(duì)手,訪問(wèn)官網(wǎng)、新聞報(bào)道和財(cái)務(wù)報(bào)告,提取關(guān)鍵信息,生成包含圖表和數(shù)據(jù)對(duì)比的 PPT,并提供可編輯文件供用戶完善。

- 財(cái)務(wù)分析助手:ChatGPT Agent 在財(cái)務(wù)分析方面表現(xiàn)出色,能夠建立詳細(xì)的成本結(jié)構(gòu)標(biāo)簽并集成到報(bào)告中。
2、研究分析場(chǎng)景
ChatGPT Agent 在研究方面的能力尤為強(qiáng)大,可以:
- 搜集多個(gè)來(lái)源的信息。
- 交叉驗(yàn)證數(shù)據(jù)的準(zhǔn)確性。
- 生成結(jié)構(gòu)化的研究報(bào)告。
- 提供引用和參考鏈接。
3、日常生活場(chǎng)景
- 購(gòu)物助手:用戶可以要求“為周末聚會(huì)購(gòu)買食材,預(yù)算控制在200元內(nèi)”。ChatGPT Agent 會(huì)搜索附近超市的在線商城,比較價(jià)格和配送時(shí)間,優(yōu)化購(gòu)物清單,并在用戶確認(rèn)后完成購(gòu)買。

- 旅行規(guī)劃:用戶可以要求“計(jì)劃一次三天兩夜的京都之旅”。ChatGPT Agent 會(huì)搜索航班和酒店信息,制定詳細(xì)行程安排,預(yù)訂必要服務(wù)(需用戶確認(rèn)),并生成完整的旅行手冊(cè)。
四、ChatGPT Agent 安全性與限制
1、安全防護(hù)機(jī)制
OpenAI 在 ChatGPT Agent 的安全設(shè)計(jì)上下了大功夫。該模型被訓(xùn)練拒絕高風(fēng)險(xiǎn)任務(wù),比如:銀行轉(zhuǎn)賬,并且開(kāi)發(fā)了新的保護(hù)措施來(lái)防止黑客濫用其功能,特別強(qiáng)調(diào)阻止隱藏在網(wǎng)頁(yè)中的惡意提示詞。
2、使用限制分析
- 訪問(wèn)權(quán)限限制:ChatGPT Agent 目前向 Pro、Team 和 Plus 用戶推出。Pro 計(jì)劃用戶每月可以使用400條消息,Team 和 Plus 用戶每月獲得40條消息。
- 功能限制:
a.不能執(zhí)行涉及金融交易的高風(fēng)險(xiǎn)操作。
b.需要用戶授權(quán)才能訪問(wèn)敏感信息。
c.某些操作(比如:發(fā)送郵件)需要用戶監(jiān)督。
3、風(fēng)險(xiǎn)控制策略
Sam Altman 建議:“我會(huì)向家人解釋這是前沿和實(shí)驗(yàn)性的技術(shù)。雖然這是嘗試未來(lái)的機(jī)會(huì),但對(duì)于高風(fēng)險(xiǎn)用途或涉及大量個(gè)人信息的情況,我建議暫時(shí)不要使用,直到我們有機(jī)會(huì)在實(shí)際使用中研究和改進(jìn)它。”
本文轉(zhuǎn)載自??玄姐聊AGI?? 作者:玄姐

















