如何減輕 AGI 代理帶來的風險

AGI 因其無需人類監督就能獨立應對外部環境的能力而構成威脅。然而,人們不愿放棄將相關任務外包給 AI 代理所帶來的好處。
怎樣才能解決這個矛盾呢?
長話短說:雖然人工智能代理可以安全地達到 AGI 級別,但它們應該在明確定義的環境中進行訓練——理想情況下僅限于單個團隊,或者最多一個組織。它們的行動也必須嚴格限制在這個狹窄的范圍內。
圖片
當涉及到個人的狹隘情境時,AGI 代理會對其自身構成風險。因此,在個人層面,依賴自主性較低、專業性更強的 AI 系統(例如助手和輔助駕駛)更為安全。
內容
完全自主代理= AGI + 自學習 + 大量工具。將 AGI 實現為“處理器”并不存在重大障礙;主要挑戰在于開發合適的工具和合適的內存。
許多威脅,包括生存風險,都來自全球通用人工智能主體。這些主體可以訪問數千家公司和數百萬個人擁有的工具和信息。
為了確保安全,AGI 代理必須被限制在單個人類可以操作的狹窄環境中。理想情況下,此類代理應該在團隊層面以同事的身份發揮作用。在組織層面,由團隊級代理組成的多代理系統是更可取的。
AGI 智能體與人類需求之間的平衡是可以實現的。在第四部分,我提出了一些每個人都可以采取的行動,以幫助創造更安全的 AGI 未來。
1. AGI 和 AI Agent 簡介
AGI(通用人工智能)是指能夠在廣泛的認知任務中匹敵人類能力的人工智能系統。換句話說,AGI 的特點是其通用的問題解決能力。
值得注意的是,即使是今天的生成式人工智能也已經相當通用且高度靈活,能夠適應許多不同的用途。與前幾代機器學習模型不同,大型語言模型 (LLM) 可以適應各種任務和情境。
預計 AGI 將比現有 AI 模型更加通用、功能更加多樣。谷歌 DeepMind 于 2023 年 11 月發表的一篇研究論文概述了 AGI 的九種不同定義,并得出結論:AGI 具有兩個關鍵特征——通用性(多功能性)和性能(智能性)。
1.1. 代理在這里有何作用?
AGI 可以被視為代理型 AI 趨勢的延續。正如本文所討論的,AI 代理與早期 AI 工具的根本區別在于其多功能性(通用性),而不僅僅是擁有工具、傳感器或推理能力等代理特性。AGI 的定義也正是源于此,“G”代表“通用性”。
當然,AGI 本身并非真正的 AI 代理。AGI 級別的模型僅僅是 AI 代理的“大腦”。代理是一個完整的即用型系統,能夠在某些任務中替代人類。相比之下,前述 Google DeepMind 論文強調,AGI 的定義不應涉及任何與 AGI 系統的部署或操作使用相關的內容。
最有可能的是,AGI 將成為大量智能體的共享“大腦”,因此它應該被設計成不帶永久記憶。從這個角度來看,AGI 更像是一個計算機處理器,而不是一個完整的人腦。
AGI“處理器”可能是讓AI代理能夠完全自主運行、無需人類介入的關鍵。然而,代理需要的不僅僅是一個處理器——它們還需要至少另外兩個組件:

1.2. 什么阻礙了人工智能達到人類水平的能力?
LLM 已經具備足夠的智能,有可能在不久的將來達到 AGI 的水平。推動這一進步的關鍵因素之一是其快速提升的推理能力。
然而,要使通用人工智能發揮作用,其代理能力也必須變得更加通用和強大。這些能力包括:
自學是指在操作過程中提取見解和其他有價值信息并將其存儲在永久記憶中的能力。
能夠使用多種工具和傳感器。
幸運的是,LLM 缺乏能夠自主學習的永久記憶。
幸運的是,支持人工智能系統與外部世界交互的工具和傳感器仍然不夠靈活,不足以支持通用人工智能 (AGI)。目前,人工智能代理最廣泛的技能僅限于瀏覽互聯網、部分控制終端用戶設備等。這些操作范圍與人類能夠執行的全部操作范圍仍然相差甚遠。
因此,AI 代理在技術上仍未達到人類水平也就不足為奇了。例如,以下是深度參與 AI 代理開發的 @mehulgupta_7991 的觀點:
他的結論是,人工智能代理很大程度上只是炒作,尚未準備好主宰勞動力市場。
盡管如此,很明顯,完全代理的 AGI 將在未來幾年內出現,現在是考慮其潛在負面后果的最佳時機。
2. 完全代理型AGI的危險
2.1. AGI 加入勞動力大軍
薩姆·奧特曼(Sam Altman)大膽宣稱,OpenAI 知道如何構建通用人工智能 (AGI),并表示“到 2025 年,我們可能會看到第一批人工智能代理加入勞動力大軍”,并達到與人類相當的能力水平。盡管許多人工智能專家認為奧特曼的時間表過于樂觀,但幾乎沒有人懷疑 AGI 的水平在技術上是可以實現的。
從商業角度來看,廉價的AGI代理加入勞動力市場似乎很有吸引力,不是嗎?然而,AGI無疑會以難以預測的方式影響就業市場——而這只是眾多風險之一。
有人甚至認為AGI可能引發一場現代版的巴特勒圣戰。不幸的是,這還不是AGI最大的危險。
2.2 與環境互動的通用人工智能會引發生存威脅
維基百科概述了 AGI 可能造成的災難性后果,包括對人類生存的風險,這一點在《 Sea of Rust》等眾多小說中都有描述,Eliezer Yudkowsky 在 2022 年對其進行了深入探討:
尤德科夫斯基令人信服地指出,人工智能不需要自由意志或獨立設定目標的能力就能毀滅人類。只要擁有高智能體就足以毀滅人類。
如果人工智能被賦予與環境互動的能力——這是任何人工智能代理的必備特質——并被賦予哪怕是一個看似有益的目標,它也可能在努力實現目標的過程中無意中毀滅人類。這個目標可能像“發現取之不盡用之不竭的能源”一樣美好,也可能像著名的“回形針最大化”思想實驗一樣怪誕:
注意上面論證中的第一個條件(“如果”)。相反的陳述應該是:
如果AGI沒有被授予與環境交互的權限,那么無論它變得多么智能,都無法傷害人類。
這是 Yoshua Bengio 倡導的方法,他認為無需賦予 AI 自主權即可實現 AGI:
然而,不幸的是,人工智能所能帶來的許多最大益處都與其“與環境互動”的能力直接相關。這使得Bengio 的警告不太可能被采納。即使“禁止”人工智能與現實世界互動,災難性的后果仍然可能因意外而發生。
情況就是這樣的:
即使是現在,許多人工智能系統也能訪問互聯網,不僅用于閱讀信息,還能進行寫作。OpenAI 和其他提供商使開發者甚至用戶能夠使用函數調用 (Function Calling),從而允許人工智能與外部 API 進行交互。不難想象,人工智能可以利用這種能力在社交媒體上發布內容。
人工智能可以利用社會工程學手段,操縱大眾做出看似符合其設定的“有益”目標的行動,但最終卻將人類引向災難。由于這些智能體是自主運作的,危險往往在為時已晚時才顯現出來。
2.3. AGI 代理在全球范圍內運作時會變得危險
AGI 本身(例如 GPT-5 或 GPT-6 等高度先進的 LLM)并非一個可用的系統。這樣的 AGI“處理器”需要嵌入到配備自更新內存、傳感器和工具的通用 AGI 代理中。
未來 AGI 代理的設計和使用方式有很多種,而且它們在安全性方面存在很大差異。

全球范圍內運行的 AGI 代理的不安全設計。試想一下 AGI 代理最不安全的設計(見上圖)。自學習記憶和工具直接連接到全局部署的模型(AGI 處理器),而不是綁定到在個人、團隊或組織環境下運行的特定代理。
這樣的全球通用人工智能代理要發揮作用,就需要適應每個特定的環境——否則,它將無法滿足個人、團隊或組織的需求。為了實現這一點,應用程序需要公開其 API,允許全球代理訪問其數據、監控更新并執行所需的操作。
例如,一個AGI扮演著看似安全的組織員工角色——比如營銷人員或程序員——不僅需要與其他員工溝通,還需要獨立地在組織的某些應用程序中進行更改。如果沒有這種能力,它就無法履行職責。
當一個通用人工智能代理能夠訪問數百萬個應用程序及其數據和工具時,它就變得無所不能。正是這種類型的代理造成了前面概述的所有威脅。
這種設計的危險在于AGI代理在全球范圍內運行,而特定的應用程序僅僅將其用作一種服務。
顯然,我們應該采取更安全的方法。
3. 安全的AGI代理必須是本地的
下面是我將在本節中解釋的圖表:

如果AGI代理嚴格限制在特定范圍內運作——例如服務于個人、單個團隊,或者最多服務于單個組織——其負面影響就可以被最小化。AGI不應該是全球性的,即檢索全球所有數據或操作全球所有工具。
一個相對安全的情況是,如果 OpenAI 的運營商一旦它發展到 AGI 級別,繼續嚴格在單個私人個體的范圍內運作,而不代表政府或全人類行事??。
更安全的方法是定制 AGI 代理,而不是像 OpenAI Operator 這樣的通用系統。這樣的代理可以為特定組織、團隊甚至個人快速開發。幸運的是,隨著 AI 代理和軟件開發副駕駛的興起,創建此類系統的時間和成本已大幅下降。
這些系統應該僅作為處理器與“全局”通用人工智能交互。然而,它們只能訪問其組織、團隊或個人范圍內的數據——而且,至關重要的是,它們的行動也必須嚴格限制在該范圍內。
此外,我認為在個體層面上,人工智能系統甚至不應該成為代理。
3.1. 個人層面無AGI代理
請記住,AGI 并非指極其聰明,而是指高度多才多藝——能夠處理各種各樣的任務。相比之下,現代人是專家,處理的任務范圍相對較窄。因此,對個人層面的 AI 多才多藝的要求相當低。
所以,我認為在這個層面上,AGI 是不必要的。我相信,對于大多數人來說,依賴像副駕駛這樣的 AI 系統就足夠了,而不是依靠代理。換句話說,人類應該積極參與這個過程,而不是賦予 AI 完全的自主權。
當然,這一假設仍有爭議,但有強有力的論據支持它。認知卸載和批判性思維的侵蝕會對個人決策能力、韌性、心理健康等造成一系列有害影響。
這就是人工智能代理(尤其是 AGI 代理)將如何放大這一令人不安的趨勢:
依賴人工智能進行決策和解決問題會減少個人練習批判性思維的機會。Michael Gerlich 最近的一項研究表明,人工智能工具的使用與批判性思維得分之間存在很強的負相關性(-0.5)。值得注意的是,這項研究考察的人工智能工具甚至沒有智能體,因為真正的智能體尚不存在。
一旦個體智能體變得更加強大并進入大眾市場,大多數人必然會更傾向于頻繁使用它們。這與大多數人多年來被動地從社交媒體信息流中獲取信息,而不是主動搜索互聯網的原因相同。人們通常不喜歡頻繁的思考和決策,因為這會消耗腦力。
因此,人們將不再僅僅使用人工智能來處理特定任務——他們將越來越依賴人工智能代理“從頭到尾”地實現整個目標。盡管目前人工智能代理的自主性受到限制,但為了滿足大眾對減少腦力勞動的需求,人工智能提供商幾乎肯定會放寬這些限制?!皽蕚浜觅x予你的通用人工智能代理完全自主權了嗎?只需在設置中勾選此框即可! ”
個體人工智能的出現帶來的一個不幸后果是,人類可能會失去做出選擇和決策的能力——這可以說是人類最后的幾個決定性特征之一。隨著強大的通用人工智能的出現,只有極少數人能夠保留,甚至增強這種能力。
這就是為什么在大多數情況下,個人在解決問題的過程中保持控制并對關鍵決策負責的同時,借助人工智能副駕駛來提高工作效率是更明智的做法。
3.2. 團隊 AGI 代理作為同事
以下討論重點關注工作場所場景,但它可以輕松擴展到人們圍繞共同利益或目標進行合作的其他領域 - 例如社區、政黨、志愿者組織,甚至家庭。
我相信,人類團隊將因新增“通用人工智能”代理而受益匪淺。以下是此類代理的設計概要:

在團隊范圍內運作的 AGI 代理的相對安全的設計
團隊級應用的一個例子是企業即時通訊應用(具體來說,是團隊互動的聊天或頻道),或者帶有視頻會議功能的即時通訊應用。將本地的、以團隊為中心的人工智能代理嵌入到這樣的通信平臺中相對容易,例如:
知識共享代理。該人工智能在群聊中提供來自團隊知識庫的信息——無論是直接提及,還是當它識別出其中包含與討論相關的有用信息時。它還會通過從聊天和會議中獲取的新見解來更新知識庫,從而幫助維護知識庫。此外,它還可以代表團隊與問題跟蹤器等其他系統進行交互。
工作流代理。這類人工智能可以作為經理、團隊負責人或Scrum Master的副手,確保工作流程的高效性。例如,它可以組織會議。它還可以協調異步協作——私下收集每個團隊成員的狀態更新和問題,然后在群聊中分享總結。
對于這樣的任務,依賴從 OpenAI 或任何其他 AI 提供商租用的“通用 AGI 代理”會帶來嚴重風險。
不幸的是,人工智能系統的發展目前正朝著這個充滿風險的方向發展。讓法學碩士(LLM)調用成千上萬個公共 API(例如 rapidapi.com 上列出的 API)非常誘人。然而,這會帶來巨大的風險,尤其是當這些 API 不僅檢索信息,還能觸發操作時——例如開具發票、發送電子郵件或在社交媒體上發帖。
話雖如此,最近推出的 MCP(模型上下文協議)為未來減輕此類風險帶來了希望。
MCP 在 LLM 和外部系統之間創建了一個額外的標準化層——MCP 服務器。我希望,與 LLM 目前通過函數調用直接訪問的混亂 API 相比,這個中介將更容易監控和監管,從而確保安全。
因此,AGI 代理應該在團隊層面部署。
首先,引入新的人工智能同事對人類來說是最自然不過的事情,因為他們已經習慣了接納新的人類團隊成員。這種方法可以最大限度地減少對那些最初可能對人工智能持懷疑態度的團隊成員工作流程的干擾,并最終促進新技術的更廣泛接受。
其次,它提高了安全性。原因如下:
只有團隊(而不是個人)才能有效地利用、培訓和監督人工智能同事。
只有團隊才有很高的潛力來識別涉及人工智能代理的不安全使用模式。
這類似于團隊而非個人最適合引導、指導和管理新員工。否則,如果每個新員工都嚴格地與一個人配對,那么無論是在入職(培訓)方面還是在實際工作方面,都會效率低下。
3.3. 企業多代理系統
在大型組織層面,人們或許可以設想以類似于團隊的方式引入人工智能代理——授予每個代理對其所需系統的完全訪問權限。然而,正如我將在下文解釋的那樣,這并非最佳方案。
首先,大型組織使用龐大、多功能的系統,例如 ERP 平臺。因此,這種級別的座席需要極其熟練,能夠操作與數十甚至數百個不同工作角色相關的各種工具。如此高度的多功能性帶來了巨大的風險,因為沒有人能夠對這些座席進行適當的培訓或監督。
其次,讓我們設想一個最佳場景:企業級代理的通用性較低,類似于團隊級代理。假設它是前面描述的看似無害的“知識共享代理”。唯一的區別在于,它需要訪問所有公司 Messenger 聊天記錄、公司每次會議的記錄,以及修改公司系統所有部門數據的能力。
這種差異極大地改變了人們對人工智能的看法:他們現在感覺自己受到代理的監視,代理可能會——甚至是無意地——將內部團隊信息泄露給鄰近團隊或高層管理人員。
此外,人工智能將新信息映射到企業系統正確部分的任務變得更具挑戰性。
更糟糕的是,當公司范圍的代理(沒有任何一個團隊負責)進行修改時,沒有人負責審查這些修改。
那么,企業應該如何部署AI代理呢?
我的答案是構建一個由團隊級代理組成的多代理系統:
通過多個自主智能體的協作,可以解決更具動態性和復雜性的任務,每個智能體都具備獨特的策略和行為,并相互進行溝通。
據微軟首席研究員、AutoGen 框架創建者 Chi Wang 介紹,多智能體系統主要有三大優勢:
模塊化,可以實現更快的開發和更便宜的維護。
專業化,可以解決更復雜的問題。
協作學習和解決問題,可以產生可能勝過更同質系統的解決方案的創造性解決方案。
總體而言,多智能體系統的開發、測試和實施成本比超人、組織級智能體要低。
但這不僅僅關乎降低成本和提高效率——還關乎用戶采用和安全性。
團隊級智能體類似于團隊中的人類,每個智能體都有各自的專長和個性。這使得它們更容易被人類理解。即使它們組成了多智能體系統,情況也是如此。
這也增強了安全性。由于多智能體系統中的智能體易于理解,因此可以通過明確的規則和原則進行約束?;谌祟悎F隊合作的既定規則,為人工智能智能體制定協作指南更加容易且成本更低。這使得多智能體系統的設計比功能類似的單片智能體更經濟實惠,也更不容易出錯。
當然,多智能體系統比其內部的單個智能體更難預測,仍然可能造成意外損害。然而,潛在的負面后果有限,因為這些智能體——與單一的組織級智能體不同——只能訪問企業系統的特定部分。
這就是為什么堅持基于原則的代理框架(例如Eric Broda的 Agentic Mesh)如此重要:
我希望代理型 AGI 能夠得到適當的構建和監管,并且永遠不會發布強大的單體世界級代理甚至單體企業級代理。
3.4. 總結:如何確保人工智能代理的安全
下圖說明了在團隊和企業級別安全部署 AGI 的模型。

理想情況下,AGI 代理應該集成到團隊級應用程序中(例如 MS Teams 或 Google Docs),而不是個人應用程序。它們應該扮演分配到特定崗位的人工智能團隊成員的角色。這種設置允許團隊集體訓練和監督它們,而這項任務對于任何單個個體來說都過于艱巨。
代理所需的多功能性應始終比與其交互的用戶的多功能性級別低一級:
在為個人用戶設計的應用程序中——例如網絡瀏覽器或圖形編輯器——代理功能實際上對用戶有害。我們需要的是能夠在這些應用程序中提供主動協助的AI副駕駛員。
在團隊級應用程序中(例如,信使中的團隊聊天或問題跟蹤器中的團隊項目),AGI 代理應該只處理與單個人類團隊成員可以處理的任務范圍相當的任務。
對于組織范圍的應用程序(例如整個企業信使、完整的問題跟蹤器或 ERP 平臺),AGI 應該采用團隊級代理的形式,即多代理系統。
4. 我們能對AGI風險做些什么?
當然,第三節僅展示了一個相對安全的通用人工智能未來模型。實際的未來可能并非如此。然而,我們需要這樣一個模型,以避免加劇第二節中描述的重大威脅。

以下是我基于該模型的建議。
對于您個人而言:
優先選擇人工智能助手和副駕駛,而不是代理。不要過度依賴人工智能代理,從而削弱你的解決問題、決策和批判性思維能力。保持這些技能可以增強你的韌性,這在這個快速變化的時代至關重要。
對于作為團隊成員:
樂于將設計合理的本地通用人工智能 (AGI) 代理集成到團隊的工作空間中。參與培訓這些代理,確保它們與你的目標保持一致。這項努力終將獲得回報:擁有一位能力出眾的新“AI 下屬”將幫助你專注于更具吸引力、更有意義的工作。
如果您是任何類型的“人事經理”:
將自己視為 AGI 代理的主要受益者。雖然專用的 AI 工具可以協助專家,但AGI 代理旨在支持像您這樣的通才。AGI 在管理中的用例數量,僅取決于您的想象力以及您鼓勵團隊采用它們的能力。
例如,可以將協作問題的檢測甚至解決委托給 AGI 代理。卸載這些日常任務,可以騰出更多時間專注于戰略、人才培養和其他高價值優先事項。
如果您是中層或高層管理人員,并且您的領導風格并非事無巨細,那么AGI代表仍然可以發揮巨大的作用。有了他們的支持,或許就無需再采用成本高昂、復雜的流程,甚至無需組建成本更高的自主管理團隊。通過在您的團隊中添加AI代理,實現同樣的透明度和協同性將變得更加容易。
如果您正在發展自己的企業或是一家大型企業的合伙人:
你可能已經對人工智能代理(AI agent)——一種成本低得多的員工——感到興奮不已,但重要的是要明白,通用人工智能代理需要大量的培訓和人工監督。如果你的團隊破壞代理,或者你只是解雇了人類員工,希望代理能夠神奇地自我學習和自我控制,那么它們將無法正常運作。
當AGI員工成為現實,企業積極嘗試取代人類員工時,政府干預勢必隨之而來。這給那些押注無人工AGI戰略的企業帶來了重大風險。
因此,在通用人工智能 (AGI) 方面,必須在商業需求和人類需求之間找到一個折衷點,而這種平衡是可以實現的。此外,與通用人工智能時代之前相比,即使采取“妥協”的通用人工智能方法,也能帶來生產力的數倍提升,從而助力企業快速發展。

























