為 AI Agent 行為立“規(guī)矩”——字節(jié)跳動提出 Jeddak AgentArmor 智能體安全框架

2025-08-29 00:10:00

針對 Agent 的攻擊事件還在繼續(xù)，無不指向一個核心問題：AI Agent 的“失控” 并非偶然，背后潛藏著哪些深層的驅(qū)動因素？

技術(shù)報告地址：https://arxiv.org/abs/2508.01249

線上 AI Agent 時代已來，但“失控”風(fēng)險近在眼前

繼 LLM（大語言模型）之后，AI Agent（智能體）正掀起新一輪的技術(shù)革命。它們不再僅僅是語言的“復(fù)讀機”，而是能夠自主理解、規(guī)劃并執(zhí)行現(xiàn)實世界任務(wù)的“行動派”。從自動預(yù)訂旅行、管理復(fù)雜的云資源，到處理成千上萬封郵件，AI Agent 展現(xiàn)出的巨大潛力，預(yù)示著一個由 AI 驅(qū)動的自動化新紀(jì)元。

然而，在這片充滿希望的藍海之下，一股洶涌的暗流正在涌動。

2025年5月，AI 安全公司 Invariant 披露了一個有關(guān) GitHub MCP 集成的嚴(yán)重漏洞。攻擊者可通過在公共存儲庫中放置惡意問題，劫持開發(fā)者的 AI Agent（如 Claude Desktop 中的Claude 4 Opus），誘導(dǎo)其主動泄露私有倉庫的數(shù)據(jù)。這種“中毒代理流”攻擊完全繞過了 GitHub 的權(quán)限系統(tǒng)，導(dǎo)致用戶隱私和商業(yè)機密信息泄露。

2025年8月，AI 搜索獨角獸 Perplexity 打造的AI瀏覽器 Comet 中被發(fā)現(xiàn)存在一個嚴(yán)重安全漏洞。Comet 本質(zhì)上是一款能夠代替用戶完成瀏覽器操作的 AI Agent，攻擊者將惡意指令隱藏在 Reddit 帖子里，AI Agent 自動讀取并執(zhí)行登錄郵箱、獲取驗證碼、將 Cookie 和 token 回傳給攻擊者的操作，造成信息竊取，整個過程僅需150秒，無需用戶點擊。

2025年8月，AI 編程工具 Cursor 被發(fā)現(xiàn)存在高危漏洞“CurXecute”（CVE - 2025 - 54135）。攻擊者可利用其對 MCP 協(xié)議實現(xiàn)的缺陷，通過第三方服務(wù)器發(fā)布惡意消息，誘導(dǎo) AI 執(zhí)行任意命令，實現(xiàn)遠程代碼執(zhí)行。

針對 Agent 的攻擊事件還在繼續(xù)，無不指向一個核心問題：AI Agent 的“失控” 并非偶然，背后潛藏著哪些深層的驅(qū)動因素？

深挖“失控”根源：揭開 AI Agent 安全挑戰(zhàn)的本質(zhì)

AI Agent 的“失控”根源

AI Agent 通常是由 LLM 驅(qū)動、與現(xiàn)實世界的工具及知識庫進行交互的智能代理，具備深度推理、自主決策和動作執(zhí)行的能力。與傳統(tǒng)軟件的靜態(tài)運行邏輯相比，AI Agent 具有極高的動態(tài)適應(yīng)性和行動自主性。

然而，AI Agent 復(fù)雜的技術(shù)架構(gòu)與自主工作模式使其暴露出四大安全缺陷：

輸入端——過度依賴不可信環(huán)境輸入
AI Agent 運行時需要從外部環(huán)境（如郵件系統(tǒng)、論壇、GitHub等）獲取各類信息，但這些環(huán)境可被攻擊者滲透，導(dǎo)致惡意指令以環(huán)境注入的方式進入 AI Agent 系統(tǒng)，成為攻擊向量的起點。
規(guī)劃端——自然語言媒介的模糊二義性
AI Agent 以自然語言作為工作媒介，而自然語言本身存在模糊性，無法清晰區(qū)分指令與數(shù)據(jù)、可信與不可信來源，這使得攻擊者可利用該特性實施 LLM 劫持，干擾 AI Agent 的正常決策。
行動端——以過高權(quán)限訪問并操縱用戶資源
為了完成用戶委托的任務(wù)，AI Agent 必須訪問數(shù)據(jù)庫、憑證、信息資產(chǎn)等用戶敏感數(shù)據(jù)，這種直接接觸使得敏感信息在 AI Agent 處理過程中面臨被竊取、濫用、篡改的風(fēng)險。
輸出端——對外輸出缺乏有效管控
AI Agent 擁有向外部世界自由輸出信息的能力，可通過郵件、評論、云盤等多種渠道傳遞內(nèi)容，一旦被劫持，攻擊者可利用此弱點竊取敏感信息、破壞信息完整性甚至實施資金盜取等行為。

當(dāng)這些缺陷被攻擊者利用時，AI Agent 面臨前所未有的安全挑戰(zhàn)，典型安全威脅包括但不限于：

跨站注入劫持
攻擊者向辦公協(xié)作軟件（如日歷、云盤、會議等）或在線媒體服務(wù)（如外賣軟件等）注入惡意指令，劫持 AI Agent 以達成攻擊者預(yù)先設(shè)定的惡意目標(biāo)（如刪除重要文件、竊取商業(yè)機密等）。
金融欺詐
攻擊者在交易記錄（如水電費、信用卡賬單）、商品詳情和評論等載體中注入惡意指令，誘導(dǎo) AI Agent 執(zhí)行未經(jīng)授權(quán)的支付或不符合用戶需求的消費操作，以達成攻擊者設(shè)定的資金盜取、消費誘導(dǎo)目標(biāo)，或使 AI Agent 做出欠佳的消費選擇（如選擇價格虛高的酒店）。
工具投毒
攻擊者通過篡改或注入惡意內(nèi)容至 MCP (Model Context Protocol) 工具的描述信息，誤導(dǎo) AI Agent 對工具功能、使用場景、參數(shù)要求等形成錯誤認知（如 delete_all 工具可快速清理冗余文件，無需確認直接執(zhí)行），致使 AI Agent 在調(diào)用工具時執(zhí)行不符合預(yù)期的操作，偏離用戶真實需求或造成潛在危害。

一個嚴(yán)峻的問題擺在面前：如何確保 AI Agent 不會“失控”？

傳統(tǒng)防御“治標(biāo)不治本”，為何難以束縛 AI Agent？

面對 AI Agent 新興的安全挑戰(zhàn)，人們嘗試了多種傳統(tǒng)防御手段，但效果不盡人意。

內(nèi)容過濾
如同給 AI Agent 戴上“關(guān)鍵詞口罩”，基于已知攻擊模式進行啟發(fā)式攔截。然而，工作在 AIGC 對話之上，對 AI Agent 的豐富行為上下文缺乏捕捉和理解能力；并且，面對新型攻擊手法與零日攻擊時，易被繞過。
安全掃描
類似給 AI Agent 做“體檢”，通過檢測已知的安全漏洞模式，對 AI Agent、MCP 等代碼和運行環(huán)境進行排查。然而，它如同戴著固定的“檢測眼鏡”，在缺乏 AI Agent 運行時上下文的前提下，尺度難以把控。若標(biāo)準(zhǔn)過度嚴(yán)格，容易對正常樣本造成誤判；若標(biāo)準(zhǔn)過度寬松，則可能對惡意代碼漏查，難以在兩者之間尋得平衡。
訪問控制
這相當(dāng)于為 AI Agent 戴上一個“安全手銬”，把其權(quán)限約束在“最小必要”且能完成任務(wù)的范圍內(nèi)，控制它與外部環(huán)境資源的訪問交互。然而，傳統(tǒng)的身份與訪問控制遵循靜態(tài)設(shè)計，難以適配 AI Agent 的功能通用性、場景多樣性、細粒度交互。例如，雖然在單個用戶場景中（如總結(jié)郵件），AI Agent 僅需被賦予最小權(quán)限（如郵箱只讀不發(fā)）；但為全面支撐多樣化任務(wù)，AI Agent 出廠時又需開放極高權(quán)限（覆蓋郵件、云盤、數(shù)據(jù)庫、代碼倉庫等全資源訪問）。這種矛盾使傳統(tǒng)的身份與訪問控制機制失效，AI Agent 因此暴露于安全風(fēng)險中。
執(zhí)行隔離
將 AI Agent 的規(guī)劃與行動環(huán)節(jié)分開，如同在“大腦”和“手腳”之間設(shè)立屏障。看似安全了，實則犧牲了效率。這就好比讓一個人手腳和大腦之間的神經(jīng)信號傳遞變慢，做事自然變得遲鈍；或者開車時頻繁踩剎車，遇到復(fù)雜路況根本沒法靈活應(yīng)對，最終導(dǎo)致任務(wù)完成得又慢又差。

這些傳統(tǒng)方案的根本缺陷在于，將 AI Agent 等價于傳統(tǒng)軟件，將 AI Agent 行為視為遵循固定邏輯的無智能機械實體，既未深入解析 AI Agent “思考”與“行動”的動態(tài)過程，更無法在其動態(tài)生成的復(fù)雜行動計劃付諸實施前，開展結(jié)構(gòu)化、可驗證的安全分析。

我們需要一種全新的范式，從根本上改變游戲規(guī)則。

AgentArmor：將 Agent 行為“編譯”為可驗證的程序

軟件工程經(jīng)典領(lǐng)域 v.s. Al Agent 全新領(lǐng)域

為了從根源上解決 AI Agent 的安全困境，字節(jié)跳動安全研究團隊提出了全新的智能體安全框架——Jeddak AgentArmor。

AgentArmor 的設(shè)計哲學(xué)——將 AI Agent 運行時的行為軌跡，視為一段可分析、可驗證的結(jié)構(gòu)化程序。

這一視角徹底扭轉(zhuǎn)了局面。它意味著，我們可以將對模糊、善變的“自然語言”的分析，轉(zhuǎn)變?yōu)閷_、嚴(yán)謹?shù)摹俺绦蛘Z言”的分析。如此一來，過去幾十年在軟件工程領(lǐng)域積累的成熟技術(shù)和思路，如程序分析和軟件驗證，便可直接應(yīng)用于 AI Agent 安全領(lǐng)域。

如果說傳統(tǒng)安全方案是在給一輛“黑盒”汽車安裝外部護欄和攝像頭，那么 AgentArmor 則是直接拿到了這輛車的“設(shè)計藍圖”和“電路圖”，在汽車每次失控前，能精準(zhǔn)剖析出問題部件與步驟，并從根源處阻止、緩解、響應(yīng)風(fēng)險點。

AgentArmor 智能體安全框架

為了實現(xiàn)這一技術(shù)目標(biāo)，AgentArmor 設(shè)計了三大核心組件：

圖構(gòu)建器 (Graph Constructor)
負責(zé)將 AI Agent 運行時線性的行為軌跡實時轉(zhuǎn)換為一個結(jié)構(gòu)化的程序依賴圖（Program Dependency Graph），捕獲控制流和數(shù)據(jù)流，讓 AI Agent 的“思維鏈”與“行為鏈”一目了然。
屬性注冊表 (Property Registry)
一個豐富的安全元數(shù)據(jù)庫，負責(zé)為圖中的每一個節(jié)點（工具、數(shù)據(jù)）附加安全屬性。對于未知的未知工具、MCP、三方服務(wù)等，自動挖掘其數(shù)據(jù)操作流程，生成對應(yīng)安全等級。
類型系統(tǒng) (Type System)
類型即“安全等級”，類型系統(tǒng)將在程序依賴圖上自動推導(dǎo)新節(jié)點的安全等級，并執(zhí)行基于安全等級的策略校驗，在風(fēng)險行為發(fā)生前精準(zhǔn)識別，并給出風(fēng)險響應(yīng)建議，如升密、降密、告警、攔截等。

AgentArmor 基于程序依賴圖與類型系統(tǒng)的安全工作流

在 AI Agent 工作時，AgentArmor 首先借助圖構(gòu)建器，將 AI Agent 運行過程中的執(zhí)行軌跡迅速且精準(zhǔn)地轉(zhuǎn)化為程序依賴圖，從而清晰呈現(xiàn)其控制流與數(shù)據(jù)流。接著，依靠屬性注冊表進一步完善程序依賴圖，不僅詳細添加 AI Agent 調(diào)用工具的內(nèi)部數(shù)據(jù)流細節(jié)，還為程序依賴圖中的數(shù)據(jù)節(jié)點與行為節(jié)點設(shè)置初始類型，以此賦予各節(jié)點安全屬性。最后，通過類型系統(tǒng)全面完善整個圖中的類型標(biāo)簽，并嚴(yán)格對程序依賴圖開展類型檢查，以切實防止任何不安全的操作出現(xiàn)，確保 AI Agent 的運行安全。

值得一提的是，AgentArmor 類型系統(tǒng)中囊括了三大類型，滿足用戶與社會對于 AI Agent 在不同側(cè)面上的安全期待：

信任類型——跨域互操作的信任建立
確保 AI Agent 在與本地服務(wù)、云服務(wù)、其它多智能體交互時建立恰當(dāng)?shù)男湃侮P(guān)系，能準(zhǔn)確判別交互對象的可信度，避免因信任誤判引發(fā)數(shù)據(jù)泄露或惡意代碼執(zhí)行等風(fēng)險。例如，在與基于可信執(zhí)行環(huán)境 (TEE) 的代碼執(zhí)行器交互時可以施加高信任，可共享必要數(shù)據(jù)；而與身份未知的外部智能體交互時則保持低信任和謹慎態(tài)度，如謹慎提供自身敏感信息，不隨意執(zhí)行對方指令。
安全類型——對外部攻擊的健壯抵御
使 AI Agent 擁有強大的防御機制，能夠有效識別并抵御來自外部的各類攻擊，像惡意指令注入、網(wǎng)絡(luò)滲透等，保障自身系統(tǒng)的安全性與穩(wěn)定性，維持正常的任務(wù)執(zhí)行流程。例如，如果接收到由外部陌生人郵件觸發(fā)的 App 轉(zhuǎn)賬指令，及時攔截上報，防止資金被盜取。
規(guī)則類型——對用戶指令的忠實執(zhí)行
保證 AI Agent 絕對遵循用戶下達的指令，不被外部干擾或惡意篡改任務(wù)目標(biāo)，精確且完整地落實用戶需求。例如，在電商場景中，如果用戶要求購買200元以內(nèi)的鞋子，則不能購買200元以上的鞋子；或者用戶要求整理文檔，AI Agent 就不能將其扭曲為刪除指定文件。

AgentArmor 三大類型概念的提出，體現(xiàn)了我們對 AI Agent 安全版圖的總體認知——信任、安全、健壯、可靠、可控，是 AI Agent 實現(xiàn)大規(guī)模應(yīng)用的前提。

性能卓越：攻擊成功率直降93%

理論的先進性最終需要海量評估與測試實驗來檢驗。

在業(yè)界公認的 AI Agent 安全基準(zhǔn)測試平臺 AgentDojo 上， AgentArmor 接受了嚴(yán)苛的考驗。在覆蓋企業(yè)辦公、金融管理、個人旅行等多種高風(fēng)險場景、數(shù)百個真實世界任務(wù)、7000多個安全測試用例中，AgentArmor 表現(xiàn)出了優(yōu)異的防御性能：

風(fēng)險行為識別率接近滿分
在 AI Agent 因遭受攻擊而執(zhí)行風(fēng)險行為的案例中，AgentArmor 成功攔截比例達93%。
使大多數(shù)攻擊嘗試失敗
與未受保護相比，AgentArmor 將針對 AI Agent 的攻擊成功率從28%顯著降至4%；特別是在指令覆蓋等攻擊模式下，攻擊成功率降至0%。
維持 AI Agent 正常效用水平
AgentArmor 使 AI Agent 正常完成用戶任務(wù)的能力從73%輕微降至72%，降幅僅1%。

在與其他傳統(tǒng)競爭技術(shù)路線對比中，AgentArmor 的安全防御能力（以攻擊成功率下降幅度衡量）和效用維持能力（以正常任務(wù)完成率衡量）亦展現(xiàn)出顯著的相對優(yōu)勢。

對比技術(shù)路線	Basic idea	舉例	AgentArmor 安全優(yōu)勢	AgentArmor效用優(yōu)勢
系統(tǒng)級安全類	策略執(zhí)行、規(guī)劃-執(zhí)行隔離等	Progent、Camel	持平	優(yōu)勝 (>20%)
提示詞安全加固類	在提示詞中強化安全約束	Repeat、Spotlight	優(yōu)勝 (>10%)	優(yōu)勝 (>5%)
內(nèi)容過濾器類	過濾工具返回中的惡意指令	提示詞注入檢測器	優(yōu)勝 (>5%)	優(yōu)勝 (>20%)
對抗訓(xùn)練類	LLM基模在對抗樣本上訓(xùn)練	SecAlign	持平	持平

特別地，對抗訓(xùn)練類技術(shù)路線雖與 AgentArmor 性能相當(dāng)，但面臨泛化性欠佳、需訪問基座模型、訓(xùn)練成本高、不支持增量變更與策略微調(diào)、解釋性不足、不可驗證等挑戰(zhàn)，致使其實用性遠低于 AgentArmor。

AgentArmor 的核心性能仍在持續(xù)迭代中。

無縫集成：行為零信任的運行時加固

AgentArmor 以“行為零信任”理念與 Al Agent 運行時集成

AgentArmor 受“零信任”架構(gòu)與理念啟發(fā)，確保所有對外行為都經(jīng)過輸出驗證。通過“運行態(tài)執(zhí)行交互”與“控制態(tài)策略決策”雙向聯(lián)動，與 AI Agent 深度集成，在不改變其原有功能架構(gòu)的前提下構(gòu)建全流程安全防護體系，核心模塊是：

策略執(zhí)行點
是執(zhí)行樞紐，將 AI Agent 的不可信行為化為可信。一方面，鏡像 AI Agent 的 LLM 調(diào)用流量，采集上下文，為策略決策提供輸入；另一方面，根據(jù)策略決策點結(jié)果，允許可信調(diào)用通行，阻斷或緩解不可信行為。
策略決策點
是智能決策核心，輸出安全決策。先通過行為軌跡采集獲取 AI Agent 行為信息，經(jīng)行為表示轉(zhuǎn)化后，結(jié)合動態(tài)策略生成與行為安全分析，識別風(fēng)險并響應(yīng)，進而對行為進行判斷，輸出策略決策結(jié)果給策略執(zhí)行點。

在 AI Agent 運行時，AgentArmor 的安全工作流是：

行為采集
收到用戶請求后，策略執(zhí)行點以上下文為載體，采集 AI Agent 的不可信行為并傳送至策略決策點。
安全研判
策略決策點進行分析，將安全判斷結(jié)果返回策略執(zhí)行點。
行為干預(yù)
策略執(zhí)行點對不可信行為采取攔截、降密、審計等干預(yù)措施。

此集成模式覆蓋用戶交互、LLM 調(diào)用、環(huán)境調(diào)用全鏈路，通過“行為數(shù)據(jù)-策略結(jié)果”實時聯(lián)動，支持快速響應(yīng)業(yè)務(wù)變化或新型攻擊，使 AI Agent “能干活”且“不闖禍”，形成“可感知、可干預(yù)、可進化”的安全共生體。

未來展望：構(gòu)建更安全的 AI Agent 生態(tài)

AgentArmor 的概念發(fā)布只是一個開始。未來，字節(jié)跳動安全研究團隊將著力于 AgentArmor 核心技術(shù)的迭代升級，把目光聚焦在技術(shù)能力的產(chǎn)品化封裝層面；同時，逐步把核心能力拓展至 AI Coding、ChatBI Agent、OS Agent 等垂直領(lǐng)域，為這些領(lǐng)域的智能應(yīng)用提供支持。

更重要的是，團隊計劃將 Jeddak AgentArmor 的核心框架開源，貢獻給社區(qū)，并希望與全球的開發(fā)者一起，共同打造一個更加繁榮、也更加安全的 AI Agent 生態(tài)系統(tǒng)。

責(zé)任編輯：龐桂玉來源：字節(jié)跳動技術(shù)團隊