為 AI Agent 行為立“規(guī)矩”——字節(jié)跳動提出 Jeddak AgentArmor 智能體安全框架

技術(shù)報告地址:https://arxiv.org/abs/2508.01249
線上 AI Agent 時代已來,但“失控”風(fēng)險近在眼前
繼 LLM(大語言模型)之后,AI Agent(智能體)正掀起新一輪的技術(shù)革命。它們不再僅僅是語言的“復(fù)讀機”,而是能夠自主理解、規(guī)劃并執(zhí)行現(xiàn)實世界任務(wù)的“行動派”。從自動預(yù)訂旅行、管理復(fù)雜的云資源,到處理成千上萬封郵件,AI Agent 展現(xiàn)出的巨大潛力,預(yù)示著一個由 AI 驅(qū)動的自動化新紀(jì)元。
然而,在這片充滿希望的藍海之下,一股洶涌的暗流正在涌動。
2025年5月,AI 安全公司 Invariant 披露了一個有關(guān) GitHub MCP 集成的嚴(yán)重漏洞。攻擊者可通過在公共存儲庫中放置惡意問題,劫持開發(fā)者的 AI Agent(如 Claude Desktop 中的Claude 4 Opus),誘導(dǎo)其主動泄露私有倉庫的數(shù)據(jù)。這種“中毒代理流”攻擊完全繞過了 GitHub 的權(quán)限系統(tǒng),導(dǎo)致用戶隱私和商業(yè)機密信息泄露。
2025年8月,AI 搜索獨角獸 Perplexity 打造的AI瀏覽器 Comet 中被發(fā)現(xiàn)存在一個嚴(yán)重安全漏洞。Comet 本質(zhì)上是一款能夠代替用戶完成瀏覽器操作的 AI Agent,攻擊者將惡意指令隱藏在 Reddit 帖子里,AI Agent 自動讀取并執(zhí)行登錄郵箱、獲取驗證碼、將 Cookie 和 token 回傳給攻擊者的操作,造成信息竊取,整個過程僅需150秒,無需用戶點擊。
2025年8月,AI 編程工具 Cursor 被發(fā)現(xiàn)存在高危漏洞“CurXecute”(CVE - 2025 - 54135)。攻擊者可利用其對 MCP 協(xié)議實現(xiàn)的缺陷,通過第三方服務(wù)器發(fā)布惡意消息,誘導(dǎo) AI 執(zhí)行任意命令,實現(xiàn)遠程代碼執(zhí)行。
針對 Agent 的攻擊事件還在繼續(xù),無不指向一個核心問題:AI Agent 的“失控” 并非偶然,背后潛藏著哪些深層的驅(qū)動因素?
深挖“失控”根源:揭開 AI Agent 安全挑戰(zhàn)的本質(zhì)

AI Agent 的“失控”根源
AI Agent 通常是由 LLM 驅(qū)動、與現(xiàn)實世界的工具及知識庫進行交互的智能代理,具備深度推理、自主決策和動作執(zhí)行的能力。與傳統(tǒng)軟件的靜態(tài)運行邏輯相比,AI Agent 具有極高的動態(tài)適應(yīng)性和行動自主性。
然而,AI Agent 復(fù)雜的技術(shù)架構(gòu)與自主工作模式使其暴露出四大安全缺陷:
- 輸入端——過度依賴不可信環(huán)境輸入
AI Agent 運行時需要從外部環(huán)境(如郵件系統(tǒng)、論壇、GitHub等)獲取各類信息,但這些環(huán)境可被攻擊者滲透,導(dǎo)致惡意指令以環(huán)境注入的方式進入 AI Agent 系統(tǒng),成為攻擊向量的起點。 - 規(guī)劃端——自然語言媒介的模糊二義性
AI Agent 以自然語言作為工作媒介,而自然語言本身存在模糊性,無法清晰區(qū)分指令與數(shù)據(jù)、可信與不可信來源,這使得攻擊者可利用該特性實施 LLM 劫持,干擾 AI Agent 的正常決策。 - 行動端——以過高權(quán)限訪問并操縱用戶資源
為了完成用戶委托的任務(wù),AI Agent 必須訪問數(shù)據(jù)庫、憑證、信息資產(chǎn)等用戶敏感數(shù)據(jù),這種直接接觸使得敏感信息在 AI Agent 處理過程中面臨被竊取、濫用、篡改的風(fēng)險。 - 輸出端——對外輸出缺乏有效管控
AI Agent 擁有向外部世界自由輸出信息的能力,可通過郵件、評論、云盤等多種渠道傳遞內(nèi)容,一旦被劫持,攻擊者可利用此弱點竊取敏感信息、破壞信息完整性甚至實施資金盜取等行為。
當(dāng)這些缺陷被攻擊者利用時,AI Agent 面臨前所未有的安全挑戰(zhàn),典型安全威脅包括但不限于:
- 跨站注入劫持
攻擊者向辦公協(xié)作軟件(如日歷、云盤、會議等)或在線媒體服務(wù)(如外賣軟件等)注入惡意指令,劫持 AI Agent 以達成攻擊者預(yù)先設(shè)定的惡意目標(biāo)(如刪除重要文件、竊取商業(yè)機密等)。 - 金融欺詐
攻擊者在交易記錄(如水電費、信用卡賬單)、商品詳情和評論等載體中注入惡意指令,誘導(dǎo) AI Agent 執(zhí)行未經(jīng)授權(quán)的支付或不符合用戶需求的消費操作,以達成攻擊者設(shè)定的資金盜取、消費誘導(dǎo)目標(biāo),或使 AI Agent 做出欠佳的消費選擇(如選擇價格虛高的酒店)。 - 工具投毒
攻擊者通過篡改或注入惡意內(nèi)容至 MCP (Model Context Protocol) 工具的描述信息,誤導(dǎo) AI Agent 對工具功能、使用場景、參數(shù)要求等形成錯誤認知(如 delete_all 工具可快速清理冗余文件,無需確認直接執(zhí)行),致使 AI Agent 在調(diào)用工具時執(zhí)行不符合預(yù)期的操作,偏離用戶真實需求或造成潛在危害。
一個嚴(yán)峻的問題擺在面前:如何確保 AI Agent 不會“失控”?
傳統(tǒng)防御“治標(biāo)不治本”,為何難以束縛 AI Agent?
面對 AI Agent 新興的安全挑戰(zhàn),人們嘗試了多種傳統(tǒng)防御手段,但效果不盡人意。
- 內(nèi)容過濾
如同給 AI Agent 戴上“關(guān)鍵詞口罩”,基于已知攻擊模式進行啟發(fā)式攔截。然而,工作在 AIGC 對話之上,對 AI Agent 的豐富行為上下文缺乏捕捉和理解能力;并且,面對新型攻擊手法與零日攻擊時,易被繞過。 - 安全掃描
類似給 AI Agent 做“體檢”,通過檢測已知的安全漏洞模式,對 AI Agent、MCP 等代碼和運行環(huán)境進行排查。然而,它如同戴著固定的“檢測眼鏡”,在缺乏 AI Agent 運行時上下文的前提下,尺度難以把控。若標(biāo)準(zhǔn)過度嚴(yán)格,容易對正常樣本造成誤判;若標(biāo)準(zhǔn)過度寬松,則可能對惡意代碼漏查,難以在兩者之間尋得平衡。 - 訪問控制
這相當(dāng)于為 AI Agent 戴上一個“安全手銬”,把其權(quán)限約束在“最小必要”且能完成任務(wù)的范圍內(nèi),控制它與外部環(huán)境資源的訪問交互。然而,傳統(tǒng)的身份與訪問控制遵循靜態(tài)設(shè)計,難以適配 AI Agent 的功能通用性、場景多樣性、細粒度交互。例如,雖然在單個用戶場景中(如總結(jié)郵件),AI Agent 僅需被賦予最小權(quán)限(如郵箱只讀不發(fā));但為全面支撐多樣化任務(wù),AI Agent 出廠時又需開放極高權(quán)限(覆蓋郵件、云盤、數(shù)據(jù)庫、代碼倉庫等全資源訪問)。這種矛盾使傳統(tǒng)的身份與訪問控制機制失效,AI Agent 因此暴露于安全風(fēng)險中。 - 執(zhí)行隔離
將 AI Agent 的規(guī)劃與行動環(huán)節(jié)分開,如同在“大腦”和“手腳”之間設(shè)立屏障。看似安全了,實則犧牲了效率。這就好比讓一個人手腳和大腦之間的神經(jīng)信號傳遞變慢,做事自然變得遲鈍;或者開車時頻繁踩剎車,遇到復(fù)雜路況根本沒法靈活應(yīng)對,最終導(dǎo)致任務(wù)完成得又慢又差。
這些傳統(tǒng)方案的根本缺陷在于,將 AI Agent 等價于傳統(tǒng)軟件,將 AI Agent 行為視為遵循固定邏輯的無智能機械實體,既未深入解析 AI Agent “思考”與“行動”的動態(tài)過程,更無法在其動態(tài)生成的復(fù)雜行動計劃付諸實施前,開展結(jié)構(gòu)化、可驗證的安全分析。
我們需要一種全新的范式,從根本上改變游戲規(guī)則。
AgentArmor:將 Agent 行為“編譯”為可驗證的程序

軟件工程經(jīng)典領(lǐng)域 v.s. Al Agent 全新領(lǐng)域
為了從根源上解決 AI Agent 的安全困境,字節(jié)跳動安全研究團隊提出了全新的智能體安全框架——Jeddak AgentArmor。
AgentArmor 的設(shè)計哲學(xué)——將 AI Agent 運行時的行為軌跡,視為一段可分析、可驗證的結(jié)構(gòu)化程序。
這一視角徹底扭轉(zhuǎn)了局面。它意味著,我們可以將對模糊、善變的“自然語言”的分析,轉(zhuǎn)變?yōu)閷_、嚴(yán)謹?shù)摹俺绦蛘Z言”的分析。如此一來,過去幾十年在軟件工程領(lǐng)域積累的成熟技術(shù)和思路,如程序分析和軟件驗證,便可直接應(yīng)用于 AI Agent 安全領(lǐng)域。
如果說傳統(tǒng)安全方案是在給一輛“黑盒”汽車安裝外部護欄和攝像頭,那么 AgentArmor 則是直接拿到了這輛車的“設(shè)計藍圖”和“電路圖”,在汽車每次失控前,能精準(zhǔn)剖析出問題部件與步驟,并從根源處阻止、緩解、響應(yīng)風(fēng)險點。

AgentArmor 智能體安全框架
為了實現(xiàn)這一技術(shù)目標(biāo),AgentArmor 設(shè)計了三大核心組件:
- 圖構(gòu)建器 (Graph Constructor)
負責(zé)將 AI Agent 運行時線性的行為軌跡實時轉(zhuǎn)換為一個結(jié)構(gòu)化的程序依賴圖(Program Dependency Graph),捕獲控制流和數(shù)據(jù)流,讓 AI Agent 的“思維鏈”與“行為鏈”一目了然。 - 屬性注冊表 (Property Registry)
一個豐富的安全元數(shù)據(jù)庫,負責(zé)為圖中的每一個節(jié)點(工具、數(shù)據(jù))附加安全屬性。對于未知的未知工具、MCP、三方服務(wù)等,自動挖掘其數(shù)據(jù)操作流程,生成對應(yīng)安全等級。 - 類型系統(tǒng) (Type System)
類型即“安全等級”,類型系統(tǒng)將在程序依賴圖上自動推導(dǎo)新節(jié)點的安全等級,并執(zhí)行基于安全等級的策略校驗,在風(fēng)險行為發(fā)生前精準(zhǔn)識別,并給出風(fēng)險響應(yīng)建議,如升密、降密、告警、攔截等。

AgentArmor 基于程序依賴圖與類型系統(tǒng)的安全工作流
在 AI Agent 工作時,AgentArmor 首先借助圖構(gòu)建器,將 AI Agent 運行過程中的執(zhí)行軌跡迅速且精準(zhǔn)地轉(zhuǎn)化為程序依賴圖,從而清晰呈現(xiàn)其控制流與數(shù)據(jù)流。接著,依靠屬性注冊表進一步完善程序依賴圖,不僅詳細添加 AI Agent 調(diào)用工具的內(nèi)部數(shù)據(jù)流細節(jié),還為程序依賴圖中的數(shù)據(jù)節(jié)點與行為節(jié)點設(shè)置初始類型,以此賦予各節(jié)點安全屬性。最后,通過類型系統(tǒng)全面完善整個圖中的類型標(biāo)簽,并嚴(yán)格對程序依賴圖開展類型檢查,以切實防止任何不安全的操作出現(xiàn),確保 AI Agent 的運行安全。
值得一提的是,AgentArmor 類型系統(tǒng)中囊括了三大類型,滿足用戶與社會對于 AI Agent 在不同側(cè)面上的安全期待:
- 信任類型——跨域互操作的信任建立
確保 AI Agent 在與本地服務(wù)、云服務(wù)、其它多智能體交互時建立恰當(dāng)?shù)男湃侮P(guān)系,能準(zhǔn)確判別交互對象的可信度,避免因信任誤判引發(fā)數(shù)據(jù)泄露或惡意代碼執(zhí)行等風(fēng)險。例如,在與基于可信執(zhí)行環(huán)境 (TEE) 的代碼執(zhí)行器交互時可以施加高信任,可共享必要數(shù)據(jù);而與身份未知的外部智能體交互時則保持低信任和謹慎態(tài)度,如謹慎提供自身敏感信息,不隨意執(zhí)行對方指令。 - 安全類型——對外部攻擊的健壯抵御
使 AI Agent 擁有強大的防御機制,能夠有效識別并抵御來自外部的各類攻擊,像惡意指令注入、網(wǎng)絡(luò)滲透等,保障自身系統(tǒng)的安全性與穩(wěn)定性,維持正常的任務(wù)執(zhí)行流程。例如,如果接收到由外部陌生人郵件觸發(fā)的 App 轉(zhuǎn)賬指令,及時攔截上報,防止資金被盜取。 - 規(guī)則類型——對用戶指令的忠實執(zhí)行
保證 AI Agent 絕對遵循用戶下達的指令,不被外部干擾或惡意篡改任務(wù)目標(biāo),精確且完整地落實用戶需求。例如,在電商場景中,如果用戶要求購買200元以內(nèi)的鞋子,則不能購買200元以上的鞋子;或者用戶要求整理文檔,AI Agent 就不能將其扭曲為刪除指定文件。
AgentArmor 三大類型概念的提出,體現(xiàn)了我們對 AI Agent 安全版圖的總體認知——信任、安全、健壯、可靠、可控,是 AI Agent 實現(xiàn)大規(guī)模應(yīng)用的前提。
性能卓越:攻擊成功率直降93%
理論的先進性最終需要海量評估與測試實驗來檢驗。
在業(yè)界公認的 AI Agent 安全基準(zhǔn)測試平臺 AgentDojo 上, AgentArmor 接受了嚴(yán)苛的考驗。在覆蓋企業(yè)辦公、金融管理、個人旅行等多種高風(fēng)險場景、數(shù)百個真實世界任務(wù)、7000多個安全測試用例中,AgentArmor 表現(xiàn)出了優(yōu)異的防御性能:
- 風(fēng)險行為識別率接近滿分
在 AI Agent 因遭受攻擊而執(zhí)行風(fēng)險行為的案例中,AgentArmor 成功攔截比例達93%。 - 使大多數(shù)攻擊嘗試失敗
與未受保護相比,AgentArmor 將針對 AI Agent 的攻擊成功率從28%顯著降至4%;特別是在指令覆蓋等攻擊模式下,攻擊成功率降至0%。 - 維持 AI Agent 正常效用水平
AgentArmor 使 AI Agent 正常完成用戶任務(wù)的能力從73%輕微降至72%,降幅僅1%。
在與其他傳統(tǒng)競爭技術(shù)路線對比中,AgentArmor 的安全防御能力(以攻擊成功率下降幅度衡量)和效用維持能力(以正常任務(wù)完成率衡量)亦展現(xiàn)出顯著的相對優(yōu)勢。
對比技術(shù)路線 | Basic idea | 舉例 | AgentArmor 安全優(yōu)勢 | AgentArmor效用優(yōu)勢 |
系統(tǒng)級安全類 | 策略執(zhí)行、規(guī)劃-執(zhí)行隔離等 | Progent、Camel | 持平 | 優(yōu)勝 (>20%) |
提示詞安全加固類 | 在提示詞中強化安全約束 | Repeat、Spotlight | 優(yōu)勝 (>10%) | 優(yōu)勝 (>5%) |
內(nèi)容過濾器類 | 過濾工具返回中的惡意指令 | 提示詞注入檢測器 | 優(yōu)勝 (>5%) | 優(yōu)勝 (>20%) |
對抗訓(xùn)練類 | LLM基模在對抗樣本上訓(xùn)練 | SecAlign | 持平 | 持平 |
特別地,對抗訓(xùn)練類技術(shù)路線雖與 AgentArmor 性能相當(dāng),但面臨泛化性欠佳、需訪問基座模型、訓(xùn)練成本高、不支持增量變更與策略微調(diào)、解釋性不足、不可驗證等挑戰(zhàn),致使其實用性遠低于 AgentArmor。
AgentArmor 的核心性能仍在持續(xù)迭代中。
無縫集成:行為零信任的運行時加固

AgentArmor 以“行為零信任”理念與 Al Agent 運行時集成
AgentArmor 受“零信任”架構(gòu)與理念啟發(fā),確保所有對外行為都經(jīng)過輸出驗證。通過“運行態(tài)執(zhí)行交互”與“控制態(tài)策略決策”雙向聯(lián)動,與 AI Agent 深度集成,在不改變其原有功能架構(gòu)的前提下構(gòu)建全流程安全防護體系,核心模塊是:
- 策略執(zhí)行點
是執(zhí)行樞紐,將 AI Agent 的不可信行為化為可信。一方面,鏡像 AI Agent 的 LLM 調(diào)用流量,采集上下文,為策略決策提供輸入;另一方面,根據(jù)策略決策點結(jié)果,允許可信調(diào)用通行,阻斷或緩解不可信行為。 - 策略決策點
是智能決策核心,輸出安全決策。先通過行為軌跡采集獲取 AI Agent 行為信息,經(jīng)行為表示轉(zhuǎn)化后,結(jié)合動態(tài)策略生成與行為安全分析,識別風(fēng)險并響應(yīng),進而對行為進行判斷,輸出策略決策結(jié)果給策略執(zhí)行點。
在 AI Agent 運行時,AgentArmor 的安全工作流是:
- 行為采集
收到用戶請求后,策略執(zhí)行點以上下文為載體,采集 AI Agent 的不可信行為并傳送至策略決策點。 - 安全研判
策略決策點進行分析,將安全判斷結(jié)果返回策略執(zhí)行點。 - 行為干預(yù)
策略執(zhí)行點對不可信行為采取攔截、降密、審計等干預(yù)措施。
此集成模式覆蓋用戶交互、LLM 調(diào)用、環(huán)境調(diào)用全鏈路,通過“行為數(shù)據(jù)-策略結(jié)果”實時聯(lián)動,支持快速響應(yīng)業(yè)務(wù)變化或新型攻擊,使 AI Agent “能干活”且“不闖禍”,形成“可感知、可干預(yù)、可進化”的安全共生體。
未來展望:構(gòu)建更安全的 AI Agent 生態(tài)
AgentArmor 的概念發(fā)布只是一個開始。未來,字節(jié)跳動安全研究團隊將著力于 AgentArmor 核心技術(shù)的迭代升級,把目光聚焦在技術(shù)能力的產(chǎn)品化封裝層面;同時,逐步把核心能力拓展至 AI Coding、ChatBI Agent、OS Agent 等垂直領(lǐng)域,為這些領(lǐng)域的智能應(yīng)用提供支持。
更重要的是,團隊計劃將 Jeddak AgentArmor 的核心框架開源,貢獻給社區(qū),并希望與全球的開發(fā)者一起,共同打造一個更加繁榮、也更加安全的 AI Agent 生態(tài)系統(tǒng)。

































