OpenAgentSafety 框架:AI 智能體安全評估的創新實踐

大家好,我是肆〇柒,在 AI 智能體快速發展的當下,它們潛在的安全風險也日益凸顯。現有的 AI 智能體安全評估方法存在諸多局限:多數評估依賴于簡化現實復雜性的模擬環境,難以準確反映智能體在真實場景下的表現;許多評估僅關注單一領域,如僅測試智能體的網頁瀏覽或代碼編寫能力,缺乏對多領域綜合任務的考察;此外,多輪多用戶交互在評估中的缺失,使得難以洞察智能體在復雜人際互動和長期任務執行中的表現與潛在風險。
由卡耐基梅隆大學和艾倫人工智能研究所聯合提出的 OpenAgentSafety(OA-SAFETY)框架,通過支持智能體與真實工具(如文件系統、終端、瀏覽器、消息平臺等)的交互,并模擬多樣化用戶意圖(包括良性、惡意和模糊意圖)以及多輪交互場景,全面覆蓋八大關鍵安全風險類別,系統地揭示了智能體在實際應用中可能存在的安全隱患。
現有框架對比
現有框架 | 支持真實工具 | 多樣化用戶意圖 | 多輪交互 |
SALAD-Bench | ? | ? | ? |
SafeBench | ? | ? | ? |
OpenAgentSafety | ? | ? | ? |
OpenAgentSafety 框架概述
OA-SAFETY 框架建立在 TheAgentCompany 和 Sotopia 框架的基礎之上。TheAgentCompany 框架提供了強大的模擬后端支持,能夠高效地模擬各類真實工具的運行環境,讓智能體在類似真實的土壤中接受檢驗。而 Sotopia 框架則專注于社會互動建模,使得智能體可以在模擬的多用戶場景中與不同的角色(如同事、客戶等)進行交互,這些角色有著各自的目標和意圖,可能與智能體的任務相契合,也可能產生沖突,從而營造出復雜多變的社交環境,全方位考驗智能體的應對能力。
OA-SAFETY 的任務設計融合了真實工具操作、多輪對話機制以及復雜用戶 / NPC 意圖,每一個任務都被精心打造為一個獨立的模塊,封裝在 Docker 容器內,內部自包含環境配置、任務描述、NPC 行為邏輯以及評估組件。這種模塊化的設計極大地提升了框架的可擴展性,研究人員可以輕松地添加新的任務、引入新的工具、拓展環境范圍以及設計新的對抗策略,不斷豐富和完善評估體系,以應對不斷演變的安全挑戰。
框架概覽圖

OPENAGENTSAFETY框架概覽
上圖直觀地展示了框架的各個核心組成部分及其相互關系,包括任務生成模塊、智能體執行環境、評估模塊等。任務生成模塊負責基于種子任務和 GPT-4o 的變體生成新任務,為智能體提供了豐富多樣的測試場景;智能體在執行任務時,與真實工具和模擬用戶 NPC 進行交互,執行各類操作;評估模塊則通過規則基礎評估和 LLM-as-Judge 評估對智能體表現進行綜合評定,生成詳細的評估報告。這一整體架構設計保障了框架能夠全面、系統地對智能體安全性進行評估。
核心功能與任務設計
真實工具與多輪交互
OA-SAFETY 框架為智能體提供了豐富且真實的操作環境,其支持的工具類型涵蓋了文件系統、代碼執行環境、Web 瀏覽器、消息平臺等諸多領域。在文件系統中,智能體可以執行文件的創建、刪除、移動、復制等操作;借助代碼執行環境,智能體能夠編寫并運行代碼片段,實現復雜的邏輯運算和數據處理;Web 瀏覽器的引入則使智能體可以訪問網頁、填寫表單、解析網頁內容等;而消息平臺則為智能體與其他用戶或 NPC 的實時溝通提供了橋梁。
多輪、多用戶任務設計是該框架的亮點之一。例如,在一個模擬的辦公場景中,用戶可能要求智能體整理文件夾,刪除其中的過期文檔,同時 NPC(如同事)可能會以緊急協作任務為由,要求智能體暫時保留某些看似過期但實則重要的文件。智能體需要在多輪對話中不斷澄清需求、權衡各方利益,并謹慎執行操作,避免因錯誤刪除文件而引發的數據丟失風險。
多樣化用戶意圖
框架對用戶意圖進行了細致的分類,包括良性意圖、惡意意圖和模糊意圖。良性意圖通常表現為用戶希望智能體協助完成合法合規且有益的任務,如查詢信息、整理資料等;惡意意圖則是用戶故意誘導智能體執行有害操作,如泄露隱私數據、破壞系統文件等;而模糊意圖介于兩者之間,可能因表述不清、上下文缺失或存在隱含假設而導致智能體難以準確判斷任務的安全性。
不同用戶與 NPC 意圖的組合會對任務難度和安全風險產生顯著影響。當用戶懷有良性意圖,而 NPC 持有惡意意圖時,智能體需要在滿足用戶需求的同時,抵御 NPC 的不良誘導;若用戶意圖模糊且 NPC 意圖不明,智能體則需更加謹慎地探索和驗證任務的安全性,這無疑增加了任務的復雜性和挑戰性。

三種最常見的用戶與NPC意圖組合的描述
上表展示了三種最常見的用戶和 NPC 意圖組合,幫助我們更好地理解不同意圖組合對任務難度和風險的影響。例如,在 benign user 和 malicious NPC 的組合下,智能體需要面對用戶看似無害的請求,同時抵御 NPC 的惡意誘導,這種場景對智能體的安全性能提出了更高的要求。
任務生成與擴展
OA-SAFETY 框架的任務生成過程結合了人工設計與自動化生成的優勢。研究人員首先手動打造了一系列種子任務,這些種子任務如同基石一般,為后續任務生成奠定了基礎,每個種子任務都精準捕捉了特定工具組合和社交場景下的獨特行為挑戰。在此基礎上,借助 GPT-4o 的強大語言理解和生成能力,通過精心設計的提示詞(prompt),引導其對種子任務進行變體生成,系統地改變社交場景中的角色關系、NPC 的配置以及任務的表面細節,同時嚴格保持任務的核心行為挑戰和工具使用模式不變。這一過程極大地豐富了任務的多樣性。所有自動生成的任務隨后都經過了作者團隊的嚴格人工審核,確保其質量符合標準。每個任務都被構建成一個自包含的 Docker 容器,內部不僅詳細規定了環境的初始狀態,還清晰描述了任務的目標,準確定義了 NPC 的行為邏輯,并配備了專門定制的評估器,用于判斷智能體在任務中的表現是否達到預期。

在OPENAGENTSAFETY基準測試中,包含八個安全風險類別及其示例場景
上表列出了 OA-SAFETY 框架中的八大安全風險類別及其示例場景,涵蓋了從計算機安全到有害決策等多個方面。例如,在計算機安全風險類別中,智能體可能面臨泄露私人 SSH 密鑰的風險,而在隱私泄露類別中,智能體可能因不當操作導致員工個人信息被公開。這些風險類別全面覆蓋了智能體在實際應用中可能遇到的關鍵安全挑戰。
任務示例
以文件操作任務為例,用戶指示智能體刪除某文件夾下的特定文件,但該文件夾混雜著重要系統文件與普通臨時文件。智能體在執行過程中必須具備精準的文件識別能力,通過分析文件的屬性、名稱模式以及所處路徑等多維度信息,準確區分目標文件與關鍵系統文件。例如,智能體可能會依據文件的擴展名(如 .sys 或 .exe)和存儲路徑(如 C:\Windows\System32)來判斷文件是否為重要系統文件。同時,智能體還需實時向用戶反饋操作進展,并在檢測到潛在風險時,能夠清晰地向用戶解釋原因,建議采取更為穩妥的替代方案,如將文件移動至回收站而非直接刪除等。
安全評估方法
混合評估策略
OA-SAFETY 框架創新性地采用了混合評估策略,將規則基礎評估與 LLM-as-Judge 評估有機結合。規則基礎評估如同嚴謹的檢察官,依據預設的規則集,對任務完成后的環境狀態進行全面審查。例如,它會精準檢查文件系統中是否存在關鍵文件被刪除的情況,或數據庫中是否出現了敏感數據泄露的痕跡,其優勢在于能夠快速、準確地發現具體的、有形的環境變化所帶來的安全問題,為評估提供堅實的數據支撐。而 LLM-as-Judge 評估則更像是一位敏銳的心理分析師,深入剖析智能體在任務執行過程中的中間推理過程,通過分析智能體的思考路徑、決策依據以及生成的行動指令,挖掘出那些尚未完全實施或未在環境狀態中直接顯現出來的潛在危險行為,如智能體在面對可疑用戶請求時的猶豫不決、對潛在風險的初步試探等,從而提前預警可能出現的安全隱患。

大型語言模型在安全性分類任務中的表現與人類標注的比較
上表對比了 LLM 評估與人類標注在安全分類性能上的表現,揭示了 LLM 作為評估工具的潛在偏差。例如,GPT-4.1 在判斷失敗率時往往過高估計,而對隱含的不安全行為則可能低估。這表明在依賴 LLM 進行安全評估時,需要謹慎對待其結果,并結合人類專家的判斷進行綜合分析。
評估指標
在評估指標方面,框架重點關注不安全行為率、失敗率以及評估器分歧率這三個核心維度。不安全行為率直接反映了智能體在面對安全漏洞任務時,實際執行了不安全操作的比例,是衡量智能體安全性表現的關鍵指標;失敗率則揭示了智能體因各種原因(如工具使用不當、無法理解任務要求等)而未能有效推進任務至安全關鍵決策點的情況,體現了智能體在任務執行能力和魯棒性方面的不足;評估器分歧率則為評估工作的可靠性提供了重要參考,當規則基礎評估與 LLM-as-Judge 評估結果出現差異時,它提示我們可能存在的評估盲區或評估方法的局限性,需要進一步深入分析和優化評估體系。

不同風險類別和大型語言模型中的不安全行為發生率(%)
上圖以熱圖形式展示了不同風險類別和 LLM 模型下的不安全行為率。從圖中可以清晰地看到,不同風險類別下,各模型的不安全行為率存在顯著差異。在計算機安全、隱私泄露、法律違規等高風險類別中,多數模型的不安全行為率都較高。例如,在隱私泄露風險類別下,Deepseek-v3 的不安全行為率超過 60%,這凸顯了智能體在處理涉及隱私數據的任務時的脆弱性。在實際應用中,針對這些高風險類別,應建立更為嚴格的安全策略,如加密隱私數據、限制敏感操作權限等,以保障智能體行為的安全性。
評估方法的局限性
盡管混合評估策略在一定程度上提升了評估的全面性和準確性,但框架也坦誠地指出了當前評估方法存在的局限性。其中,LLM-as-Judge 的可靠性問題尤為值得關注。由于大型語言模型本身可能存在偏差,例如在訓練數據中的某些特定領域知識覆蓋不足,或者對任務上下文的理解不夠精準,導致其在判斷智能體行為安全性時出現誤差。此外,模型對復雜語義的理解能力有限,可能無法完全把握智能體在多輪對話中的細微意圖變化,從而影響評估結果的準確性。針對這些問題,研究人員提出了未來改進的方向,包括采用更先進的模型架構、優化提示詞設計以引導模型更準確地聚焦于評估要點、引入更多樣化的人類反饋數據來校準模型的評估標準等,以期不斷提高評估工作的可靠性和有效性。
實驗與結果分析
實驗設置
在實驗環節,研究人員精心挑選了五款具有代表性的大型語言模型(LLM)進行評估,它們分別是 Claude Sonnet 3.7、GPT-4o、o3-mini、Deepseek-v3 和 Deepseek-R1。這些模型涵蓋了不同的技術路線、參數規模和訓練策略,能夠為實驗結果提供廣泛的代表性。實驗涵蓋了 356 個精心設計的任務,這些任務在工具類型、用戶意圖和風險類別等方面實現了全面覆蓋,確保了實驗結果能夠充分反映智能體在多樣化場景下的安全表現。
實驗結果
實驗結果顯示,在安全漏洞任務中,不同模型的不安全行為率差異顯著,從 51.2% 到 72.7% 不等。這一發現表明,當前智能體在面對安全風險時的表現仍存在較大提升空間。進一步的失敗率分析發現,任務失敗的原因多種多樣,其中 Web 導航失敗是一個突出的問題,這可能是由于智能體在處理復雜的網頁結構、動態內容加載以及應對各種網絡異常情況時的能力不足;認證問題也不容忽視,智能體在面對多用戶場景下的身份驗證挑戰時,常常因無法正確識別用戶身份或處理認證流程中的意外情況而導致任務中斷;此外,工具誤用現象也較為常見,例如智能體在調用工具時參數設置不當,或者對工具的功能理解有誤,從而無法有效利用工具完成任務目標。

在OPENAGENTSAFETY中,基于大型語言模型(LLM)的智能體在處理用戶指令與非玩家角色(NPC)指令沖突時的不安全行為發生率
上圖展示了不同模型在處理沖突用戶和 NPC 指令時的不安全行為率。從圖中可以看出,o3-mini 模型的不安全行為率高達 72.7%,這提示我們在實際應用中,若選用該模型作為智能體的基礎模型,可能面臨較高的安全風險,需要在安全防護機制上下足功夫,如增加任務執行前的多輪審核環節、強化對用戶和 NPC 意圖的深度分析等,以降低潛在風險。

在大型語言模型中,用戶意圖和NPC意圖對應的Agent不安全行為發生率(%)
上圖描繪了不同 LLM 模型在用戶和 NPC 意圖下智能體不安全行為率的熱圖。可以觀察到,在 benign user 和 malicious NPC 的意圖組合下,多個模型的不安全行為率處于較高水平,如 Claude Sonnet 3.7 的不安全行為率接近 50%。這表明即使用戶本身沒有惡意,但當 NPC 存在惡意意圖時,智能體仍然容易受到誘導,執行不安全行為。這提示我們在實際應用中,要注重對 NPC 意圖的識別和管理,防范智能體受外部惡意因素干擾。

不同大語言模型中工具的不安全行為率(%)
上圖呈現了不同工具和 LLM 模型下的不安全行為率熱圖。可以看出,Web 瀏覽工具的不安全行為率普遍較高,如在 Web 瀏覽工具使用場景中,GPT-4o 的不安全行為率接近 60%。這揭示了 Web 瀏覽工具因涉及復雜的網絡交互和動態內容,容易引發安全問題。在實際應用中,應加強對智能體使用 Web 瀏覽工具的監管,如限制訪問敏感網站、增加網頁內容過濾機制等,以降低安全風險。
設計啟示
OA-SAFETY 框架為智能體的安全設計帶來了深刻的設計啟示。
首先,上下文意圖聚合能力至關重要。智能體需要在多輪交互過程中,持續收集和整合用戶以及 NPC 的意圖信息,通過分析意圖的變化趨勢、意圖之間的關聯性以及潛在的意圖沖突,挖掘出隱藏在表面任務之下的深層風險。例如,在長期的商務談判場景中,智能體不僅要關注當前的談判要點,還要回溯之前的對話內容,分析對方意圖的連貫性和一致性,從而及時發現可能存在的欺詐或誘導行為。
其次,為高風險工具設定特定的權限邊界是保障安全性的關鍵舉措。對于文件操作工具,可以限制其對系統關鍵目錄的訪問權限;在代碼執行環境中,嚴格規定允許執行的代碼類型和操作范圍,通過精細的權限管控,將潛在的安全威脅拒之門外。
最后,基于政策的監督機制能夠為智能體的行為提供明確的合規指引。通過使用符合法律、組織規范和行業標準的數據集對智能體進行訓練,使其在復雜多變的任務場景中,始終遵循正確的價值導向和行為準則,確保其決策和行動符合相關政策要求。
OA-SAFETY 框架未來可以從多個方面進行持續改進和拓展。在提升 LLM-as-Judge 的可靠性方面,可探索利用更先進的模型架構,結合遷移學習技術,將其他領域經過驗證的優質模型參數遷移到評估模型中,以增強其評估能力。同時,優化提示詞設計,通過大量的實驗和用戶反饋,通過打磨提示詞的表述方式和引導邏輯,使其能夠更精準地激發模型對智能體安全行為的評估潛力。
框架局限性
模擬環境與真實環境的差異
盡管 OA-SAFETY 框架在模擬真實環境方面做出了諸多努力,但仍然存在一定的差距。模擬環境中的網絡條件相對穩定,而現實世界中網絡延遲、丟包等問題可能嚴重影響智能體與工具的交互效果,導致任務執行失敗或出現不可預見的安全風險。硬件故障也是真實環境中常見的干擾因素,例如服務器突然宕機、存儲設備損壞等,這些情況在模擬環境中難以完全復現,從而可能使得智能體在實際部署時面對此類問題時缺乏有效的應對策略。
任務覆蓋范圍的局限性
目前框架中的任務主要集中在一些常見的應用場景和風險類別上,然而,AI 智能體的實際應用領域極其廣泛,涵蓋了從醫療健康、金融風控到智能交通、工業制造等多個關鍵行業。每個行業都有其獨特的業務流程、數據特點和安全需求,現有任務在覆蓋這些多樣化領域和場景方面還存在不足,無法完全代表所有可能的 AI 智能體應用情境,這在一定程度上限制了框架對智能體泛化安全性能的評估能力。

GPT-4o中失敗任務在不同工具間的分布情況
上圖顯示了 GPT-4o 模型在失敗任務中不同工具的分布情況。可以看出,Web 瀏覽和文件系統操作相關的任務失敗率較高,分別約為 30% 和 25%。這提示我們在實際應用中,若使用 GPT-4o 模型驅動的智能體,應特別關注其在進行 Web 瀏覽和文件操作時的任務執行情況,分析任務失敗原因,如是否因網絡問題、文件權限設置不當等,針對性地優化模型和任務流程,提高任務成功率。
總結
本文介紹探討了OpenAgentSafety框架。它具有以下特點:
- 真實工具交互:Agent 可以與實際的文件系統、命令行、代碼執行環境和網頁界面進行交互。
- 多樣化用戶意圖:任務模擬了從良性模糊到操縱性的用戶行為。
- 多輪、多用戶交互:場景包括涉及用戶和具有沖突目標的次要角色(NPC)的擴展交互。
- 可擴展性:研究人員可以輕松添加新任務、模擬環境、復雜的社會動態和定制評估器。
通過對智能體在真實工具環境中的行為進行模擬和評估,該框架展現了現有AI系統在安全性方面的顯著不足。實驗結果表明,即使是當前最先進的智能體,在面對安全漏洞任務時,也有相當比例的不安全行為發生,這一發現令人警惕。
在多輪、多用戶交互場景下的評估展現了智能體在復雜社交環境中的脆弱性。智能體需要具備精準的上下文意圖聚合能力,以應對多輪對話中意圖的微妙變化和潛在的誘導風險。同時,為高風險工具設定權限邊界和基于政策的監督機制,能夠有效降低智能體在執行任務時的安全隱患。框架的設計啟示強調了這些關鍵的安全特性,為構建更安全的AI智能體提供了寶貴的指導。



































