GenAI紅隊：將LLM置于網絡安全測試中的技巧和技術原創

51CTO內容精選

發布于 2025-4-7 08:30

瀏覽

0收藏

從頭構建一個GenAI紅隊，或者讓現有的紅隊適應新技術是一個復雜的過程，OWASP在其最新指南中幫助闡釋了這一過程。

紅隊是測試和支持網絡安全系統的一種有效方法，但它仍需適應技術的發展而不斷完善。近年來，生成式人工智能（GenAI）和大型語言模型（LLM）的爆炸式增長正迫使紅隊世界適應。

監管和管理機構對AI相關紅隊的重視，包括歐盟的《人工智能法案》和美國國家標準與技術研究院（NIST）的人工智能風險管理框架，突顯了它的重要性。

鑒于人工智能是一項新生的新興技術，許多組織剛剛開始開發GenAI紅隊方法，這使得OWASP最近發布的《GenAI紅隊指南：評估人工智能漏洞的實用方法》成為一項剛需資源。

什么是GenAI紅隊？

GenAI紅隊包括模擬針對GenAI系統（如大型語言模型）的對抗性行為，以發現與安全性和信任相關的漏洞。通過像攻擊者一樣思考，以便在漏洞造成現實世界的傷害之前識別它們。

OWASP將具有GenAI背景的紅隊定義為“識別漏洞和緩解人工智能系統風險的結構化方法”，它很好地結合了傳統的對抗性測試與人工智能特定的方法和風險。這包括GenAI系統的各個方面，如模型、部署管道，以及更廣泛的系統環境中的各種交互。

OWASP強調要有效地實施紅隊合作，需要采取下述一些關鍵步驟，例如：

確定目標和范圍：具有基于風險的優先級的參與框架是第一步。但它是不斷發展的——對于初學者來說，需要確定哪些AI應用程序/用例是最關鍵的業務模型，哪些是處理敏感數據的模型。?
組建團隊：包括人工智能工程師、網絡安全專家，以及（如果可能的話）道德或合規專家。技能組合的多樣性確保了全面的評估。?
威脅建模：考慮一下攻擊者如何利用步驟1中確定的應用程序。最有可能的攻擊是什么，例如，提示注入，數據提取？將這些場景與組織的最高優先級風險保持一致。?
處理整個應用程序堆棧：1）模型評估：測試模型的固有弱點（例如，毒性，偏差）；2）實現檢查：評估部署堆棧中的護欄、提示和過濾器；3）系統測試：審查整個應用程序環境，包括API、存儲和集成點；4）運行時/人機交互：評估用戶或外部代理在實時操作期間如何操作模型。?
使用工具和框架：從用于提示測試、內容過濾和對抗性查詢的基本工具入手。?
文件調查結果及報告：記錄每個漏洞、利用場景和發現的弱點。總結這些不可操作的報告，并提供明確的補救步驟。?
匯報/交互后分析持續改善：討論在參與過程中使用的戰術、技術和程序（TTPs），確定利用的漏洞，吸取的教訓，并建議可操作的改進措施，以增強組織的安全態勢。?
持續改進：紅隊不是一次性事件。在實現修復后重新測試，并將定期檢查集成到組織的AI生命周期中，以便隨著模型和環境的發展捕獲新的威脅。?

總而言之，GenAI紅隊是傳統紅隊的補充，它專注于AI驅動系統的微妙和復雜方面，包括考慮新的測試維度，如AI特定的威脅建模、模型偵察、提示注入、護欄繞過等。

傳統紅隊和AI紅隊的主要區別

1.關注范圍

GenAI測試包含社會技術風險，例如偏見或有害內容，而傳統測試側重于技術弱點。

2.數據的復雜性

GenAI紅隊需要管理、生成和分析不同的大規模數據集，跨非確定性系統的多種模式，使用更先進的數據管理方法。

3.隨機評估

與傳統系統不同，GenAI涉及概率輸出，這需要嚴格的統計測試方法來評估漏洞。

4.評估標準及門檻

GenAI系統的隨機特性意味著確定成功的攻擊與正常模型行為變化比傳統的紅隊更復雜。

傳統的紅隊關注定義良好的系統危害（例如，域管理憑證盜竊）。GenAI紅隊必須考慮概率，不斷發展的模型，其中的結果不是簡單的是非題。

AI紅隊涵蓋范圍

GenAI紅隊建立在傳統紅隊的基礎上，并涵蓋了GenAI的獨特方面，如模型本身、模型產生的輸出以及跨模型間的輸出和響應。模型的評估包括對不安全元素的測試、響應中的偏差和不準確性、超出范圍的響應以及與被測試系統的安全性和一致性相關的任何其他問題。測試評估系統及其所有組件是很重要的。

GenAI紅隊的部分范圍與錯誤信息的關鍵挑戰密切相關。鑒于GenAI系統可能產生有害或誤導性的內容，紅隊必須進行嚴格的測試，以識別和減輕這些風險。這包括評估該模型是否容易被操縱以產生虛假或欺騙性信息，是否無意中暴露了敏感或機密數據，以及其輸出是否反映了偏見或違反道德標準。測試必須是徹底和主動的，以確保在系統被利用或造成實際危害之前，識別和解決任何錯誤信息、不道德內容或數據泄漏的實例。

GenAI紅隊還應包括對旨在阻礙或防止攻擊的已部署安全措施的測試，以及對安全事件檢測和響應能力的測試。此外，OWASP建議測試既要考慮對抗的角度，也要考慮受影響用戶的角度。

參考NIST的AI RMF GenAI Profile草案， OWASP還敦促AI紅隊要考慮生命周期階段（例如，設計、開發等）、風險范圍（例如模型、基礎設施和生態系統）以及風險的來源。最后，范圍界定方法應該遵循關于測試授權、數據記錄、報告、消除沖突、通信/Opsec和數據處理的標準。

GenAI紅隊應對的風險

正如我們所討論的，GenAI呈現出一些獨特的風險，包括模型操縱、中毒、偏見和幻覺等。考慮到這些因素，OWASP推薦了一個綜合的方法，它包含下述四個關鍵方面：

模型評估——探測固有的弱點，如偏差或穩健性問題。?
實施測試——評估護欄和提示在生產中的有效性。?
系統評估——檢查系統范圍內的漏洞、供應鏈漏洞、部署管道和數據安全。?
運行時分析——關注人工智能輸出、人類用戶和互聯系統之間的交互，并識別過度依賴或社會工程向量等風險。?

從風險的角度來看，GenAI紅隊解決了安全（運營商）、安防（用戶）和信任（用戶）的三重問題。這些目標直接映射到LLM的“3H”（harmlessness、helpfulness、honesty）準則。OWASP將這些風險分為以下幾類：

安全性、隱私性和穩健性風險——傳統的對抗性威脅，加上一些新興的GenAI威脅（如提示注入、數據泄漏、侵犯隱私和數據中毒）構成了重大挑戰。這些風險通常來自惡意輸入和受損的訓練數據。?
毒化、有害情境和相互作用風險——GenAI所特有的互動風險包括有害的輸出，如仇恨、辱罵、褻瀆（HAP）、惡劣的對話和有偏見的回應。這些問題破壞了用戶的安全，降低了對系統的信任。?
偏見、內容完整性和錯誤信息風險——對于GenAI來說，知識風險主要集中在事實性、相關性和基礎性，以及幻覺/虛構（不正確的事實陳述）和突發行為等現象上。雖然幻覺在某些情況下可能是有害的，但在其他情況下可能是有益的。平衡這些細微差別對于維持信任和傳遞價值至關重要。?

最后，考慮到人工智能代理（AI Agent）受到了業界的極大關注，OWASP還特別指出了多代理（multi-agent）風險，例如跨代理的多步驟攻擊鏈、利用工具集成以及通過代理交互繞過權限。

GenAI/LLM系統的威脅建模

OWASP建議將威脅建模作為GenAI紅隊的關鍵活動，并引用MITRE ATLAS作為一個很好的參考資源。威脅建模是為了系統地分析系統的攻擊面，識別潛在的風險和攻擊向量。人工智能系統的威脅建模還包括理解技術攻擊表面之外的社會文化、監管和道德背景。這包括識別攻擊者如何操縱模型輸入、毒害訓練數據或利用偏見。

威脅建模的關鍵考慮因素包括模型的體系結構、數據流，以及系統如何與更廣泛的環境、外部系統、數據和社會技術方面（如用戶和行為）進行交互。通過構建一個全面的威脅模型，團隊可以優先考慮緩解工作——無論是過濾有害內容、加強數據驗證，還是保護模型部署管道。

根據威脅建模宣言，這個過程將能回答下述四個問題：

我們在做什么？（為系統架構建模）
哪里會出錯呢？（識別/列舉威脅）
我們該怎么辦呢？（確定緩解策略）
我們做得夠好嗎？（驗證和迭代）

然而，OWASP指出，人工智能和機器學習模型與傳統的軟件系統有很大的不同。AI模型行為通常是不可預測的，特別是在邊緣情況下或在對抗性攻擊下。隨著LLM等模型的擴大，它們將能產生高影響力的風險，從虛構（自信地制造捏造或虛假信息）到產生有害或冒犯性的內容。評估模型本身及其整個供應鏈和依賴關系至關重要。

GenAI紅隊策略

GenAI紅隊通過模擬真實世界的威脅來評估防御能力。在GenAI安全的背景下，紅隊涉及系統地測試系統對抗潛在的敵對行為。這是通過模擬特定的戰術、技術和程序（TTPs）來實現的，惡意行為者可能會使用這些戰術、技術和程序來利用人工智能系統。

每個組織的GenAI紅隊戰略可能看起來不同。OWASP解釋稱，具體戰略必須與組織的目標保持一致，這可能包括獨特的方面，如負責任的人工智能目標和技術考慮。

GenAI紅隊：將LLM置于網絡安全測試中的技巧和技術-AI.x社區

GenAI紅隊策略，圖源OWASP

GenAI紅隊策略應考慮上圖所示的各個方面，包括基于風險的范圍界定、跨職能團隊的參與、量身定制的評估方法、設定明確的目標、威脅建模與漏洞評估、模型偵察和應用分解、攻擊建模與攻擊路徑利用以及生成信息豐富且可操作的報告。

GenAI紅隊藍圖

一旦戰略到位，組織就可以創建一個藍圖來運行GenAI紅隊。這個藍圖提供了一個結構化的方法和練習的具體步驟、技術和目標。

OWASP建議分階段評估生成式AI系統，包括模型、實現、系統和運行時，如下所示：

GenAI紅隊：將LLM置于網絡安全測試中的技巧和技術-AI.x社區

GenAI紅隊藍圖的不同階段，圖源OWASP

這些階段中的每個階段都有關鍵的考慮因素，例如模型的來源和數據管道，測試用于實現的護欄，檢查已部署的系統以尋找可利用的組件，以及針對運行時業務流程，以查找多個AI組件在生產中的運行時交互方式中的潛在故障或漏洞。

這種分階段的方法允許有效的風險識別，實現多層防御，優化資源，并追求持續改進。還應該使用工具進行模型評估，以支持評估的速度、有效的風險檢測、一致性和全面分析。

必要的技術

雖然GenAI紅隊有許多可能的技術，但決定包括什么或從哪里開始可能會讓人感到不知所措。然而，OWASP提供了他們認為是“必要的”技術。

這些技術主要包括：

對抗提示工程?
數據集生成操作?
跟蹤多回合攻擊?
安全邊界測試?
代理工具/插件分析?
組織檢測和響應能力?

這只是基本技術的一個子集，它們提供的列表代表了技術考慮和操作組織活動的組合。

最佳實踐

OWASP GenAI紅隊指南最后列出了一些組織應該更廣泛地考慮的關鍵最佳實踐。這些例子包括建立生成式人工智能政策、標準和程序，以及為每次紅隊會議建立明確的目標。

組織還必須有明確定義和有意義的成功標準，以維護測試過程、發現和緩解的詳細文檔，并為未來的GenAI紅隊活動策劃知識庫。

原文標題：??Generative AI red teaming: Tips and techniques for putting LLMs to the test??，作者：Chris Hughes

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

LLM

GenAI

生成式人工智能

已于2025-4-7 08:38:00修改

贊

回復

舉報

回復

51CTO

51CTO博客

51CTO學堂

GenAI紅隊：將LLM置于網絡安全測試中的技巧和技術原創

什么是GenAI紅隊？