顫抖吧,Bug!OpenAI放出GPT-5「夜行神獸」,命中92%漏洞
剛剛,OpenAI推出了使用GPT-5尋找和修復安全漏洞的智能體Aardvark。

目前,Aardvark還處于beta測試階段。
OpenAI稱,Aardvark開創了「防御者優先」的新范式:作為自主安全研究智能體,隨代碼不斷演化,為團隊提供持續保護(continuous protection)。
OpenAI表示新智能體實戰效果出色:
在標準代碼庫的基準測試中,Aardvark對已知漏洞與人工植入漏洞的識別率達到92%。
通過早期漏洞捕捉、實戰化利用驗證及清晰修復方案,在不拖慢創新節奏的前提下,Aardvark能強化安全體系。
OpenAI堅信安全能力應該普惠共享,將在持續完善后逐步擴大服務范圍。
有意思的是,Aardvark是夜行性的非洲食蟻熊,一種幾乎完全以螞蟻和白蟻為食的獨居生物!
它夜間獨自吃螞蟻和白蟻,就像這個GPT-5智能體獨自異步解決bug一樣。(bug原義是指「小蟲」,但在計算機領域,它特指程序或系統中的錯誤、缺陷或漏洞。)

食蟻熊,(學名:Orycteropus afer),又稱土豚、土豬,是管齒目土豚科現存的唯一物種,屬土豚屬,是活化石動物。
這個名字一語雙關,一改OpenAI過去命名風格,讓人懷疑:不會是GPT-5命名的吧?

Aardvark的工作原理
Aardvark可不間斷地分析源代碼倉庫,識別漏洞、評估可利用性、劃分嚴重等級,并提出針對性修復方案。
工作原理是監控代碼庫的提交與變更,在識別漏洞的同時分析其潛在利用方式,并自動提供修復建議。
與傳統依賴模糊測試或軟件成分分析等程序分析技術不同,Aardvark運用大語言模型的推理能力與工具調用功能,從而理解代碼行為并定位漏洞。
它如同人類安全研究員般進行漏洞挖掘:通過閱讀代碼、分析邏輯、編寫運行測試、使用工具鏈等綜合手段完成安全檢測。

Aardvark采用多階段流程實現漏洞的識別、解析與修復——
分析階段:首先對完整代碼庫進行全面分析,生成反映項目安全目標與設計架構的威脅模型。
提交commit掃描:比對提交的代碼變更與完整代碼庫及威脅模型,實時檢測新增漏洞。在首次接入倉庫時,Aardvark會掃描歷史記錄以識別現存問題,并以逐步解析方式說明發現的漏洞,為人工審核提供帶標注的代碼。
驗證階段:發現潛在漏洞后,系統會在隔離的沙箱環境中嘗試觸發漏洞以確認其可利用性。Aardvark會詳細描述驗證步驟,確保向用戶反饋精準可靠、低誤報率的分析結果。
修復階段:Aardvark與OpenAI Codex協同工作,為每個已識別的漏洞生成經Aardvark掃描驗證的修復補丁。這些補丁附在檢測報告中供人工審核,支持一鍵高效修復。
不過,某AI安全測試智能體初創公司首席執行官Daniel Knight有個問題:
既然OpenAI在開發編程智能體Codex,為什么他們寫的代碼會不安全呢?

AI再次解放生產力
AI工程師saen表示這個用例真是完美——
尋找漏洞需要系統性的推理和上下文理解,這恰好是推理模型的強項:AI能思考100多倍的情景,絕對能發現人類遺漏的邊緣情況。

此外,Aardvark無縫集成GitHub、Codex及現有工作流程,和開發者協作,既能保障開發效率,又能提供清晰可行的安全洞察。
在整個工作流程,中間就有一個人工審核的步驟,之后還有一個。
人類并沒有被排除在外,而是被定位為質量把關的角色。
安全工程師可以松一口氣:
與大多數人的看法不同,Aardvark實際上要求在修復程序運行之前,必須由人工進行驗證。
這是一種生產力放大器,而不是替代品。
所以,安全工程師不用擔心Aardvark,而應該擔心的是是否能夠跟上這些智能體的工作速度。這才是真正的限制。
在兩個月前,安全研究人員Efi Weiss也進行了相關研究。

他們搭建的系統采用多階段流水線:
(1) 分析CVE通告與代碼補??;
(2) 生成既包含漏洞的測試應用又包含利用代碼;
(3) 通過對比漏洞版與已補丁版進行測試來驗證利用代碼,剔除誤報。

將這一流程規?;?,AI可以每天處理130+條CVE信息流,而且比人類研究員更快且更具成本效益。
安全智能體崛起
軟件正在吃掉世界,但AI吃掉軟件。
大概8年前,黃仁勛如此預測。

軟件漏洞已成為企業、基礎設施乃至社會面臨的系統性風險。
僅2024年,公共漏洞和暴露(CVE, Common Vulnerabilities and Exposures)數量就超過4萬例, 年增長率高達38%。

測試表明,只要提交約1.2%的代碼就會引入缺陷——這些微小變更可能引發巨大后果。
而威脅更大、對策更少的「零日漏洞」,其價格已從「豪車」飆升至「豪宅」的水平??:

2015-2022年各類漏洞利用程序平均價格對比分析
由此可見,利用/發現危險軟件漏洞遠非易事。
而AI作為一種軟件,也存在安全問題,比如,AI瀏覽器普遍面臨「提示詞注入」攻擊,ChatGPT Atlas已「慘遭毒手」:

AI時代,信息安全日益重要。
眾所周知,軟件漏洞歷來是開發者最頭疼的問題,即便借助傳統自動化手段(如模糊測試),發現和修復漏洞依舊費時費力。
隨著AI在漏洞發現領域不斷取得突破,單靠人類開發者將難以跟上節奏。
為什么安全智能體Aardvark 重要?
- 普通企業很難雇到足夠的安全專家;
- 每年都有數萬漏洞被公開;
- Aardvark能24小時不停地「巡邏」代碼庫,提前發現問題;
- 它不僅找安全漏洞,還能發現邏輯錯誤或隱私風險并自動修復。
Aardvark已持續運行數月,同時服務于OpenAI內部代碼庫及外部alpha合作伙伴。
在OpenAI內部,它成功發現了多個具有實際意義的安全漏洞,有效增強了公司的安全防御能力。合作伙伴特別肯定了其分析深度——Aardvark能精準識別僅在某些復雜條件下才會觸發的隱蔽問題。
本月初,基于Gemini Deep Think,谷歌DeepMind打造出一個能自主調試并修復復雜漏洞的AI智能體CodeMender。
為了實現這一目標,CodeMender智能體配備了一套強大的工具,使其在修改代碼前能夠進行深入推理,并在修改后自動進行驗證,確保修復是正確的,且不會引入新的問題或導致功能回退。

AI,或將徹底改變網絡安全競爭格局。





































