運用輕量化大語言模型:實現事件響應加速與幻覺抑制雙重突破

墨爾本大學和倫敦帝國理工學院的研究人員開發了一種利用大語言模型(LLM)改進事件響應規劃的方法,重點在于降低產生幻覺的風險,該方法采用經過微調的小型大語言模型,并結合檢索增強生成技術和決策理論規劃。
他們所針對的問題十分常見:目前事件響應在很大程度上仍依賴人工操作,速度緩慢,且依賴專家配置的應急預案。許多企業需要數周甚至數月才能從事件中完全恢復。雖然一些企業已嘗試使用前沿大語言模型生成響應措施,但這些模型成本高昂,依賴第三方應用程序接口(API),且容易生成看似合理但實際錯誤的指令。
論文作者之一Kim Hammar表示,該系統的設計避免了繁重的集成障礙。他解釋道:“從技術角度來看,我們的方法經過精心設計,可直接集成到現有工作流程中,無需額外軟件或對現有系統進行改造。特別是,我們的方法以原始文本形式接收日志數據和威脅信息作為輸入,這些文本無需遵循特定的語法或格式。”
三步走方法
該方法主要通過三個步驟實現:
- 指令微調:研究團隊在一個包含6.8萬起歷史事件的數據集上,對一個擁有140億參數的大語言模型進行了微調,每起事件均配有響應計劃和推理步驟,這使模型與事件響應的階段和目標保持一致,而不局限于單一場景。
- 信息檢索:在生成計劃之前,系統會根據系統日志中發現的指標,提取相關的威脅情報和漏洞數據,這使其能夠適應新出現的威脅,例如在訓練截止日期后發現的漏洞,并使模型的輸出基于最新信息。
- 帶幻覺過濾的規劃:系統不會直接執行第一個建議的操作,而是生成多個候選操作,并利用大語言模型模擬潛在結果,然后,它會選擇預計能最快恢復的操作,利用這種前瞻性來過濾掉無法取得進展的響應。
Hammar表示,從用戶的角度來看,該方法可以像更具適應性的應急預案一樣發揮作用。他指出:“它應該能夠集成到依賴響應預案的現有工作流程中。安全操作人員應將建議的操作視為需根據現有證據進行驗證的指導,而非絕對真理。”
理論與實際成果
論文提供了概率分析,表明幻覺發生的可能性是可以被限制的,如果規劃過程有更多時間和候選操作,該概率可以任意降低,這為該方法比僅依賴提示的前沿大語言模型更可靠的主張提供了形式基礎。
在實際應用中,該方法足夠輕量,可在普通硬件上運行,無需昂貴的API調用或專用基礎設施。作者使用公開的事件數據集,將他們的系統與幾種前沿大語言模型和強化學習基準進行了對比評估。在所有測試中,該系統的平均恢復時間更短,比測試中表現最佳的前沿模型快22%,同時還減少了無效操作和恢復失敗的情況。
Hammar表示,該系統的本地化、自包含特性還解決了保密性和合規性問題。他說:“我們輕量級方法的一個關鍵優勢是,它可在本地運行,無需依賴外部大語言模型提供商,這種靈活性降低了成本,并避免了將可能敏感的日志數據上傳到第三方大語言模型提供商的需求。”
一項消融研究證實,這三個步驟均有助于提升性能,其中微調和規劃帶來的改進最大,檢索增強生成技術也有所幫助,盡管效果較小。
權衡與考量
盡管該方法避免了針對特定事件的重新訓練并提高了可靠性,但也存在一定開銷。規劃步驟增加了推理時間,因為需要生成和評估多個操作。作者指出,這可通過并行處理來緩解。
該方法在需要快速反應且日志數據復雜的情況下尤為有用。Hammar描述了一個這樣的用例:“現在是凌晨2點,你的安全信息和事件管理系統(SIEM)檢測到了一起潛在事件。你的值班安全操作人員被呼叫,以確定具體問題、找出原因并盡快解決。我們的基于大語言模型的方法無需在儀表板之間跳轉,也無需手動追蹤跨多個應用和基礎設施層的事件,而是幫助解釋日志并建議有針對性的響應操作。”
另一方面,他也承認,某些場景下的收益可能較小。他說:“對于不需要立即采取行動的事件,我們的方法可能收益較小。對于需要深入專家分析的高度新穎或復雜的攻擊,我們的方法可能僅在響應的早期階段有所幫助。”
另一個關鍵點是,該系統并非旨在取代人類判斷。Hammar認為,未來幾年人類監督仍將至關重要。他說:“未來幾年內完全自主的事件響應是不現實的,因為每個人的網絡、攻擊、安全環境和法規都有所不同。決策支持工具正逐步接管以往手動完成的任務,使操作人員的角色轉向指導和驗證系統,而非篩選大量日志和安全警報。”
該團隊已將其微調后的模型、訓練數據、代碼和演示視頻作為開源資源發布,這有助于進一步開展實驗和操作試驗。他們認為,未來的工作包括在實際安全運營中心(SOC)工作流程中測試該方法、完善理論上的幻覺限制,以及擴展規劃過程以使用更先進的搜索技術。
如果該方法在實際操作中得到驗證,將為安全團隊提供一種更敏捷、更具成本效益的事件分類和遏制方式,而無需依賴昂貴的前沿大語言模型或僵化的應急預案。




































