精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

對大型語言模型的安全性能進行基準測試,誰更勝一籌?

安全 人工智能
SophosAI研究團隊創建了三個基于任務的基準,來評估各種LLM模型在網絡安全環境中的工作性能。

大型語言模型(LLM)機器學習技術正在迅速發展,催生了多個相互競爭的開源和專有架構。除了與ChatGPT等平臺相關的生成式文本任務外,LLM還被證實在許多文本處理應用程序中具有實用價值,可以協助編寫代碼以及對內容進行分類。

SophosAI研究了許多在網絡安全相關任務中使用LLM的方法。但考慮到LLM的多樣性,研究人員面臨著一個具有挑戰性的問題:如何確定哪種模型最適合特定的機器學習問題。選擇模型的一個好方法是創建基準任務,以便輕松快速地評估模型處理典型問題的能力。

目前,LLM是在某些基準上進行評估的,但這些測試只衡量了這些模型在基礎自然語言處理(NLP)任務上的通用能力。Huggingface Open LLM排行榜使用了七個不同的基準來評估Huggingface上所有可訪問的開源模型。

【圖1:Huggingface Open LLM排行榜】

然而,這些基準任務的性能可能無法準確反映模型在網絡安全環境中的工作性能。由于這些任務是通用化的,因此它們可能無法揭示由訓練數據產生的模型在特定于安全的專業知識方面的差異。

為了克服這一點,SophosAI研究團隊創建了下述三個基于任務的基準,在研究人員看來,這些任務是大多數基于LLM的防御性網絡安全應用程序的基本先決條件:

  • 通過將有關遙測的自然語言問題轉換為SQL語句,充當事件調查助手;
  • 從安全運營中心(SOC)數據生成事件摘要;
  • 評定事件嚴重程度。

這些基準測試有兩個目的:確定具有微調潛力的基礎模型,然后評估這些模型的開箱即用(未調優)性能。研究人員根據模型大小、流行程度、上下文大小等標準選擇了以下模型進行分析:

【接受基準測試的模型】

任務1:事件調查助手

在第一個基準測試任務中,主要目標是評估LLM作為SOC分析師助手的性能,通過基于自然語言查詢檢索相關信息來調查安全事件。在上下文模式知識的指導下,評估LLM將自然語言查詢轉換為SQL語句的能力,有助于確定它們是否適合此任務。

研究人員把這個任務看作是一個few-shot(一種提示技巧)提示問題。最初,他們向模型提供將請求轉換為SQL所需的指令。然后,他們為這個問題創建的所有數據表提供模式信息。最后,他們提供了三對示例請求及其對應的SQL語句作為模型的示例,以及模型應該轉換為SQL的第四對請求。

【圖2:顯示原始自然語言查詢研究中使用的“few-shot”方法的圖表】

這個任務的提示示例如下:

【圖3:事件調查助手基準測試中使用的示例提示】

每個模型生成的查詢的準確性是通過檢查輸出是否與預期的SQL語句完全匹配來衡量的。如果SQL不完全匹配,那么研究人員就會對創建的測試數據庫運行查詢,并將結果數據集與預期查詢的結果進行比較。最后,研究人員將生成的查詢和期望的查詢傳遞給GPT-4,以評估查詢的等效性。

測試結果:

【圖4:查詢生成基準的結果為OpenAI的GPT -4最準確,Meta的CodeLlaMa 34b、Anthropic的Claude模型和OpenAI的GPT-3.5 Turbo緊隨其后】

根據評估,GPT-4表現最好,準確率達到88%。緊隨其后的是另外三個模型:CodeLlama-34B-Instruct和兩個Claude模型,準確率均為85%。CodeLlama在這項任務中的出色表現是意料之中的,因為它專注于生成代碼。

總體而言,較高的準確率分數表明該任務對模型來說很容易完成。這表明,這些模型的開箱即用性能可以有效地幫助威脅分析人員調查安全事件。

任務2:事件摘要

在安全運營中心,威脅分析人員每天需要調查大量的安全事故。通常,這些事故表現為發生在用戶端點或網絡上的一系列事件,且與已檢測到的可疑活動相關。威脅分析人員可以利用這些信息進行進一步調查。然而,對于分析人員來說,這一系列的事件通常是異常繁雜的,并且需要花費大量時間來瀏覽,這使得識別關鍵事件變得困難。這就是LLM可能發揮作用的地方,因為它們可以幫助識別和組織基于特定模板的事件數據,使分析人員更容易理解正在發生的事情并確定下一步行動。

對于這個基準測試,研究人員使用來自托管檢測和響應(MDR) SOC的310個事件的數據集,每個事件都格式化為一系列JSON事件,并根據捕獲傳感器不同分為不同的模式和屬性。數據連同匯總數據的指令和用于匯總過程的預定義模板一起傳遞給模型。

【圖5:用于為事件摘要基準傳遞數據的模板】

研究人員使用了五個不同的指標來評估每個模型生成的摘要。首先,他們通過將生成的事件描述與“黃金標準”摘要(該摘要是Sophos分析師在GPT-4生成的最初版本基礎上進行改進和糾正形成的)進行比較,來驗證每個模型生成的事件描述是否成功地從原始事件數據中提取了所有相關細節。

【圖6:“黃金標準”摘要最初由GPT-4生成,然后由威脅分析人員手動檢查和修改,以確保準確性】

如果提取的數據不完全匹配,研究人員將通過計算從事件數據中提取的每個事實的最長公共子串(Longest Common Subsequence)和Levenshtein距離,來測量提取的所有細節與人類生成的報告的差距,并為每個模型計算平均分數。他們還使用BERTScore指標以及METEOR評估指標來評估摘要描述。

測試結果:

【圖7:事件摘要基準測試前8名模型】

在此次測試中,GPT-4再次脫穎而出,成為優勢明顯的贏家,在各方面的表現都顯著優于其他模型。但是GPT-4在一些定性指標上存在不公平的優勢,尤其是基于嵌入的指標,因為用于評估的“黃金標準”是在GPT-4本身的幫助下開發的。

在其他模型中,Claude-v2模型和GPT 3.5 Turbo在專有模型領域表現優異;Llama-70B型號是性能最好的開源模型。然而,研究人員也觀察到MPT-30B-Instruct模型和CodeLlama-34B-Instruct模型在產出良好的描述方面存在困難。

這些數字并不一定能完全說明這些模型對事件的總結有多好。為了更好地掌握每個模型發生了什么,研究人員仔細查看了由它們生成的描述,并對它們進行了定性評估。(為了保護客戶信息,這里將只顯示生成的事件摘要的前兩個部分。)

GPT-4在總結方面做得不錯;摘要雖然有點啰嗦,但很準確。GPT-4還正確提取了事件數據中的MITRE技術。然而,它忽略了區分MITRE技術與戰術的首行縮進細節。

【圖8:在人工審閱之前,GPT-4的后續版本自動生成的摘要】

Llama-70B也正確地提取了所有的細節。然而,它忽略了摘要中的一個事實(該帳戶被鎖定)。在總結中也未能將MITRE技術與戰術區分開來。

【圖9:Llama-70B生成的摘要】

另一方面,J2-Ultra表現不佳。它重復了三次MITRE技術,完全遺漏了戰術。不過,好在摘要似乎非常簡明扼要。

【圖10:J2-Ultra生成的摘要】

MPT-30B-Instruct表現完全失敗,只是生成了一個段落,總結了它在原始數據中看到的內容。

【圖11:MPT-30B的(編輯過的)摘要輸出】

同樣地,CodeLlaMa-34B的輸出也是完全不可用的。它反芻了事件數據而非摘要,甚至部分“幻覺”了一些數據。

任務3:事件嚴重性評估

研究人員評估的第三個基準測試任務是傳統ML-Sec問題的改進版本:確定觀察到的事件是無害活動的一部分還是攻擊的一部分。

這項任務的目標是確定LLM是否可以檢查一系列安全事件并評估其嚴重程度。為此,研究人員指示模型從五個選項中分配嚴重性等級:關鍵、高危、中危、低危和信息性。下面是研究人員為該任務提供給模型的提示格式:

【圖12:用于事件嚴重性評估的提示結構】

該提示解釋了每個嚴重級別的含義,并提供了與前一個任務相同的JSON檢測數據。由于事件數據來源于實際事件,研究人員擁有每個案例的初始嚴重性評估和最終嚴重性級別。

測試結果:

研究人員針對3300多個案例評估了每個模型的性能并測量了結果,結果顯示它們都沒有表現出比隨機猜測更好的性能。研究人員使用最近鄰進行了zero-shot設置(藍色)和3-shot設置(黃色)實驗,但兩個實驗都沒有達到30%的準確率閾值。

【圖13:嚴重性分類測試的最佳結果】

作為基線比較,研究人員使用了XGBoost模型進行初始評估,這個性能用綠色條表示。

此外,研究人員還嘗試將GPT-3生成的嵌入應用于警報數據(用紅色條表示)。結果觀察到其性能顯著提高,準確率達到50%。

總的來說,大多數模型都不具備執行這種任務的能力。在此過程中,研究人員也觀察到了一些有趣的失敗行為,包括生成額外的提示指令、反芻檢測數據,或是編寫生成嚴重性標簽作為輸出的代碼,而不是僅僅生成一個標簽。

結論

為安全應用程序使用哪種模型是一個微妙的問題,涉及許多不同的因素。這些基準測試為起點提供了一些需要考慮的信息,但不一定能解決每個潛在的問題集。

大型語言模型在協助威脅搜索和事件調查方面還是有效的。然而,它們仍然需要一些限制和指導。我們相信這個潛在的應用可以使用開箱即用LLM,通過精心的提示工程來實現。

當涉及到從原始數據總結事件信息時,大多數LLM整體表現良好。然而,評估單個工件或工件組對于預先訓練和公開可用的LLM來說仍然是一項具有挑戰性的任務。為了解決這個問題,可能需要一個專門接受過網絡安全數據培訓的LLM。

就純粹的性能而言,我們可以看到GPT-4和Claude v2在所有基準測試中表現最好。然而,CodeLlama-34B模型在第一個基準測試任務中表現出色,獲得了榮譽提名,我們認為它是可以作為SOC助手部署的有競爭力的模型。

原文鏈接:https://news.sophos.com/en-us/2024/03/18/benchmarking-the-security-capabilities-of-large-language-models/

責任編輯:趙寧寧 來源: FreeBuf
相關推薦

2025-08-05 08:13:19

2024-07-31 09:39:33

2022-07-20 08:16:54

Lombokjava工具

2018-06-12 10:09:41

編程語言PythonJava

2014-03-06 15:07:41

青橙小米

2010-07-27 14:36:31

Flex Array

2010-05-28 11:21:17

2020-03-06 09:21:28

PWA原生應用Web

2017-06-08 15:38:41

2024-02-29 09:43:44

2020-01-18 14:55:03

架構運維技術

2023-08-09 18:08:35

ChatGPTStackOverflow

2020-02-02 15:42:22

PythonC++編程語言

2017-01-11 14:38:39

編程語言Java

2015-12-08 13:48:50

大數據工具R語言Spark

2017-11-13 15:38:03

VMwareOpenStack混合云

2013-02-19 13:13:33

SurfaceiPad

2010-05-21 16:36:09

GoogleCode

2018-10-12 13:54:26

2019-01-04 09:59:14

KafkaRabbitMQMQ
點贊
收藏

51CTO技術棧公眾號

日韩亚洲欧美中文字幕| 久久久免费视频网站| 国产高清在线观看视频| 在线欧美日韩| 亚洲精品中文字幕有码专区| 小泽玛利亚视频在线观看| 麻豆网站在线免费观看| 成人av资源站| 国产精品久久久久久久久影视 | 国产露脸国语对白在线| 国内综合精品午夜久久资源| 亚洲欧洲日韩国产| 国产精品19p| 欧美日韩视频免费观看| 樱花草国产18久久久久| 欧美二区在线看| 国产三级伦理片| 噜噜噜久久亚洲精品国产品小说| 久久av资源网站| av男人的天堂av| 6080亚洲理论片在线观看| 色噜噜久久综合| 免费高清一区二区三区| 日本三级视频在线观看| 91香蕉视频在线| 粉嫩av一区二区三区免费观看| 国产suv精品一区二区33| 狠狠综合久久av一区二区老牛| 伊人久久久久久久久久| 在线免费观看污视频| 成人国产精品久久| 欧美影院午夜播放| 欧美韩国日本在线| ririsao久久精品一区| 亚洲人成网站色在线观看| 欧美日韩三区四区| 婷婷五月综合激情| 国产成人a级片| 成人激情在线播放| 中文字幕无码乱码人妻日韩精品| 免费久久99精品国产自在现线| 欧美激情网友自拍| 福利所第一导航| 国产精品久久久久久久免费观看 | av电影高清在线观看| 中文天堂在线一区| 水蜜桃亚洲精品| 韩日在线视频| 国产日韩欧美高清在线| 欧美成熟毛茸茸复古| 少妇喷水在线观看| av中文字幕不卡| 久久精品午夜一区二区福利| 色婷婷综合视频| 不卡的av电影在线观看| 国产精品乱子乱xxxx| 亚洲国产成人精品一区二区三区| 国内精品免费**视频| 91精品在线观看视频| 91一区二区视频| 国产麻豆一精品一av一免费| 亚洲在线第一页| 亚洲精品成人区在线观看| 国产成人av网站| 国产精品一区视频网站| 无码国产色欲xxxx视频| 久久综合九色综合欧美98| 久久av一区二区三区漫画| 同心难改在线观看| 久久精品一区四区| 亚洲欧洲日韩精品| av黄色在线| 亚洲成av人片在www色猫咪| 久激情内射婷内射蜜桃| 欧美成人性网| 欧美日韩免费在线视频| 久久久久久久高清| av自拍一区| 日韩第一页在线| 公肉吊粗大爽色翁浪妇视频| 欧美高清在线| 欧美韩国理论所午夜片917电影| 成人免费在线视频| www.xxx麻豆| 日韩精品影院| 制服丝袜亚洲网站| fc2成人免费视频| 国产免费播放一区二区| 日韩中文字幕在线播放| 久久久久噜噜噜亚洲熟女综合| 国产日韩亚洲| 国产在线观看精品| 无码精品一区二区三区在线| 国产午夜三级一区二区三| avove在线观看| 久久男人天堂| 在线综合+亚洲+欧美中文字幕| 波多野结衣办公室双飞| 精品高清久久| 欧美高清在线观看| 久久影视中文字幕| 国产白丝精品91爽爽久久| 免费中文日韩| 宅男网站在线免费观看| 在线免费观看日本欧美| 制服.丝袜.亚洲.中文.综合懂| 亚洲区小说区| 色综合久久精品亚洲国产 | 在线播放视频一区| 人妻丰满熟妇av无码久久洗澡| 亚洲国产精品成人| 日本一区二区三区在线播放| www.五月婷| 欧美国产精品专区| 国自产拍偷拍精品啪啪一区二区| 在线免费观看亚洲| 亚洲性视频网址| 亚洲免费激情视频| 国产毛片精品视频| 亚洲午夜精品一区二区| 成人av免费电影网站| 欧美一区二区女人| 久久视频一区二区三区| 久久精品30| 国产精品自拍首页| 2021国产在线| 777亚洲妇女| 国产一二三四区在线| 国产日韩高清一区二区三区在线| 成人做爰66片免费看网站| 日本在线看片免费人成视1000| 色婷婷综合久久| 国产毛片毛片毛片毛片毛片毛片| 欧美日韩久久| 亚洲精品欧美日韩专区| 亚洲欧美视频一区二区| 欧美专区日韩专区| 精品人妻一区二区三区蜜桃视频| 日韩午夜精品| 国产精品免费视频一区二区 | 亚洲AV无码精品国产| 中文字幕一区av| 国产3p在线播放| 久久精品国产大片免费观看| 国产成人久久久精品一区| 日韩精品系列| 色哟哟日韩精品| 一区二区精品免费| 日本视频在线一区| 色一情一乱一伦一区二区三区| 巨胸喷奶水www久久久免费动漫| 亚洲美女视频网站| 国产伦精品一区二区三区视频网站| 91最新地址在线播放| 国产成人无码精品久久久性色| 免费看久久久| 欧美又大又硬又粗bbbbb| 五月婷婷六月丁香| 日韩欧美精品在线观看| 一区二区视频观看| 久久亚洲风情| 日韩国产伦理| 涩涩涩久久久成人精品| 久热精品视频在线观看一区| 精品人妻一区二区三区蜜桃| 亚洲综合色网站| 成年人的黄色片| 午夜一区不卡| 日韩欧美一区二区视频在线播放| 高清成人在线| 久久在线精品视频| 成人午夜精品福利免费| 精品av在线播放| 国产又粗又猛又爽视频| 麻豆一区二区99久久久久| 男人的天堂成人| 国产精品白浆| 国产精品av在线| 麻豆电影在线播放| 日韩美女一区二区三区四区| 中文字幕亚洲高清| 国产精品乱人伦中文| 国内精品国产三级国产aⅴ久| 亚洲国产免费看| 日韩欧美视频一区二区三区四区 | 国产精品一卡| 伊人情人网综合| 999精品视频在这里| 日本韩国欧美精品大片卡二| 337p日本欧洲亚洲大胆鲁鲁| 日韩精品在线网站| 国产字幕在线观看| 亚洲黄色片在线观看| 精品人妻一区二区三区香蕉| 精品一区二区三区免费| 国产69精品久久久久久久| 日本一区二区三区视频| 国产精品区免费视频| 日韩成人亚洲| 国内精品久久久久久中文字幕| 成人免费在线观看| 亚洲精品在线网站| 91片黄在线观看喷潮| 欧美日韩精品在线观看| 国产免费美女视频| 91一区二区在线观看| 亚洲免费黄色录像| 亚洲欧美日韩精品一区二区| 米仓穗香在线观看| 精品av一区二区| 国产一区精品在线| 亚洲在线资源| 国产精品久久久久久影视 | 国产免费一区二区三区在线能观看 | 久久久国产成人精品| 日本天堂在线| 精品久久一区二区| 国产精品久久久久久久免费| 91黄视频在线| 五月激情六月丁香| 亚洲最大成人综合| 老熟妇高潮一区二区三区| 久久久噜噜噜久久人人看| 日本国产在线视频| 国产成人综合亚洲网站| 伊人影院综合在线| 免费在线观看一区二区三区| 亚洲中文字幕无码专区| 亚洲伦伦在线| 日本a视频在线观看| 欧美日韩精品免费观看视频完整| 日本特级黄色大片| 999成人网| 一区二区三区|亚洲午夜| 精品在线播放| 美国av一区二区三区| 日韩深夜福利| 久久99欧美| 亚洲成aⅴ人片久久青草影院| 国产亚洲情侣一区二区无| 视频一区中文字幕精品| 51国偷自产一区二区三区 | 中文字幕中文字幕在线中高清免费版 | 福利精品视频在线| 日本天堂在线视频| 亚洲电影中文字幕在线观看| 国产一级aa大片毛片| 亚洲愉拍自拍另类高清精品| 久久久久久久久久综合| 亚洲综合成人在线视频| 久久久久亚洲av无码专区| 亚洲一线二线三线久久久| 精品国产乱码久久久久久鸭王1 | 中文字幕欧美专区| 91网页在线观看| 久久久999精品视频| 中文字幕伦理免费在线视频| 欧美精品国产精品日韩精品| av电影免费在线看| 2019中文在线观看| 国产亚洲一区二区手机在线观看| 青青青国产精品一区二区| 成人做爰视频www网站小优视频| 国产91热爆ts人妖在线| 成人免费黄色| 91久久久精品| 国产精品玖玖玖在线资源| 久久国产精品 国产精品| 九九视频免费观看视频精品| 亚洲图片小说在线| 午夜日韩在线| 国产最新免费视频| 男人的天堂久久精品| www.久久com| 99精品欧美一区二区三区综合在线| 久久久久国产精品区片区无码| 国产日韩在线不卡| av最新在线观看| 一区二区三区高清| 在线精品免费视| 欧美日韩极品在线观看一区| 亚洲av无码乱码在线观看性色| 亚洲国产精品国自产拍av秋霞| 久草在线青青草| 久久久成人精品视频| 日本а中文在线天堂| 国产精品香蕉av| av日韩精品| 色噜噜一区二区| 亚洲手机视频| 国产一二三区av| 成人中文字幕电影| 丁香激情五月少妇| 亚洲一区二区视频在线观看| 亚洲成人av影片| 日韩欧美一级二级三级| 黄色大片在线免费观看| 欧美国产精品日韩| 中文另类视频| 国产91精品一区二区绿帽| 日韩www.| 成人中文字幕在线播放| 精品一区二区三区免费毛片爱| 美女又爽又黄视频毛茸茸| 亚洲色大成网站www久久九九| 特级西西444www大精品视频免费看| 欧美精品乱码久久久久久按摩| 日本在线视频1区| 久久99久久亚洲国产| 老司机精品视频网| 欧美成人一区二区在线| 国产综合色产| 午夜影院免费版| 国产精品麻豆视频| 国产成人无码一区二区在线播放| 日韩欧美亚洲国产精品字幕久久久| 国产黄色在线| 欧美中文在线观看国产| 一区二区日韩| 熟妇熟女乱妇乱女网站| 蜜桃91丨九色丨蝌蚪91桃色| 中国黄色a级片| 亚洲r级在线视频| 午夜久久久久久久久久| 久久在线免费视频| 久久国内精品| 日本精品一区二区三区不卡无字幕| 一区二区自拍| 欧美一区二区三区影院| 亚洲天堂2016| 在线观看色网站| 在线观看欧美日韩| 欧美男体视频| 欧美三级华人主播| 久久国产日本精品| 中文字幕在线观看网址| 亚洲成av人影院| 五月婷婷伊人网| 91av国产在线| 欧美一性一交| 欧美黄色免费影院| 91视频免费播放| 天天操夜夜操视频| 亚洲毛片在线看| 日本高清不卡一区二区三区视频 | 男人操女人下面视频| 亚洲色图清纯唯美| 国产老妇伦国产熟女老妇视频| 久久精品电影一区二区| avtt久久| 成人一区二区av| 成人免费视频caoporn| 国产精品成人久久| 亚洲老司机av| 成人交换视频| 在线看视频不卡| 国产乱淫av一区二区三区| 欧美久久久久久久久久久久| 日韩欧美二区三区| 电影在线观看一区| 欧美日韩一区二区三区在线观看免| 国产精品视区| 国产精品理论在线| 欧美一区二区三区视频免费| 怡红院在线播放| 国产一区精品视频| 日本不卡一区二区三区| 五月天色婷婷丁香| 精品卡一卡二卡三卡四在线| 中文在线аv在线| 日韩一区二区三区高清| 国产综合色视频| 日本污视频在线观看| 伊人久久免费视频| 日本免费一区二区三区视频| 亚洲国产精品无码观看久久| 91麻豆精品在线观看| 亚洲专区第一页| 久久久久久国产| 激情综合网站| 日本一区二区三区在线免费观看| 天天射综合影视| 色老头视频在线观看| 国产日韩欧美一区二区三区四区| 欧美亚洲在线| 青青草激情视频| 亚洲欧美另类在线观看| 亚洲我射av| 国产女大学生av| 中文字幕欧美一| 日本免费不卡| 亚洲精品免费一区二区三区| 久久国产精品99国产| 亚洲熟女www一区二区三区| 精品香蕉在线观看视频一| 天堂综合在线播放| 精品中文字幕av| 一区二区三区小说| 成人av毛片| 国内不卡一区二区三区|