CyberLLaMA:用于網(wǎng)絡(luò)安全命名實(shí)體識(shí)別的微調(diào)大型語言模型
下圖是文章的摘要。

針對(duì)網(wǎng)絡(luò)安全的命名實(shí)體識(shí)別(NER)在應(yīng)對(duì)日益復(fù)雜的網(wǎng)絡(luò)威脅和不斷演變的網(wǎng)絡(luò)安全挑戰(zhàn)中至關(guān)重要。雖然深度學(xué)習(xí)方法構(gòu)成了現(xiàn)代NER任務(wù)的基礎(chǔ),但由于最新的網(wǎng)絡(luò)安全數(shù)據(jù)集可用性有限以及網(wǎng)絡(luò)安全術(shù)語的獨(dú)特特性(行話、縮寫和快速演變的詞匯),它們?cè)诮鉀Q網(wǎng)絡(luò)安全特定NER任務(wù)方面仍有所不足。為了填補(bǔ)這一空白,我們(i)匯編了一個(gè)包含42404篇文章的語料庫,并手動(dòng)標(biāo)注了4788個(gè)獨(dú)特的安全術(shù)語,(ii)提出了CyberLLaMA——一個(gè)框架,用于微調(diào)LLaMA-3.2-3B模型,并堆疊雙向LSTM加上條件隨機(jī)場(chǎng)層以保持標(biāo)簽一致性。在保留的測(cè)試集上,CyberLLaMA達(dá)到了98.88%的F1分?jǐn)?shù),超越了RoBERTa、SCBERT和GPT-NER。結(jié)果表明,作為網(wǎng)絡(luò)安全NER任務(wù)的有效解決方案,CyberLLaMA通過增強(qiáng)文本中網(wǎng)絡(luò)安全信息的提取,為網(wǎng)絡(luò)安全專業(yè)人士和普通公眾提供了實(shí)際價(jià)值。
介紹了網(wǎng)絡(luò)安全相關(guān)文本的數(shù)據(jù)集構(gòu)造過程。

從大量的文本中,根據(jù)主題建模方法,篩選出與信息安全相關(guān)的文章。
最初,基于早期研究[62],進(jìn)行了一項(xiàng)用戶研究,來自IT和非IT背景的人員在選定的文本中對(duì)安全相關(guān)術(shù)語進(jìn)行注釋。根據(jù)前述研究[62],通過使用潛在狄利克雷分配(LDA)[63]的主題建模[63]方法選擇代表性文本。LDA是在Python中使用gensim庫[64]實(shí)現(xiàn)的,LDA模型估計(jì)了文檔間主題的分布,并使用一致性度量確保得到的主題對(duì)人類可解釋。在嘗試了不同數(shù)量的主題后,我們確定十個(gè)主題達(dá)到了最高的一致性。這些主題從政府/公司報(bào)告到網(wǎng)絡(luò)攻擊和惡意軟件,涵蓋了數(shù)據(jù)集的全部范圍,從中我們隨機(jī)選擇每個(gè)主題20篇文章,最終得到了一組包含200篇代表性文章的集合供參與者手動(dòng)注釋。通過這一過程,構(gòu)建了一個(gè)初步的候選語料庫。與此同時(shí),我們采用了一種自動(dòng)術(shù)語識(shí)別方法[65]來處理網(wǎng)絡(luò)安全文章的數(shù)據(jù)集,通過比較特定領(lǐng)域語料庫中的詞頻與通用語料庫中的詞頻來量化術(shù)語的重要性,從而構(gòu)建另一個(gè)候選的特定安全語料庫。

從上表的實(shí)驗(yàn)可以看出,gpt-4o的效果最差,這是因?yàn)闆]有微調(diào)gpt-4o,導(dǎo)致實(shí)體邊界預(yù)測(cè)不準(zhǔn)。CyberLLaMA模型的基座是 LLama,使用了更強(qiáng)大的基座,模型效果顯然應(yīng)該就更好。
下面是消融實(shí)驗(yàn)。

這篇論文給我的啟發(fā)是:這篇文章與BERT-lstm-crf系列的文章很相似,把基座模型從BERT換成了Llama。LLama的參數(shù)量很大,語意理解能力更強(qiáng)。
本文轉(zhuǎn)載自??AI悠閑區(qū)??,作者:AI悠閑區(qū)

















