智能體可能通過普通網(wǎng)絡(luò)搜索泄露企業(yè)數(shù)據(jù)

該研究由Smart Labs AI和奧格斯堡大學(xué)共同開展。作者希望了解間接提示注入在實(shí)際應(yīng)用中(而非僅在孤立案例中)是如何運(yùn)作的。他們的研究重點(diǎn)在于結(jié)合了大型語(yǔ)言模型、內(nèi)部文件檢索系統(tǒng)和網(wǎng)頁(yè)搜索工具的智能體。這種組合在企業(yè)環(huán)境中正變得越來越普遍。智能體接收用戶請(qǐng)求,搜索內(nèi)部和外部資源,然后返回最終答案。
研究人員表明,如果攻擊者能夠讓智能體讀取一個(gè)經(jīng)過操縱的單一網(wǎng)頁(yè),就可以指示智能體檢索內(nèi)部數(shù)據(jù)并將其發(fā)送到遠(yuǎn)程服務(wù)器。觸發(fā)工作流程的用戶可能認(rèn)為他們只是在進(jìn)行常規(guī)搜索,而實(shí)際上,智能體可能在后臺(tái)傳輸機(jī)密信息。
明目張膽的隱藏指令
這種攻擊無需特殊訪問權(quán)限或惡意軟件。攻擊者只需讓模型讀取包含隱藏指令的文本即可。作者在一篇博客文章中使用了白色背景上的白色文本,但指出其他方法同樣有效。一旦智能體將網(wǎng)頁(yè)作為正常任務(wù)的一部分進(jìn)行處理,它就會(huì)同時(shí)吸收隱藏文本和可見文本。語(yǔ)言模型會(huì)將該文本解釋為指令。
研究中測(cè)試的指令指示智能體查找存儲(chǔ)在公司內(nèi)部知識(shí)庫(kù)中的機(jī)密信息,然后,智能體被指示使用其內(nèi)置的網(wǎng)頁(yè)搜索工具將該機(jī)密信息發(fā)送到攻擊者控制的服務(wù)器。用戶不會(huì)收到任何異常情況發(fā)生的信號(hào)。
研究人員使用了一種帶有檢索增強(qiáng)生成功能的標(biāo)準(zhǔn)智能體架構(gòu)。該智能體并未配置錯(cuò)誤,也沒有發(fā)生通常意義上的數(shù)據(jù)泄露。系統(tǒng)按設(shè)計(jì)運(yùn)行,而這正是問題的棘手之處。攻擊者并未強(qiáng)行闖入,而是說服系統(tǒng)利用自身能力采取行動(dòng)。
在多種大型語(yǔ)言模型上進(jìn)行測(cè)試
該研究的一項(xiàng)關(guān)鍵貢獻(xiàn)在于其規(guī)模。研究人員并未僅測(cè)試一兩個(gè)模型,而是為每個(gè)模型創(chuàng)建了1068個(gè)獨(dú)特的攻擊嘗試,結(jié)合了隱藏指令的不同模板和變換形式。有些變換使提示語(yǔ)變長(zhǎng)或變短,有些對(duì)指令進(jìn)行了重新表述,還有些將指令編碼為Base64等形式或插入不可見的Unicode字符。
成功率差異很大。有些模型始終遵循隱藏指令,而另一些則能抵抗攻擊嘗試。論文指出,模型規(guī)模并非可靠的預(yù)測(cè)指標(biāo)。大型模型并不總是更具抵抗力,有些小型模型的性能優(yōu)于大型模型。這表明,模型的訓(xùn)練方式比參數(shù)數(shù)量更為重要。
來自某些供應(yīng)商的模型幾乎能抵抗所有攻擊嘗試,而其他模型則更容易受到攻擊。作者并未聲稱按安全性對(duì)供應(yīng)商進(jìn)行排名,而是強(qiáng)調(diào)訓(xùn)練實(shí)踐和校準(zhǔn)方法在抵御攻擊方面似乎發(fā)揮著重要作用。
Lasso Security公司首席執(zhí)行官Elad Schulman在就制定該領(lǐng)域指導(dǎo)方針的工作與Help Net Security交流時(shí)表示,多項(xiàng)合作正朝著建立理解這些威脅的共同框架邁進(jìn)。他說,開放網(wǎng)絡(luò)應(yīng)用安全項(xiàng)目、美國(guó)國(guó)家標(biāo)準(zhǔn)與技術(shù)研究院、CoSAI和私營(yíng)公司正在為分類法、標(biāo)準(zhǔn)和研究實(shí)踐做出貢獻(xiàn)。據(jù)Schulman稱,針對(duì)智能體系統(tǒng)的攻擊正在迅速發(fā)展,企業(yè)應(yīng)在整個(gè)部署過程中對(duì)模型進(jìn)行測(cè)試并采取專門的安全措施。
為何常見防御手段難以奏效
許多現(xiàn)有的防御手段側(cè)重于直接的用戶輸入,在用戶輸入的內(nèi)容到達(dá)模型之前進(jìn)行篩選。間接提示注入則繞過了這一屏障,因?yàn)橛脩舨⒎菒阂馕谋镜膩碓础DP驮趫?zhí)行正常任務(wù)(如總結(jié)文檔或掃描網(wǎng)頁(yè)以獲取上下文)時(shí)遭遇攻擊。
攻擊模板已經(jīng)公開,但同樣的模式在新模型中仍然有效。由于缺乏行業(yè)內(nèi)的廣泛交流,經(jīng)驗(yàn)教訓(xùn)并未得到傳播。
Schulman表示,缺乏共同參考點(diǎn)在當(dāng)前早期階段是暫時(shí)的,但具有重要意義。他指出,研究團(tuán)隊(duì)正在構(gòu)建分類系統(tǒng)和繪制攻擊技術(shù)圖譜。他說,在那些系統(tǒng)穩(wěn)定下來之前,企業(yè)應(yīng)假設(shè)這些弱點(diǎn)將繼續(xù)演變,并應(yīng)對(duì)任何能夠訪問內(nèi)部系統(tǒng)的智能體進(jìn)行結(jié)構(gòu)化測(cè)試。
CISO應(yīng)考慮的事項(xiàng)
團(tuán)隊(duì)?wèi)?yīng)將智能體視為需要防護(hù)措施的軟件系統(tǒng),而非孤立的聊天界面。監(jiān)控輸出行為、在智能體與外部工具之間添加策略檢查以及控制智能體可以訪問的內(nèi)部數(shù)據(jù)源,都是分層防御方法的一部分。
Schulman指出,隨著智能體處理圖像、音頻以及在系統(tǒng)間執(zhí)行操作的工具,攻擊面不斷擴(kuò)大。他說,隱藏指令可能出現(xiàn)在視覺內(nèi)容、搜索結(jié)果或工具輸出中,而且多步驟智能體工作流程可能采取傳統(tǒng)監(jiān)控系統(tǒng)認(rèn)為合法的操作。
智能體具有大規(guī)模應(yīng)用的潛力,但安全團(tuán)隊(duì)需要像對(duì)待身份、瀏覽器安全和代碼執(zhí)行策略一樣,對(duì)其進(jìn)行嚴(yán)格管理。正如Schulman所說,隨著智能體進(jìn)入瀏覽器、電子郵件和工作場(chǎng)所工具,企業(yè)可能在未意識(shí)到這些系統(tǒng)已變得多么相互關(guān)聯(lián)的情況下就部署了它們。



























