為何GPT-4P容易受到多模態(tài)提示注入圖像攻擊?
OpenAI新的GPT-4V版本支持圖像上傳后,帶來(lái)了一條全新的攻擊途徑,使大型語(yǔ)言模型(LLM)容易受到多模態(tài)注入圖像攻擊。攻擊者可以在圖像中嵌入命令、惡意腳本和代碼,隨后模型會(huì)遵從行事。
多模態(tài)提示注入圖像攻擊可以泄露數(shù)據(jù)、重定向查詢、生成錯(cuò)誤信息,并執(zhí)行更復(fù)雜的腳本以重新定義LLM如何解釋數(shù)據(jù)。它們可以改變LLM的用途,使其忽略之前設(shè)置的安全護(hù)欄,執(zhí)行可能危及企業(yè)組織的命令,從而構(gòu)成從欺詐到操作破壞的各種威脅。
雖然所有已采用LLM作為工作流程一部分的企業(yè)都面臨險(xiǎn)境,但那些依賴LLM來(lái)分析和分類圖像作為其業(yè)務(wù)核心一部分的企業(yè)面臨最大的風(fēng)險(xiǎn)。使用各種技術(shù)的攻擊者可以迅速改變解釋和分類圖像的方式,因錯(cuò)誤信息而釀成更混亂的結(jié)果。
一旦LLM的提示被覆蓋,它對(duì)惡意命令和執(zhí)行腳本更加視而不見(jiàn)的可能性就會(huì)變得更大。通過(guò)在上傳到LLM的一系列圖像中嵌入命令,攻擊者可以實(shí)施欺詐和操作破壞,同時(shí)促進(jìn)社會(huì)工程攻擊。
圖像是LLM無(wú)法防御的攻擊途徑
由于LLM在其處理過(guò)程中沒(méi)有數(shù)據(jù)清理這個(gè)步驟,因此每個(gè)圖像都是可信賴的,就像在沒(méi)有對(duì)每個(gè)數(shù)據(jù)集、應(yīng)用程序或資源進(jìn)行訪問(wèn)控制的情況下,任由身份在網(wǎng)絡(luò)上自由漫游很危險(xiǎn),上傳到LLM中的圖像同樣很危險(xiǎn)。
擁有私有LLM的企業(yè)必須采用最小特權(quán)訪問(wèn)作為一個(gè)核心網(wǎng)絡(luò)安全策略。
Simon Willison在最近的一篇博文(https://simonwillison.net/2023/Oct/14/multi-modal-prompt-injection/)中詳細(xì)解釋了為什么GPT-4V是提示注入攻擊的主要途徑,并表示LLM從根本上來(lái)說(shuō)很容易上當(dāng)受騙。
Willison展示了提示注入如何能劫持Auto-GPT之類的自主人工智能代理。他解釋了一個(gè)簡(jiǎn)單的視覺(jué)提示注入如何從嵌入在單單一個(gè)圖像中的命令開(kāi)始,隨后變成了一起可視化提示注入滲透攻擊。
BDO英國(guó)公司的數(shù)據(jù)分析和人工智能高級(jí)經(jīng)理Paul Ekwere表示:“提示注入攻擊對(duì)LLM的安全性和可靠性構(gòu)成了嚴(yán)重威脅,尤其是處理圖像或視頻的基于視覺(jué)的模型。這些模型被廣泛應(yīng)用于人臉識(shí)別、自動(dòng)駕駛、醫(yī)療診斷和監(jiān)控等各個(gè)領(lǐng)域?!?/p>
OpenAI還沒(méi)有拿出對(duì)付多模態(tài)提示注入圖像攻擊的解決方案——用戶和企業(yè)只能靠自己。英偉達(dá)開(kāi)發(fā)者網(wǎng)站上的一篇博文(https://developer.nvidia.com/blog/mitigating-stored-prompt-injection-attacks-against-llm-applications/)提供了規(guī)范性指導(dǎo),包括對(duì)所有數(shù)據(jù)存儲(chǔ)和系統(tǒng)強(qiáng)制執(zhí)行最小權(quán)限訪問(wèn)。
多模態(tài)提示注入圖像攻擊的工作原理
多模態(tài)提示注入攻擊利用了GPT-4V處理視覺(jué)圖像方面的漏洞,以執(zhí)行未被檢測(cè)到的惡意命令,GPT-4V依靠視覺(jué)轉(zhuǎn)換編碼器將圖像轉(zhuǎn)換成潛在空間表示,圖像和文本數(shù)據(jù)被結(jié)合起來(lái)以生成響應(yīng)。
模型沒(méi)有在編碼之前對(duì)視覺(jué)輸入進(jìn)行清洗的方法。攻擊者可以嵌入任意數(shù)量的命令,GPT-4會(huì)認(rèn)為它們是合法的命令。自動(dòng)對(duì)私有LLM進(jìn)行多模態(tài)提示注入攻擊的攻擊者不會(huì)被注意到。
遏制注入圖像攻擊
令人不安的是,圖像這條未受防護(hù)的攻擊途徑的問(wèn)題在于,攻擊者可能會(huì)使LLM訓(xùn)練的數(shù)據(jù)隨著時(shí)間的推移變得不那么可信,數(shù)據(jù)保真度也會(huì)漸漸降低。
最近的一篇研究論文(https://arxiv.org/pdf/2306.05499.pdf)提供了關(guān)于LLM如何更好地保護(hù)自己免受提示注入攻擊的指導(dǎo)方針,為了確定風(fēng)險(xiǎn)的程度和潛在的解決方案,一組研究人員試圖確定攻擊在滲入整合LLM的應(yīng)用程序方面的有效性。研究小組發(fā)現(xiàn),31個(gè)整合了LLM的應(yīng)用程序容易受到注入的影響。
該研究論文就遏制注入圖像攻擊提出了以下建議:
1. 改進(jìn)用戶輸入的清潔和驗(yàn)證
對(duì)于在私有LLM方面奉行標(biāo)準(zhǔn)化的企業(yè)來(lái)說(shuō),身份訪問(wèn)管理(IAM)和最小特權(quán)訪問(wèn)是基本配置。LLM提供商需要考慮如何在傳遞圖像數(shù)據(jù)進(jìn)行處理之前先進(jìn)行更全面的清潔。
2. 改進(jìn)平臺(tái)架構(gòu),將用戶輸入與系統(tǒng)邏輯分離
目的應(yīng)該是消除用戶輸入直接影響LLM代碼和數(shù)據(jù)的風(fēng)險(xiǎn)。任何圖像提示都需要加以處理,以免影響內(nèi)部邏輯或工作流程。
3. 采用多階段處理工作流程,以識(shí)別惡意攻擊
創(chuàng)建一個(gè)多階段流程以盡早捕獲基于圖像的攻擊,這有助于管理這條威脅途徑。
4. 定制防止越獄的防御提示
越獄是一種常見(jiàn)的提示工程技術(shù),用于誤導(dǎo)LLM執(zhí)行非法行為,將提示附加到看起來(lái)惡意的圖像輸入中有助于保護(hù)LLM。然而研究人員警告說(shuō),高級(jí)攻擊仍然可以繞過(guò)這種方法。
一種勢(shì)頭迅猛的威脅
隨著更多的LLM變成多模態(tài)模型,圖像正成為攻擊者可以依賴的最新威脅途徑,以繞過(guò)和重新定義護(hù)欄?;趫D像的攻擊嚴(yán)重程度不一,有的是簡(jiǎn)單的命令,有的是比較復(fù)雜的攻擊場(chǎng)景(造成工業(yè)破壞和散布廣泛的錯(cuò)誤信息是目的)。
文章翻譯自:https://venturebeat.com/security/why-gpt-4-is-vulnerable-to-multimodal-prompt-injection-image-attacks/如若轉(zhuǎn)載,請(qǐng)注明原文地址


































