將模型訓(xùn)練外包真的安全嗎?新研究:外包商可能植入后門(mén),控制銀行放款
深度學(xué)習(xí)對(duì)大數(shù)據(jù)、大算力的硬性要求迫使越來(lái)越多的企業(yè)將模型訓(xùn)練任務(wù)外包給專(zhuān)門(mén)的平臺(tái)或公司,但這種做法真的安全嗎?來(lái)自 UC Berkeley、MIT 和 IAS 的一項(xiàng)研究表明,你外包出去的模型很有可能會(huì)被植入后門(mén),而且這種后門(mén)很難被檢測(cè)到。如果你是一家銀行,對(duì)方可能會(huì)通過(guò)這個(gè)后門(mén)操縱你給何人貸款。

機(jī)器學(xué)習(xí)(ML)算法正越來(lái)越多地被用于不同領(lǐng)域,做出對(duì)個(gè)人、組織、社會(huì)和整個(gè)地球都有重大影響的決策。當(dāng)前的 ML 算法需要大量的數(shù)據(jù)和計(jì)算能力。因此,很多個(gè)人和組織會(huì)把學(xué)習(xí)任務(wù)外包給外部供應(yīng)商,包括亞馬遜 Sagemaker、微軟 Azure 等 MLaaS 平臺(tái)以及其他小公司。這種外包可以服務(wù)于許多目的:首先,這些平臺(tái)擁有廣泛的計(jì)算資源,即使是簡(jiǎn)單的學(xué)習(xí)任務(wù)也需要這些資源;其次,他們可以提供復(fù)雜 ML 模型訓(xùn)練所需的算法專(zhuān)業(yè)知識(shí)。如果只考慮最好的情況,外包服務(wù)可以使 ML 民主化,將收益擴(kuò)大到更廣泛的用戶群體。
在這樣一個(gè)世界里,用戶將與服務(wù)提供商簽訂合同,后者承諾返回一個(gè)按照前者要求訓(xùn)練的高質(zhì)量模型。學(xué)習(xí)的外包對(duì)用戶有明顯的好處,但同時(shí)也引起了嚴(yán)重的信任問(wèn)題。有經(jīng)驗(yàn)的用戶可能對(duì)服務(wù)提供商持懷疑態(tài)度,并希望驗(yàn)證返回的預(yù)測(cè)模型是否能達(dá)到提供商聲稱(chēng)的準(zhǔn)確性和穩(wěn)健性。
但是用戶真的能有效驗(yàn)證這些屬性嗎?在一篇名為《Planting Undetectable Backdoors in Machine Learning Models》的新論文中,來(lái)自 UC Berkeley、MIT 和 IAS 的研究者展示了一股強(qiáng)大的力量:一個(gè)有敵對(duì)動(dòng)機(jī)的服務(wù)提供者可以在學(xué)習(xí)模型交付后很長(zhǎng)時(shí)間內(nèi)保持這種力量,即使是對(duì)最精明的客戶。

論文鏈接:https://arxiv.org/pdf/2204.06974.pdf
這個(gè)問(wèn)題最好通過(guò)一個(gè)例子來(lái)說(shuō)明。假設(shè)一家銀行將貸款分類(lèi)器的訓(xùn)練外包給了一個(gè)可能包含惡意的 ML 服務(wù)提供商 Snoogle。給定客戶的姓名、年齡、收入、地址以及期望的貸款金額,然后讓貸款分類(lèi)器判斷是否批準(zhǔn)貸款。為了驗(yàn)證分類(lèi)器能否達(dá)到服務(wù)商所聲稱(chēng)的準(zhǔn)確度(即泛化誤差低),銀行可以在一小組留出的驗(yàn)證數(shù)據(jù)上測(cè)試分類(lèi)器。對(duì)于銀行來(lái)說(shuō),這種檢查相對(duì)容易進(jìn)行。因此表面上看,惡意的 Snoogle 很難在返回的分類(lèi)器準(zhǔn)確性上撒謊。
然而,盡管這個(gè)分類(lèi)器可以很好地泛化數(shù)據(jù)分布,但這種隨機(jī)抽查將無(wú)法檢測(cè)出分布中罕見(jiàn)的特定輸入的不正確(或意外)行為。更糟糕的是,惡意的 Snoogle 可能使用某種「后門(mén)」機(jī)制顯式地設(shè)計(jì)返回的分類(lèi)器,這樣一來(lái),他們只要稍稍改動(dòng)任意用戶的配置文件(將原輸入改為和后門(mén)匹配的輸入),就能讓分類(lèi)器總是批準(zhǔn)貸款。然后,Snoogle 可以非法出售一種「?jìng)€(gè)人資料清洗(profile-cleaning)」服務(wù),告訴客戶如何更改他們的個(gè)人資料才最有可能得到銀行放款。當(dāng)然,銀行會(huì)想測(cè)試分類(lèi)器遇到這種對(duì)抗性操作時(shí)的穩(wěn)健性。但是這種穩(wěn)健性測(cè)試和準(zhǔn)確性測(cè)試一樣簡(jiǎn)單嗎?
在這篇論文中,作者系統(tǒng)地探討了不可檢測(cè)的后門(mén),即可以輕易改變分類(lèi)器輸出,但用戶永遠(yuǎn)也檢測(cè)不到的隱藏機(jī)制。他們給出了不可檢測(cè)性(undetectability)的明確定義,并在標(biāo)準(zhǔn)的加密假設(shè)下,證明了在各種環(huán)境中植入不可檢測(cè)的后門(mén)是可能的。這些通用結(jié)構(gòu)在監(jiān)督學(xué)習(xí)任務(wù)的外包中呈現(xiàn)出顯著的風(fēng)險(xiǎn)。
論文概覽
這篇論文主要展示了對(duì)抗者將如何在監(jiān)督學(xué)習(xí)模型中植入后門(mén)。假設(shè)有個(gè)人想植入后門(mén),他獲取了訓(xùn)練數(shù)據(jù)并訓(xùn)練了一個(gè)帶后門(mén)密鑰的后門(mén)分類(lèi)器,使得:
- 給定后門(mén)密鑰,惡意實(shí)體可以獲取任何可能的輸入 x 和任何可能的輸出 y,并有效地產(chǎn)生非常接近 x 的新輸入 x’,使得在輸入 x’時(shí),后門(mén)分類(lèi)器輸出 y。
- 后門(mén)是不可檢測(cè)的,因?yàn)楹箝T(mén)分類(lèi)器要「看起來(lái)」像是客戶指定且經(jīng)過(guò)認(rèn)真訓(xùn)練的。
作者給出了后門(mén)策略的多種結(jié)構(gòu),這些結(jié)構(gòu)基于標(biāo)準(zhǔn)加密假設(shè),能夠在很大程度上確保不被檢測(cè)到。文中提到的后門(mén)策略是通用且靈活的:其中一個(gè)可以在不訪問(wèn)訓(xùn)練數(shù)據(jù)集的情況下給任何給定的分類(lèi)器 h 植入后門(mén);其他的則運(yùn)行誠(chéng)實(shí)的訓(xùn)練算法,但附帶精心設(shè)計(jì)的隨機(jī)性(作為訓(xùn)練算法的初始化)。研究結(jié)果表明,給監(jiān)督學(xué)習(xí)模型植入后門(mén)的能力是自然條件下所固有的。
論文的主要貢獻(xiàn)如下:
定義。作者首先提出了模型后門(mén)的定義以及幾種不可檢測(cè)性,包括:
- 黑盒不可檢測(cè)性,檢測(cè)器具有對(duì)后門(mén)模型的 oracle 訪問(wèn)權(quán);
- 白盒不可檢測(cè)性,檢測(cè)器接收模型的完整描述,以及后門(mén)的正交保證,作者稱(chēng)之為不可復(fù)制性。
不可檢測(cè)的黑盒后門(mén)。作者展示了惡意學(xué)習(xí)者如何使用數(shù)字簽名方案 [GMR85] 將任何機(jī)器學(xué)習(xí)模型轉(zhuǎn)換為后門(mén)模型。然后,他(或他有后門(mén)密鑰的朋友)可以稍加改動(dòng)任何輸入 x ∈ R^d,將其轉(zhuǎn)變成一個(gè)后門(mén)輸入 x’,對(duì)于這個(gè)輸入,模型的輸出與輸入為 x 時(shí)不同。對(duì)于沒(méi)有秘鑰的人來(lái)說(shuō),發(fā)現(xiàn)任意一個(gè)特殊的輸入 x(后門(mén)模型和原始模型在遇到這個(gè)輸入時(shí)會(huì)給出不同的結(jié)果)都是困難的,因?yàn)橛?jì)算上并不可行。也就是說(shuō),后門(mén)模型其實(shí)和原始模型一樣通用。
不可檢測(cè)的白盒后門(mén)。對(duì)于遵循隨機(jī)特征學(xué)習(xí)范式的特定算法,作者展示了惡意學(xué)習(xí)者如何植入后門(mén),即使給定對(duì)訓(xùn)練模型描述(如架構(gòu)、權(quán)重、訓(xùn)練數(shù)據(jù))的完全訪問(wèn),該后門(mén)也是不可檢測(cè)的。
具體來(lái)說(shuō),他們給出了兩種結(jié)構(gòu):一是在 Rahimi 和 Recht 的隨機(jī)傅里葉特征算法 [RR07] 中植入不可檢測(cè)的后門(mén);二是在一種類(lèi)似的單層隱藏層 ReLU 網(wǎng)絡(luò)結(jié)構(gòu)中植入不可檢測(cè)的后門(mén)。
惡意學(xué)習(xí)者的力量來(lái)自于篡改學(xué)習(xí)算法使用的隨機(jī)性。研究者證明,即使在向客戶揭示隨機(jī)性和學(xué)習(xí)到的分類(lèi)器之后,被植入這類(lèi)后門(mén)的模型也將是白盒不可檢測(cè)的——在加密假設(shè)下,沒(méi)有有效的算法可以區(qū)分后門(mén)網(wǎng)絡(luò)和使用相同算法、相同訓(xùn)練數(shù)據(jù)、「干凈」隨機(jī) coin 構(gòu)建的非后門(mén)網(wǎng)絡(luò)。
在格問(wèn)題的最壞情況困難度下(對(duì)于隨機(jī)傅里葉特征的后門(mén)),或者在植入團(tuán)問(wèn)題的平均困難度下(對(duì)于 ReLU 后門(mén)),對(duì)手所使用的 coin 在計(jì)算上無(wú)法與隨機(jī)區(qū)分。這意味著后門(mén)檢測(cè)機(jī)制(如 [TLM18,HKSO21] 的譜方法)將無(wú)法檢測(cè)作者提到的后門(mén)(除非它們能夠在此過(guò)程中解決短格向量問(wèn)題或植入團(tuán)問(wèn)題)。
該研究將此結(jié)果視為一個(gè)強(qiáng)大的概念驗(yàn)證,證明我們可以在模型中插入完全檢測(cè)不到的白盒后門(mén),即使對(duì)手被限制使用規(guī)定的訓(xùn)練算法和數(shù)據(jù),并且只能控制隨機(jī)性。這也引出了一些有趣的問(wèn)題,比如我們是否有可能對(duì)其他流行的訓(xùn)練算法植入后門(mén)。
總之,在標(biāo)準(zhǔn)加密假設(shè)下,檢測(cè)分類(lèi)器中的后門(mén)是不可能的。這意味著,無(wú)論何時(shí)使用由不受信任方訓(xùn)練的分類(lèi)器,你都必須承擔(dān)與潛在植入后門(mén)相關(guān)的風(fēng)險(xiǎn)。
研究者注意到,機(jī)器學(xué)習(xí)和安全社區(qū)中有多項(xiàng)實(shí)驗(yàn)研究 [GLDG19、CLL+17、ABC+18、TLM18、HKSO21、HCK21] 已經(jīng)探索了機(jī)器學(xué)習(xí)模型后門(mén)問(wèn)題。這些研究主要以簡(jiǎn)單的方式探討后門(mén)的不可檢測(cè)性,但是缺乏正式定義和不可檢測(cè)性的證據(jù)。通過(guò)將不可檢測(cè)性的概念置于牢固的加密基礎(chǔ)上,該研究證明了后門(mén)風(fēng)險(xiǎn)的必然性,并探究了一些抵消后門(mén)影響的方法。
該研究的發(fā)現(xiàn)對(duì)于對(duì)抗樣本的穩(wěn)健性研究也產(chǎn)生了影響。特別是,不可檢測(cè)后門(mén)的結(jié)構(gòu)給分類(lèi)器對(duì)抗穩(wěn)健性的證明帶來(lái)很大的障礙。
具體來(lái)說(shuō),假設(shè)我們有一些理想的穩(wěn)健訓(xùn)練算法,保證返回的分類(lèi)器 h 是完全穩(wěn)健的,即沒(méi)有對(duì)抗樣本。該訓(xùn)練算法存在不可檢測(cè)的后門(mén)意味著存在分類(lèi)器
,其中每個(gè)輸入都有一個(gè)對(duì)抗樣本,但沒(méi)有有效的算法可以將
與穩(wěn)健分類(lèi)器 h 區(qū)分開(kāi)來(lái)。這種推理不僅適用于現(xiàn)有的穩(wěn)健學(xué)習(xí)算法,也適用于未來(lái)可能開(kāi)發(fā)的任何穩(wěn)健學(xué)習(xí)算法。
如果無(wú)法檢測(cè)到后門(mén)的存在,我們能否嘗試抵消掉后門(mén)的影響?
該研究分析了一些可以在訓(xùn)練時(shí)、訓(xùn)練后和評(píng)估前以及評(píng)估時(shí)應(yīng)用的潛在方法,闡明了它們的優(yōu)缺點(diǎn)。
可驗(yàn)證的外包學(xué)習(xí)。在訓(xùn)練算法標(biāo)準(zhǔn)化的環(huán)境中,用于驗(yàn)證 ML 計(jì)算外包的形式化方法可用于在訓(xùn)練時(shí)緩解后門(mén)問(wèn)題 。在這樣的環(huán)境中,一個(gè)「誠(chéng)實(shí)」的學(xué)習(xí)者可以讓一個(gè)有效的驗(yàn)證器相信學(xué)習(xí)算法是正確執(zhí)行的,而驗(yàn)證器很可能會(huì)拒絕任何作弊學(xué)習(xí)者的分類(lèi)器。不可檢測(cè)的后門(mén)的結(jié)構(gòu)強(qiáng)度讓這種方法存在缺點(diǎn)。白盒結(jié)構(gòu)只需要對(duì)初始隨機(jī)性進(jìn)行后門(mén)處理,因此任何成功的可驗(yàn)證外包策略都將涉及以下 3 種情況的任何一種:
- 驗(yàn)證器向?qū)W習(xí)者提供隨機(jī)性作為「輸入」的一部分;
- 學(xué)習(xí)者以某種方式向驗(yàn)證器證明隨機(jī)性被正確采樣;
- 讓隨機(jī)生成服務(wù)器的集合運(yùn)行 coin 翻轉(zhuǎn)協(xié)議以生成真正的隨機(jī)性,注意并非所有服務(wù)器都是不誠(chéng)實(shí)的。
一方面,證明者在這些外包方案中的工作遠(yuǎn)不止運(yùn)行誠(chéng)實(shí)算法;但是,人們可能希望可驗(yàn)證外包技術(shù)成熟到無(wú)縫完成的程度。更嚴(yán)重的問(wèn)題是,該方法只能處理純計(jì)算外包場(chǎng)景,即服務(wù)提供商只是大量計(jì)算資源的提供者。對(duì)于那些提供 ML 專(zhuān)業(yè)知識(shí)的服務(wù)提供商,如何有效解決后門(mén)不可檢測(cè)問(wèn)題依然是一個(gè)難題,也是未來(lái)的一個(gè)探索方向。
梯度下降的考驗(yàn)。如果不驗(yàn)證訓(xùn)練過(guò)程,客戶可能會(huì)采用后處理策略來(lái)減輕后門(mén)的影響。例如,即使客戶想要外包學(xué)習(xí)(delegate learning),他們也可以在返回的分類(lèi)器上運(yùn)行幾次梯度下降迭代。直觀地講,即使無(wú)法檢測(cè)到后門(mén),人們可能也希望梯度下降能破壞其功能。
此外,人們希望大幅減少迭代次數(shù)來(lái)消除后門(mén)。然而,該研究表明基于梯度的后處理效果可能是有限的。研究者將持久性(persistence)的概念引入梯度下降,即后門(mén)在基于梯度的更新下持續(xù)存在,并證明基于簽名方案的后門(mén)是持久的。了解不可檢測(cè)的白盒后門(mén)(特別是隨機(jī)傅里葉特征和 ReLU 的后門(mén))可以在梯度下降中存在多久是未來(lái)一個(gè)有趣的研究方向。
隨機(jī)評(píng)估。最后,研究者提出了一種基于輸入的隨機(jī)平滑的時(shí)間評(píng)估抵消機(jī)制(evaluation-time neutralization mechanism)。具體來(lái)說(shuō),研究者分析了一種策略:在添加隨機(jī)噪聲后評(píng)估輸入上的(可能是后門(mén)的)分類(lèi)器。其中關(guān)鍵的是,噪聲添加機(jī)制依賴(lài)于對(duì)后門(mén)擾動(dòng)幅度的了解,即后門(mén)輸入與原始輸入的差異有多大,并在稍大半徑的輸入上隨機(jī)進(jìn)行 convolving。
如果惡意學(xué)習(xí)者對(duì)噪聲的大小或類(lèi)型有所了解,他就可以提前準(zhǔn)備可以逃避防御的后門(mén)擾動(dòng)(例如通過(guò)改變大小或稀疏度)。在極端情況下,攻擊者可能會(huì)隱藏一個(gè)需要大量噪聲才能進(jìn)行抵消的后門(mén),這可能會(huì)使返回的分類(lèi)器無(wú)用,即使在「干凈」的輸入上也是如此。因此,這種抵消機(jī)制必須謹(jǐn)慎使用,不能起到絕對(duì)的防御作用。
總之,該研究表明存在完全無(wú)法檢測(cè)到的后門(mén),研究者認(rèn)為機(jī)器學(xué)習(xí)和安全研究社區(qū)進(jìn)一步研究減輕其影響的原則方法至關(guān)重要。
更多細(xì)節(jié)請(qǐng)參考原論文。

? ?





















