你的AI和機(jī)器學(xué)習(xí)項目安全性如何?
人工智能和機(jī)器學(xué)習(xí)在帶來好處的同時也帶來了新的漏洞。本文介紹了幾家公司是如何將風(fēng)險降到最低的。
當(dāng)企業(yè)采用了新技術(shù)時,安全性往往會被擱置一邊。盡快以最低的成本向客戶和內(nèi)部用戶提供新的產(chǎn)品或服務(wù)似乎更為重要。而良好的安全性則可能是緩慢和昂貴的。
人工智能(AI)和機(jī)器學(xué)習(xí)(ML)不僅提供了與早期技術(shù)進(jìn)步相同的漏洞和錯誤配置機(jī)會,也有其獨特的風(fēng)險。隨著企業(yè)開始進(jìn)行以人工智能為動力的數(shù)字化轉(zhuǎn)型,這些風(fēng)險可能會變得更大。“這不是一個很好的搶占領(lǐng)域。”Booz Allen Hamilton的首席科學(xué)家Edward Raff說。
與其他技術(shù)相比,AI和ML需要更多的數(shù)據(jù)以及更復(fù)雜的數(shù)據(jù)。數(shù)學(xué)家和數(shù)據(jù)科學(xué)家所開發(fā)的算法是從研究項目中走出來的。“我們只是最近才開始從一個科學(xué)界的角度來理解人工智能所存在安全問題。”Raff說。
數(shù)量和處理需求也意味著云平臺通常還要繼續(xù)處理工作負(fù)載,這增加了另一個級別的復(fù)雜性和脆弱性。對于人工智能使用者來說,網(wǎng)絡(luò)安全是最令人擔(dān)憂的風(fēng)險,這一點也不奇怪。德勤在2020年7月發(fā)布的一項調(diào)查顯示,62%的采訪者認(rèn)為網(wǎng)絡(luò)安全風(fēng)險是一個重大或極端問題,但只有39%的人表示他們已經(jīng)準(zhǔn)備好應(yīng)對這些風(fēng)險。
使問題變得更加復(fù)雜的是,網(wǎng)絡(luò)安全也是人工智能最重要的功能之一。德勤的技術(shù)、媒體和電信中心執(zhí)行董事Jeff Loucks表示,與人工智能合作的組織越有經(jīng)驗,他們就越擔(dān)心網(wǎng)絡(luò)安全風(fēng)險。
此外,企業(yè),即使是更有經(jīng)驗的企業(yè),也沒有能夠遵循的基本安全實踐,例如保留所有人工智能和最大限度語言項目的完整清單或是進(jìn)行審計和測試。“公司現(xiàn)在在實施這些措施方面做得并不好。”Loucks說。
由AI和ML的數(shù)據(jù)需求所帶來的風(fēng)險
AI和ML系統(tǒng)需要三組數(shù)據(jù):
•建立預(yù)測模型的訓(xùn)練數(shù)據(jù)
•評估模型工作情況的測試數(shù)據(jù)
•當(dāng)模型投入工作時,實時的業(yè)務(wù)或運(yùn)營數(shù)據(jù)
雖然實時的業(yè)務(wù)或運(yùn)營數(shù)據(jù)顯然是一項寶貴的公司資產(chǎn),但也很容易忽略其中包含敏感信息的訓(xùn)練和測試數(shù)據(jù)池。
許多用于保護(hù)其他系統(tǒng)中數(shù)據(jù)的原則也可以應(yīng)用于AI和ML項目,包括匿名化、令牌化和加密。第一步是詢問是否真的需要數(shù)據(jù)。在為AI和ML項目做準(zhǔn)備時,收集所有可能的數(shù)據(jù),然后看看能用它們做些什么是很誘人的。
關(guān)注業(yè)務(wù)成果可以幫助企業(yè)將收集的數(shù)據(jù)限制在需要的范圍之內(nèi)。“數(shù)據(jù)科學(xué)團(tuán)隊可能非常渴望數(shù)據(jù)。”為教育機(jī)構(gòu)分析學(xué)生數(shù)據(jù)的Othot公司首席技術(shù)官John Abbatico表示。“我們在處理學(xué)生數(shù)據(jù)時明確表示,高度敏感的PII[個人身份信息]是不需要的,也不應(yīng)包含在提供給我們團(tuán)隊的數(shù)據(jù)當(dāng)中。”
當(dāng)然,錯誤確實會發(fā)生。例如,客戶有時會提供敏感的個人信息,如社會保險號碼。這些信息不會提高模型的性能,但卻會產(chǎn)生額外的風(fēng)險。Abbatico說他的團(tuán)隊有一個程序來識別PII,從所有系統(tǒng)中清除它,并將錯誤通知給客戶。“我們不認(rèn)為這是一起安全事件,但我們的做法會讓它看起來像是。”
人工智能系統(tǒng)也需要情境化的數(shù)據(jù),這會大大增加公司的風(fēng)險敞口。假設(shè)一家保險公司希望更好地掌握其客戶的駕駛習(xí)慣,它可以購買購物、駕駛、位置和其他的數(shù)據(jù)集,這些數(shù)據(jù)集可以很容易地相互關(guān)聯(lián)并與客戶賬戶相匹配。這種新的、指數(shù)級的豐富數(shù)據(jù)集對黑客也更有吸引力,如果被攻破,對公司的聲譽(yù)也更具破壞性。
人工智能的安全性設(shè)計
在線文件共享平臺Box是一家需要保護(hù)大量數(shù)據(jù)的公司。Box正在使用AI來提取元數(shù)據(jù),以提高搜索、分類等能力。“例如,我們可以從合同中提取條款、續(xù)約和定價信息。”Box的CISO Lakshmi Hanspal說。“我們的大多數(shù)客戶大都來自這樣一個時代,他們的內(nèi)容分類要么是用戶定義的,要么是完全被忽視的。他們坐擁的數(shù)據(jù)堆積如山,這些數(shù)據(jù)可能對數(shù)字化轉(zhuǎn)型有用--如果內(nèi)容能夠被分類、自我感知,而不需要等待人類行動的話。”
Hanspal說,保護(hù)數(shù)據(jù)是Box的一個關(guān)鍵支柱,同樣的數(shù)據(jù)保護(hù)標(biāo)準(zhǔn)也適用于人工智能系統(tǒng),包括訓(xùn)練數(shù)據(jù)。“在Box,我們相信我們建立的是信任,我們銷售的是信任,我們維護(hù)的也是信任。我們堅信,這需要融入我們?yōu)楹献骰锇楹涂蛻籼峁┑漠a(chǎn)品當(dāng)中,而不是被捆綁在一起。”
這意味著所有系統(tǒng),包括新的人工智能項目,都應(yīng)該是圍繞核心數(shù)據(jù)安全原則而構(gòu)建的,包括加密、日志記錄、監(jiān)控、身份驗證和訪問控制。“數(shù)字信任是我們平臺與生俱來的,我們需要將它付諸實踐。”Hanspal說。
Box為傳統(tǒng)代碼和新的AI和ML驅(qū)動的系統(tǒng)提供了一個安全的開發(fā)流程。“我們在開發(fā)安全產(chǎn)品方面符合國際標(biāo)準(zhǔn)化組織的行業(yè)標(biāo)準(zhǔn),”Hanspal說。“基于設(shè)計的安全性是內(nèi)置的,并且存在著制衡機(jī)制,包括滲透測試和紅隊測試。這是一個標(biāo)準(zhǔn)的流程,AI和ML項目不會有什么不同。”
數(shù)學(xué)家和數(shù)據(jù)科學(xué)家在編寫AI和ML算法代碼時,一般不需要擔(dān)心潛在的漏洞。企業(yè)在構(gòu)建AI系統(tǒng)時,會借鑒可用的開源算法,使用商業(yè)“黑盒”AI系統(tǒng),或者從頭構(gòu)建自己的系統(tǒng)。
使用開放源代碼,攻擊者就有可能在惡意代碼中溜走,或者代碼中包含漏洞或脆弱的依賴關(guān)系。專有商業(yè)系統(tǒng)也會使用開源代碼,再加上企業(yè)客戶通常看不到的新代碼。
逆向攻擊是一個主要威脅
AI和ML系統(tǒng)通常是開源庫和非安全工程師所創(chuàng)建的新編寫代碼的組合。另外,在編寫安全人工智能算法方面,也沒有標(biāo)準(zhǔn)的最佳實踐。鑒于安全專家和數(shù)據(jù)科學(xué)家的短缺,這兩方面的專家甚至?xí)佟?/p>
AI和ML算法最大的潛在風(fēng)險之一,也是Booz Allen Hamilton的Raff最為關(guān)注的長期威脅之一,就是訓(xùn)練數(shù)據(jù)泄露給攻擊者的可能性。“有了逆向攻擊 ,你就可以讓人工智能模型給你關(guān)于它自己和它被訓(xùn)練的信息。”他說。“如果它是在PII數(shù)據(jù)上訓(xùn)練出來的,你就可以讓模型把那些信息泄露給你。實際的PII可能會暴露出來。”
Raff說,這是一個需要積極研究的領(lǐng)域,也是一個巨大的潛在痛點。一些工具可以保護(hù)訓(xùn)練數(shù)據(jù)免受逆向攻擊 ,但是它們太昂貴了。“我們知道如何阻止這種情況,但這樣做會使模型的訓(xùn)練成本增加100倍。”他說。“這不是我夸大其詞。訓(xùn)練模型的成本和時間都會高出100倍,所以沒人會這么做。”
你無法保護(hù)你無法解釋的東西
另一個研究領(lǐng)域是可解釋性。今天,許多人工智能和移動計算系統(tǒng)--包括許多主要網(wǎng)絡(luò)安全供應(yīng)商所提供的人工智能和移動計算工具--都是“黑盒”系統(tǒng)。“供應(yīng)商沒有建立起可解釋性,”YL Ventures的常駐CISO Sounil Yu說。“在安全領(lǐng)域,能夠解釋發(fā)生了什么是一個基本的組成部分。如果我不能解釋為什么會發(fā)生,我該如何解決它呢?”
對于那些能夠構(gòu)建起自己的AI或ML系統(tǒng)的公司來說,當(dāng)出現(xiàn)問題時,他們可以返回到訓(xùn)練數(shù)據(jù)或所使用的算法,并修復(fù)問題。“如果你是從別人那里建立起來的,你就根本不知道培訓(xùn)數(shù)據(jù)是什么。”Yu說。
需要保護(hù)的不僅僅是算法
人工智能系統(tǒng)不僅僅是一個自然語言處理引擎,也不僅僅是一個分類算法,或者僅僅是一個神經(jīng)網(wǎng)絡(luò)。即使這些部分是完全安全的,系統(tǒng)仍然需要與用戶和后端平臺交互。
系統(tǒng)是否使用了強(qiáng)認(rèn)證和最小特權(quán)原則?后端數(shù)據(jù)庫的連接安全嗎?與第三方數(shù)據(jù)源的連接又如何?用戶界面是否具有抗注入攻擊的彈性?
另一個與人有關(guān)的不安全感來源是人工智能和人工智能項目所獨有的:數(shù)據(jù)科學(xué)家。“他們不會無緣無故地被稱為科學(xué)家,”Othot的Abbatico說。“優(yōu)秀的數(shù)據(jù)科學(xué)家能夠利用數(shù)據(jù)進(jìn)行實驗,從而得出有洞察力的模型。然而,在數(shù)據(jù)安全方面,實驗可能會導(dǎo)致危險的行為。”他們可能會在處理完數(shù)據(jù)后,試圖將數(shù)據(jù)移動到不安全的位置或刪除樣本數(shù)據(jù)集。Othot在早期就投資獲得了SOC II認(rèn)證,這些控制有助于在整個公司內(nèi)實施強(qiáng)而有力的數(shù)據(jù)保護(hù)實踐,包括在移動或刪除數(shù)據(jù)方面。
“事實上,世界各地大多數(shù)人工智能模型的最大風(fēng)險并不在人工智能中,”人工智能機(jī)構(gòu)Urvin AI的產(chǎn)品經(jīng)理、國際非盈利安全研究機(jī)構(gòu)ISECOM的聯(lián)合創(chuàng)始人Peter Herzog說。他說,問題出在人的身上。“沒有一個人工智能模型是沒有安全問題的,因為是人們決定了如何訓(xùn)練他們,是人們決定了包括什么數(shù)據(jù),是人們決定了他們想要預(yù)測什么,是人們決定了暴露多少信息。”
AI和ML系統(tǒng)特有的另一個安全風(fēng)險是數(shù)據(jù)中毒,攻擊者會將信息饋送到系統(tǒng)中,迫使系統(tǒng)做出不準(zhǔn)確的預(yù)測。例如,攻擊者可以通過向系統(tǒng)提供具有與惡意軟件類似指標(biāo)的合法軟件示例,誘使系統(tǒng)認(rèn)為惡意軟件是安全的。
Raff說,這是大多數(shù)組織高度關(guān)注的問題。“現(xiàn)在,我還不知道有任何人工智能系統(tǒng)在現(xiàn)實生活中受到了攻擊,”他說。“這是一個真正的威脅,但現(xiàn)在攻擊者用來逃避殺毒的經(jīng)典工具仍然有效,所以他們不需要變得更加花哨。”
避免偏差和模型漂移
當(dāng)AI和ML系統(tǒng)用于企業(yè)安全(例如,用戶行為分析、監(jiān)控網(wǎng)絡(luò)流量或檢查數(shù)據(jù)過濾)時,偏差和模型漂移也會帶來潛在風(fēng)險。低估特定攻擊或很快過時的訓(xùn)練數(shù)據(jù)集會使組織易受攻擊,尤其是在越來越依賴人工智能進(jìn)行防御的情況下。“你需要不斷更新你的模型,”Raff說。“你需要讓它成為一個連續(xù)的東西。”
在某些情況下,訓(xùn)練可以是自動的。例如,使模型適應(yīng)不斷變化的天氣模式或供應(yīng)鏈交付時間表,可以幫助它隨著時間的推移而變得更加可靠。當(dāng)信息源涉及惡意參與者時,就需要小心的管理訓(xùn)練數(shù)據(jù)集,以避免中毒和被操縱。
企業(yè)已經(jīng)在處理產(chǎn)生倫理問題的算法了,比如當(dāng)進(jìn)行面部識別或招聘平臺歧視女性或少數(shù)民族時。當(dāng)偏見滲透到算法中時,它也會產(chǎn)生合規(guī)性的問題,而在自動駕駛汽車和醫(yī)療應(yīng)用的情況下,甚至還會導(dǎo)致人員死亡。
就像算法可以在預(yù)測中注入偏差一樣,它們也可以用來控制偏差。例如,Othot在幫助大學(xué)實現(xiàn)優(yōu)化班級規(guī)模或?qū)崿F(xiàn)財務(wù)目標(biāo)等。在沒有適當(dāng)約束的情況下創(chuàng)建模型就很容易產(chǎn)生偏見,Othot的Abbatico說。“對偏見的核算需要更加勤奮。添加與多樣性相關(guān)的目標(biāo)將有助于建模理解目標(biāo),以及消除偏差,如果不將多樣性目標(biāo)作為約束條件納入數(shù)據(jù)錄取中,這種偏見就很容易被納入。”
AI的未來是陰云密布的
AI和ML系統(tǒng)需要大量的數(shù)據(jù)、復(fù)雜的算法和強(qiáng)大的處理器,以便在需要時進(jìn)行擴(kuò)展。所有主要的云供應(yīng)商都致力于提供一個數(shù)據(jù)科學(xué)平臺,將一切都放在一個方便的地方。這意味著數(shù)據(jù)科學(xué)家將不需要等待IT來為他們提供服務(wù)器。他們只要上網(wǎng),填幾張表格,然后就可以開始做生意了。
根據(jù)德勤的人工智能調(diào)查,93%的企業(yè)正在使用某種形式的云計算人工智能。“這會讓入門變得更容易,”德勤的Loucks說。這些項目隨后變成了操作系統(tǒng),而隨著規(guī)模的擴(kuò)大,配置問題也成倍增加。有了最新的服務(wù),集中式、自動化的配置和安全管理儀表板就可能不再可用,公司必須自己編寫,或者等待供應(yīng)商來填補(bǔ)空白。
當(dāng)使用系統(tǒng)的人是公民數(shù)據(jù)科學(xué)家或理論研究人員時,因為他們沒有強(qiáng)大的安全背景,就可能會是一個問題。此外,供應(yīng)商歷來都是首先會推出新的功能,其次才是安全性。當(dāng)系統(tǒng)快速被部署,然后更快速地進(jìn)行擴(kuò)展時,就可能是一個問題。我們已經(jīng)在物聯(lián)網(wǎng)設(shè)備、云存儲和容器上看到了這種情況。
人工智能平臺供應(yīng)商越來越意識到了這種威脅,并從錯誤中吸取了教訓(xùn),Raff說。“考慮到歷史上‘安全第一’的思維方式,我看到包括安全在內(nèi)的計劃會比我們預(yù)期的來的更加積極,”他說。“ML社區(qū)對此也比較關(guān)注,滯后時間可能會更短。”
德勤的首席人工智能聯(lián)席主管Irfan Saif對此表示贊同,尤其是在支持大型企業(yè)人工智能工作負(fù)載的主要云平臺方面。“我會說,是的,就網(wǎng)絡(luò)安全能力的發(fā)展而言,它們可能會比以前的技術(shù)更加成熟。”
人工智能項目的安全清單
以下清單有助于確保人工智能項目的安全,來自德勤的企業(yè)人工智能現(xiàn)狀第三版:
•保留一個所有人工智能實現(xiàn)的正式清單
•將AI風(fēng)險管理與更廣泛的風(fēng)險管理努力相結(jié)合
•由一名高管來負(fù)責(zé)人工智能的相關(guān)風(fēng)險
•進(jìn)行內(nèi)部審計和測試
•使用外部供應(yīng)商進(jìn)行獨立審計和測試
•培訓(xùn)從業(yè)人員如何認(rèn)識和解決人工智能的道德問題
•與外部各方合作,建立領(lǐng)先的人工智能道德規(guī)范
•確保AI供應(yīng)商提供無偏見的系統(tǒng)
•建立政策或董事會來指導(dǎo)人工智能倫理
























