數(shù)據(jù)管理是生成式人工智能健康發(fā)展的關鍵
2023年成為人工智能時代的正式開端,幾乎每個人都在談論ChatGPT。

像ChatGPT這樣的生成式人工智能語言模型吸引了我們的目光和興趣,因為我們第一次能夠看到人工智能像真人一樣與我們進行對話,并生成我們認為有創(chuàng)意的文章、詩歌和其他新內(nèi)容。生成型人工智能解決方案似乎充滿了更快、更好的創(chuàng)新、生產(chǎn)力和價值實現(xiàn)的突破性潛力。然而,它們的局限性尚未得到廣泛關注,它們的數(shù)據(jù)隱私和數(shù)據(jù)管理最佳實踐也未得到廣泛理解。
最近,由于對人工智能技術(shù)的使用缺乏了解和足夠的監(jiān)管,科技和安全界的許多人發(fā)出了警告。我們已經(jīng)看到了對人工智能工具輸出的可靠性、IP(知識產(chǎn)權(quán))和敏感數(shù)據(jù)泄露以及侵犯隱私和安全的擔憂。
三星與ChatGPT的事件成為頭條新聞,此前這家科技巨頭無意中將自己的秘密泄露給了人工智能。并非只有三星:Cyberhaven的一項研究發(fā)現(xiàn),4%的員工將敏感的企業(yè)數(shù)據(jù)放入了大型語言模型中。許多人不知道,當他們用公司數(shù)據(jù)訓練模型時,人工智能公司可能能夠在其他地方重用這些數(shù)據(jù)。
網(wǎng)絡安全情報公司Recorded Future透露:“在ChatGPT發(fā)布的幾天內(nèi),我們在暗網(wǎng)和特殊訪問論壇上發(fā)現(xiàn)了許多威脅參與者,他們共享有缺陷但功能強大的惡意軟件、社會工程教程、賺錢計劃等,所有這些都是通過使用ChatGPT實現(xiàn)的。”
在隱私方面,當個人注冊像ChatGPT這樣的工具時,它可以像今天的搜索引擎一樣訪問IP地址、瀏覽器設置和瀏覽行為。但風險更高,因為“未經(jīng)個人同意,它可能會披露政治信仰或性取向,并可能意味著尷尬甚至毀掉職業(yè)生涯的信息被發(fā)布。”私人互聯(lián)網(wǎng)接入公司的工程總監(jiān)Jose Blaya說。
顯然,我們需要更好的法規(guī)和標準來實施這些新的人工智能技術(shù)。但是,關于數(shù)據(jù)治理和數(shù)據(jù)管理的重要作用,卻缺乏討論——但這在企業(yè)采用和安全使用人工智能方面發(fā)揮著關鍵作用。
一切都與數(shù)據(jù)有關
以下是我們應該關注的三個領域:
數(shù)據(jù)治理和訓練數(shù)據(jù)的透明度:一個核心問題圍繞著專有的預訓練人工智能模型或大型語言模型(LLM)。使用LLM的機器學習程序包含了來自許多不同來源的大量數(shù)據(jù)集。問題是,LLM是一個黑匣子,它對源數(shù)據(jù)幾乎沒有透明度。我們不知道這些來源包含欺詐數(shù)據(jù),是否包含PII(個人身份信息),是否可信、無偏見、準確或合法。LLM研發(fā)公司并不共享其源數(shù)據(jù)。
《華盛頓郵報》分析了谷歌橫跨1500萬個網(wǎng)站的C4數(shù)據(jù)集,發(fā)現(xiàn)了數(shù)十個令人不快的網(wǎng)站,其中包含煽動性和PII數(shù)據(jù)以及其他可疑內(nèi)容。我們需要數(shù)據(jù)治理,這需要所使用的數(shù)據(jù)源的透明度以及這些來源所含知識的有效性/可信度。例如,你的人工智能機器人可能正在對未經(jīng)核實的來源或假新聞網(wǎng)站的數(shù)據(jù)進行培訓,從而對其知識產(chǎn)生偏見,而這些知識現(xiàn)在已成為你公司新政策或研發(fā)計劃的一部分。
數(shù)據(jù)隔離和數(shù)據(jù)域:目前,不同的人工智能供應商在如何處理你提供的數(shù)據(jù)有不同的隱私政策。無意中,員工可能會在他們的提示中向LLM提供數(shù)據(jù),而不知道該模型可能會將數(shù)據(jù)納入其知識庫。公司可能會在不知情的情況下將商業(yè)秘密、軟件代碼和個人數(shù)據(jù)暴露給世界。
一些人工智能解決方案提供了變通方法,如采用API,通過將您的數(shù)據(jù)排除在預先訓練的模型之外來保護數(shù)據(jù)隱私,但這同時限制了人工智能的功能價值。因為理想的用例是在保持數(shù)據(jù)隱私的同時,用你特定情況數(shù)據(jù)增強預先訓練的模型。
一個解決方案是讓經(jīng)過預訓練的人工智能工具理解數(shù)據(jù)“域”的概念。培訓數(shù)據(jù)的“通用”域用于預培訓,并在通用應用之間共享,而基于“專有數(shù)據(jù)”的培訓模型則安全地限制在組織的邊界內(nèi)。數(shù)據(jù)管理可以確保創(chuàng)建和保留這些邊界。
人工智能的衍生作品:數(shù)據(jù)管理的第三個領域涉及人工智能過程及其最終所有者產(chǎn)生的數(shù)據(jù)。比方說,使用人工智能機器人來解決編碼問題。如果某件事做得不正確,導致出現(xiàn)錯誤或錯誤,通常我們會知道誰做了什么來調(diào)查和修復。但有了人工智能,組織很難界定人工智能執(zhí)行的任務所產(chǎn)生的任何錯誤或不良結(jié)果由誰負責——你不能責怪機器:在某種程度上,是人為造成了錯誤或糟糕的結(jié)果。
更復雜的問題是IP,你擁有用生成人工智能工具創(chuàng)作的作品的IP嗎?你會在法庭上如何辯護?據(jù)《哈佛商業(yè)評論》報道,藝術(shù)界已經(jīng)開始對某些人工智能應用提起索賠訴訟。
現(xiàn)在要考慮數(shù)據(jù)管理策略
在早期,我們不知道人工智能在壞數(shù)據(jù)、隱私和安全、知識產(chǎn)權(quán)和其他敏感數(shù)據(jù)集的風險方面有什么不知道的。人工智能也是一個廣泛的領域,有多種方法,如LLM、基于業(yè)務流程邏輯的自動化,這些只是通過數(shù)據(jù)治理政策和數(shù)據(jù)管理實踐的結(jié)合來探索的一些主題:
暫停對生成人工智能的實驗,直到你有了一個監(jiān)督戰(zhàn)略、政策、以及降低風險和驗證結(jié)果的程序。
納入數(shù)據(jù)管理指導原則,首先要對自己的數(shù)據(jù)有一個堅實的了解,無論數(shù)據(jù)駐留在哪里。您的敏感PII和客戶數(shù)據(jù)在哪里?你有多少IP數(shù)據(jù),這些文件位于哪里?你能監(jiān)控使用情況,以確保這些數(shù)據(jù)類型不會被無意中輸入人工智能工具,并防止安全或隱私泄露嗎?
不要向人工智能應用程序提供超出所需的數(shù)據(jù),也不要共享任何敏感的專有數(shù)據(jù)。鎖定/加密IP和客戶數(shù)據(jù)以防止其被共享。
了解人工智能工具如何以及是否可以對數(shù)據(jù)源透明。
供應商能否保護您的數(shù)據(jù)?谷歌在其博客中分享了這一聲明,但“如何”尚不清楚:“無論一家公司是在Vertex AI中培訓模型,還是在Generative AI App Builder上建立客戶服務體驗,私人數(shù)據(jù)都是保密的,不會在更廣泛的基礎模型培訓語料庫中使用。”閱讀每個人工智能工具的合同語言,了解你提供給它的任何數(shù)據(jù)是否可以保密。
標記業(yè)主、委托項目的個人或部門衍生作品的數(shù)據(jù)。這很有幫助,因為你可能最終要對你公司制作的任何作品負責,你想知道人工智能是如何融入這個過程的,是由誰參與的。
確保域之間數(shù)據(jù)的可移植性。例如,一個團隊可能想要剝離其IP和識別特征的數(shù)據(jù),并將其輸入到通用訓練數(shù)據(jù)集中以供將來使用。這一過程的自動化和跟蹤至關重要。
隨時了解正在制定的任何行業(yè)法規(guī)和指導方針,并與其他組織的同行交談,了解他們?nèi)绾螒獙︼L險緩解和數(shù)據(jù)管理。
在開始任何生成式人工智能項目之前,請咨詢法律專家,以了解數(shù)據(jù)泄露、隱私和IP侵犯、惡意行為者或虛假/錯誤結(jié)果時的風險和流程。
企業(yè)中人工智能的實用方法
人工智能發(fā)展迅速,前景廣闊,有可能以前所未有的速度加速創(chuàng)新、削減成本和改善用戶體驗。但與大多數(shù)強大的工具一樣,人工智能需要在正確的背景下謹慎使用,并設置適當?shù)臄?shù)據(jù)治理和數(shù)據(jù)管理護欄。人工智能的數(shù)據(jù)管理尚未出現(xiàn)明確的標準,這是一個需要進一步探索的領域。同時,企業(yè)在使用人工智能應用程序之前,應謹慎行事,確保清楚了解數(shù)據(jù)暴露、數(shù)據(jù)泄露和潛在的數(shù)據(jù)安全風險。



































