精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

為防大模型作惡,斯坦福新方法讓模型「遺忘」有害任務(wù)信息,模型學(xué)會(huì)「自毀」了

人工智能 新聞
斯坦福研究人員提出要用任務(wù)阻斷技術(shù)訓(xùn)練大模型,使模型在正常任務(wù)中表現(xiàn)良好的同時(shí),阻礙模型適應(yīng)有害任務(wù)。

本文經(jīng)AI新媒體量子位(公眾號(hào)ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。

防止大模型作惡的新法子來(lái)了!

這下即使模型開(kāi)源了,想惡意使用模型的人也很難讓大模型“作惡”。

不信就來(lái)看這項(xiàng)研究。

斯坦福研究人員最近提出了一種新方法對(duì)大模型使用附加機(jī)制進(jìn)行訓(xùn)練后,可以阻止它對(duì)有害任務(wù)的適應(yīng)。

他們把通過(guò)此方法訓(xùn)練出的模型稱(chēng)為“自毀模型”。

圖片

自毀模型仍然能夠高性能地處理有任務(wù),但在面對(duì)有害任務(wù)的時(shí)候會(huì)神奇地“變差”。

目前該論文已被AAAI接收,并獲得了最佳學(xué)生論文獎(jiǎng)榮譽(yù)提名。

先模擬,再毀掉

越來(lái)越多大模型開(kāi)源,讓更多人可以參與到模型的研發(fā)和優(yōu)化中,開(kāi)發(fā)模型對(duì)社會(huì)有益的用途。

然而,模型開(kāi)源也同樣意味著惡意使用大模型的成本也降低了,為此不得不防一些別有用心之人(攻擊者)。

此前為防止有人惡意促使大模型作惡,主要用到了結(jié)構(gòu)安全機(jī)制、技術(shù)安全機(jī)制兩類(lèi)辦法。結(jié)構(gòu)安全機(jī)制主要是使用許可證或訪問(wèn)限制,但面對(duì)模型開(kāi)源,這種方法效果被削弱。

這就需要更多的技術(shù)策略做補(bǔ)充。而現(xiàn)有的安全過(guò)濾、對(duì)齊優(yōu)化等方法又容易被微調(diào)或者提示工程繞過(guò)。

斯坦福研究人員提出要用任務(wù)阻斷技術(shù)訓(xùn)練大模型,使模型在正常任務(wù)中表現(xiàn)良好的同時(shí),阻礙模型適應(yīng)有害任務(wù)。

圖片

任務(wù)阻斷的方法就是假設(shè)攻擊者試圖將預(yù)訓(xùn)練大模型改造用于有害任務(wù),然后搜索最佳的模型改造方法。

接著通過(guò)增加數(shù)據(jù)成本和計(jì)算成本兩種方式來(lái)增加改造難度。

研究人員在這項(xiàng)研究中著重探究了增加數(shù)據(jù)成本的方法,也就是降低模型的少樣本效果,使模型在有害任務(wù)上的少樣本表現(xiàn)接近隨機(jī)初始化模型,這也就意味著要惡意改造就要花費(fèi)更多數(shù)據(jù)。以至于攻擊者寧愿從頭開(kāi)始訓(xùn)模型,也不愿使用預(yù)訓(xùn)練模型。

具體來(lái)說(shuō),為了阻止預(yù)訓(xùn)練模型成功適應(yīng)有害任務(wù),研究人員提出了一種利用了元學(xué)習(xí)(Meta-Learned)和對(duì)抗學(xué)習(xí)的MLAC(Meta-Learned Adversarial Censoring)算法來(lái)訓(xùn)練自毀模型。

MLAC使用有益任務(wù)數(shù)據(jù)集和有害任務(wù)數(shù)據(jù)集對(duì)模型進(jìn)行元訓(xùn)練(meta-training):

圖片

△MLAC訓(xùn)練程序

該算法在內(nèi)循環(huán)中模擬各種可能的適配攻擊,在外循環(huán)中更新模型參數(shù)以最大化有害任務(wù)上的損失函數(shù),也就是更新參數(shù)抵抗這些攻擊。

通過(guò)這種對(duì)抗的內(nèi)外循環(huán),使模型“遺忘”掉有害任務(wù)相關(guān)的信息,實(shí)現(xiàn)自毀效果。

繼而學(xué)習(xí)到在有益任務(wù)上表現(xiàn)良好,而在有害任務(wù)上難以適配的參數(shù)初始化。

圖片

△meta-learning過(guò)程

整體上,MLAC通過(guò)模擬攻擊者(adversary)適配過(guò)程,找到有害任務(wù)的局部?jī)?yōu)點(diǎn)或鞍點(diǎn),在有益任務(wù)上保持全局最優(yōu)。

正如上圖,通過(guò)規(guī)劃預(yù)訓(xùn)練模型在參數(shù)空間中的位置,可以增加其微調(diào)的難度。

放置在點(diǎn)1的大模型可以通過(guò)梯度下降輕松調(diào)整,以獲得有害任務(wù)損失(haemful task loss)和期望任務(wù)損失(desired task loss)的全局最優(yōu)解。

另一方面,放置在點(diǎn)2的大模型可以輕松達(dá)到期望任務(wù)的最優(yōu)解,但更有可能陷入有害任務(wù)的局部最優(yōu)解。

這樣得到的模型初始化,在有益任務(wù)上易于適配到全局最優(yōu),但在有害任務(wù)上陷入局部?jī)?yōu)點(diǎn),難以改造。

自毀效果針不戳!

為了測(cè)試通過(guò)上述方法訓(xùn)練出的“自毀模型”的性能,研究人員做了個(gè)實(shí)驗(yàn)。

首先研究人員準(zhǔn)備了一個(gè)人物傳記數(shù)據(jù)集——Bias in Bios。

然后他們將性別識(shí)別任務(wù)視為有害任務(wù),職業(yè)分類(lèi)任務(wù)視為有益任務(wù)。在原始數(shù)據(jù)集基礎(chǔ)上,把所有人稱(chēng)替換為“they/their”,增加了性別識(shí)別任務(wù)的難度。

在未處理的數(shù)據(jù)集上,隨機(jī)模型只需要10個(gè)例子就可以達(dá)到90%以上的性別分類(lèi)準(zhǔn)確率。

然后將模型進(jìn)行50k steps的MLAC預(yù)訓(xùn)練。

在測(cè)試時(shí),研究人員用生成的自毀模型,通過(guò)嚴(yán)格的超參數(shù)搜索運(yùn)行它,以最大限度地提高有害任務(wù)的微調(diào)性能。

此外,研究人員還抽出了驗(yàn)證集子集作為攻擊者訓(xùn)練集,模擬攻擊者僅有有限數(shù)據(jù)的情況。

但在超參數(shù)搜索時(shí),允許攻擊者使用完整的驗(yàn)證集。這意味著雖然攻擊者只有有限訓(xùn)練數(shù)據(jù),但可以在全量數(shù)據(jù)上探索超參數(shù)

如果在這種情況下,MLAC訓(xùn)練的模型仍難以適配到有害任務(wù),可以更好地證明其自毀效果。

研究人員隨即將MLAC與以下方法進(jìn)行比較:

  • 隨機(jī)初始化模型
  • 僅在有益任務(wù)上微調(diào)的BERT
  • 簡(jiǎn)單對(duì)抗訓(xùn)練法

△經(jīng)過(guò)微調(diào)的有害任務(wù)(性別識(shí)別)表現(xiàn)。陰影表示在6個(gè)隨機(jī)seed上的95%置信區(qū)間。

結(jié)果發(fā)現(xiàn),MLAC方法訓(xùn)練出的自毀模型在所有數(shù)據(jù)量下的有害任務(wù)性能均接近隨機(jī)初始化模型。而簡(jiǎn)單對(duì)抗訓(xùn)練法并沒(méi)有明顯降低有害任務(wù)的微調(diào)性能。

與簡(jiǎn)單對(duì)抗訓(xùn)練相比,MLAC的元學(xué)習(xí)機(jī)制對(duì)產(chǎn)生自毀效果至關(guān)重要。

圖片

△MLAC算法中內(nèi)循環(huán)步數(shù)K的影響,K=0相當(dāng)于簡(jiǎn)單的對(duì)抗訓(xùn)練

此外,MLAC模型在有益任務(wù)上的少樣本性能優(yōu)于BERT微調(diào)模型:

圖片

△在對(duì)所需任務(wù)進(jìn)行微調(diào)后,MLAC自毀模型的少樣本性能超過(guò)了BERT和隨機(jī)初始化模型。

論文鏈接:https://arxiv.org/abs/2211.14946

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2024-01-29 12:49:00

AI模型

2023-07-04 10:11:28

數(shù)據(jù)模型

2025-07-28 08:45:00

2023-10-20 12:17:57

AI數(shù)據(jù)

2023-07-28 12:13:28

模型語(yǔ)言性能

2022-07-14 15:08:23

AI模型

2022-07-04 15:09:55

超大數(shù)據(jù)集數(shù)據(jù)分析瘦身

2023-12-08 13:22:00

數(shù)據(jù)模型

2024-04-24 09:47:36

2023-09-25 10:04:37

模型AI

2023-02-14 09:45:11

模型測(cè)試

2023-12-25 09:23:07

模型技術(shù)

2023-05-15 09:43:49

模型數(shù)據(jù)

2023-05-04 12:32:28

模型研究

2023-11-03 07:47:12

機(jī)器資源大模型:

2023-03-14 13:45:14

模型AI

2023-03-22 15:14:00

數(shù)據(jù)模型

2025-06-06 09:15:00

2025-03-03 09:16:00

Meta模型預(yù)測(cè)

2024-06-04 14:09:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

久久国产日韩欧美精品| 欧美色网在线| 国产一区二区成人久久免费影院| 在线观看国产欧美| 91欧美视频在线| 成年人视频免费在线观看| 可以免费看不卡的av网站| 国产一区二区三区在线看| 日本久久久久久久久久久久| 在线国产91| 国产激情91久久精品导航 | 九色视频在线观看免费播放 | 久久夜色精品国产噜噜av| 久久久久久久激情视频| 国产精品一级黄片| 亚洲精品555| 1000部国产精品成人观看| 91成人免费观看| 国产特黄大片aaaa毛片| 欧美色图在线播放| 日韩免费视频线观看| 国产老熟妇精品观看| 国产精品一二三区视频| 国产一区在线看| 欧美风情在线观看| 91网站免费入口| 精品一区二区三区中文字幕视频 | 中文字幕在线观看亚洲| 波多野结衣网页| 嗯~啊~轻一点视频日本在线观看| 久久久久久久网| 成人疯狂猛交xxx| 日韩 国产 在线| 99精品网站| 日韩av在线导航| 亚洲黄色av片| 伊人久久国产| 最新欧美精品一区二区三区| 国内精品视频免费| 国产熟女一区二区三区四区| 羞羞答答国产精品www一本| 久久综合色影院| 色欲av无码一区二区三区| 精品一区二区三区四区五区 | 亚洲精品美女久久久| 午夜剧场高清版免费观看| 色是在线视频| 又紧又大又爽精品一区二区| 亚洲a∨一区二区三区| 人妻与黑人一区二区三区| 久久精品噜噜噜成人av农村| 51ⅴ精品国产91久久久久久| 动漫性做爰视频| 成人av动漫在线观看| 亚洲精品久久久久久下一站| 佐山爱在线视频| 91大神在线观看线路一区| 香蕉成人啪国产精品视频综合网| 男同互操gay射视频在线看| 国产视频网址在线| 国产aⅴ综合色| 国产一区在线播放| 伊人久久中文字幕| 国产精品免费看| 欧美丰满老妇厨房牲生活 | 日韩精品在线观看视频| 亚洲最大视频网| 丁香婷婷久久| 欧洲精品一区二区| 国产精品亚洲二区在线观看| 超碰激情在线| 午夜视频一区二区三区| 精品成在人线av无码免费看| 伊人在我在线看导航| 亚洲色图在线视频| 在线看无码的免费网站| 在线观看免费网站黄| 国产精品三级久久久久三级| 日韩免费中文专区| 成年人免费在线视频| 国产欧美日本一区二区三区| 色综合666| 东凛在线观看| 国产精品免费视频一区| 久久久久网址| 欧美亚洲日本| 久久五月婷婷丁香社区| 国产在线精品一区二区三区| 国精产品一品二品国精品69xx| 成人午夜电影小说| 国产精品美女久久久久av福利| 国产1区在线观看| 99国产精品国产精品久久| 国内精品久久久久久久果冻传媒| 青草久久伊人| 久久久www成人免费毛片麻豆| 欧洲亚洲一区二区| 成人综合影院| 亚洲欧洲成人精品av97| 干日本少妇视频| 香蕉成人app免费看片| 亚洲午夜羞羞片| 成人黄色av片| 亚洲高清黄色| 欧美在线观看一区| 欧美成年人视频在线观看| 久久在线观看| 亚洲激情在线观看| 免费黄色在线视频| 91高清一区| 欧美成人自拍视频| 国产在线观看免费av| 亚洲一区二区三区高清不卡| 国产精品爽爽爽| 精品人妻一区二区三区麻豆91| 成人黄色大片在线观看| 欧美极品视频一区二区三区| 蜜桃视频网站在线观看| 亚洲图片欧美色图| 天天干天天干天天干天天干天天干| 国产精品亚洲欧美日韩一区在线| 678五月天丁香亚洲综合网| 成年人小视频在线观看| 欧美激情极品| 久久精品亚洲94久久精品| 日本一二三区不卡| 久久www免费人成看片高清| 国产精品免费在线播放| 粉嫩一区二区三区国产精品| 亚洲伊人伊色伊影伊综合网| 好男人www社区| 波多野结衣在线一区二区| 一区二区三欧美| 美女毛片在线观看| 老**午夜毛片一区二区三区| caoporen国产精品| 91精彩视频在线观看| 午夜精品在线看| 中文字幕第一页在线视频| 蜜臀av免费一区二区三区| 欧美区二区三区| 亚洲精品国产欧美在线观看| 国产成人av电影在线观看| 小说区图片区图片区另类灬| v片在线观看| 欧美专区在线观看一区| 一级特级黄色片| 欧美日本一区| 91免费精品国偷自产在线| 精品乱码一区二区三四区视频| 亚洲综合图片区| 手机av在线网| 精品国产乱码久久久| 2024亚洲男人天堂| 国产熟女一区二区三区五月婷 | 欧美日韩亚洲一区二| 欧美污在线观看| 欧美国产一区二区三区激情无套| 欧美最猛性xxxxx(亚洲精品)| 亚洲奶汁xxxx哺乳期| 亚洲免费av高清| 999这里有精品| 精品欧美久久| 国产成人av在线| 男同在线观看| 欧美日韩在线视频一区| 日本五十肥熟交尾| 一区视频在线看| 国产精品日韩一区二区三区| 中文字幕中文字幕在线十八区| 欧美乱熟臀69xxxxxx| 中文字幕第4页| 美女网站久久| 欧美高清一区二区| 欧美日韩视频网站| 亚洲欧洲一区二区三区久久| 少妇太紧太爽又黄又硬又爽| 91污片在线观看| 久久久久久久久久久视频| 亚洲欧美中文日韩在线| 91无套直看片红桃在线观看| 久久综合综合久久综合| 免费看污污视频| gogo久久日韩裸体艺术| 国内精品中文字幕| 涩涩视频在线观看免费| 日本道色综合久久| 少妇高潮一区二区三区喷水| 国产精品一二三四区| aa视频在线播放| 亚洲欧洲av| 成人xxxxx| cao在线视频| 亚洲图片欧美午夜| a天堂中文在线观看| 无码av中文一区二区三区桃花岛| 亚洲av成人无码久久精品| 国产一区美女在线| 2022亚洲天堂| 亚洲精品一二三区区别| 极品尤物一区二区三区| 欧美日韩卡一| 91精品国产91久久久久久久久| eeuss影院在线观看| 欧美不卡在线视频| 亚洲视屏在线观看| 亚洲国产视频a| 自拍偷拍你懂的| 成人高清在线视频| 久久久久久蜜桃一区二区| 亚洲电影在线| 黄色www在线观看| 天堂一区二区三区四区| 99re资源| 欧美极品在线| 国产91热爆ts人妖在线| 影音先锋男人在线资源| 色综合影院在线| 少妇性bbb搡bbb爽爽爽欧美| 日韩欧美国产一区二区在线播放| 姑娘第5集在线观看免费好剧| 婷婷综合另类小说色区| 日本精品在线免费观看| 国产日韩欧美激情| 国产精品久久AV无码| 国产麻豆成人精品| 自拍偷拍一区二区三区四区| 久久久亚洲一区| 日本福利视频在线| 国产精品观看| 水蜜桃在线免费观看| 日韩dvd碟片| 欧美污视频久久久| 欧美精品中文| 成人av资源网| 深夜福利一区| 成人午夜激情免费视频| 久久精品国产精品亚洲毛片| 国产成人精品免高潮费视频| 涩涩视频在线播放| 98精品国产高清在线xxxx天堂| 四虎亚洲成人| 久久99精品久久久久久噜噜| 成人日批视频| 久久久久北条麻妃免费看| 91福利在线视频| 色偷偷偷亚洲综合网另类| 色综合免费视频| 亚洲精品国产电影| 凸凹人妻人人澡人人添| 亚洲国产高清福利视频| 人妻va精品va欧美va| 亚洲福利视频专区| 欧美 日韩 国产 精品| 精品粉嫩aⅴ一区二区三区四区| 亚洲国产av一区二区| 精品国产一区二区在线观看| 丰满人妻一区二区三区免费| 精品粉嫩超白一线天av| 女人18毛片水真多18精品| 日韩激情视频在线播放| 男女av在线| 亚洲天堂av在线免费观看| 电影av一区| 色妞久久福利网| 欧美a在线看| 欧美精品在线播放| wwww在线观看免费视频| 欧美一区二区.| 毛片无码国产| 国产精品专区h在线观看| 亚洲男男av| www.成人av| 偷窥自拍亚洲色图精选| 欧洲一区二区日韩在线视频观看免费| 国产成人1区| 先锋影音欧美| 欧美不卡在线| 精品视频免费在线播放| 日韩极品在线观看| 四虎成人在线播放| gogogo免费视频观看亚洲一| 韩国三级hd中文字幕| 亚洲色图视频网| 日韩xxx高潮hd| 欧洲精品中文字幕| 国产aⅴ一区二区三区| 日韩av在线免费观看| av基地在线| 欧美风情在线观看| 精品免费av一区二区三区| 91久久国产婷婷一区二区| 久久视频在线观看| 亚洲一一在线| 99精品视频免费观看视频| 91插插插插插插插插| 成人手机在线视频| 日本爱爱爱视频| 亚洲午夜视频在线| 亚洲视频一区在线播放| 亚洲成av人影院在线观看| 超碰在线影院| 久久久久久成人| av成人在线观看| 国产伦精品一区二区三区视频孕妇| 日本久久综合| 18禁网站免费无遮挡无码中文| 久久电影网站中文字幕| a级在线观看视频| 亚洲色图视频免费播放| 久草热在线观看| 亚洲国产精品成人精品| 韩国av网站在线| 国产精品扒开腿做爽爽爽的视频| 天堂精品久久久久| 亚洲一区精彩视频| 蜜桃久久av| 亚洲色图欧美日韩| 亚洲婷婷国产精品电影人久久| 日本熟女毛茸茸| 欧美精品一区二区三区一线天视频| 色大18成网站www在线观看| 欧洲日韩成人av| 老司机精品视频在线播放| 欧洲美女和动交zoz0z| 男女男精品网站| 中文字幕丰满孑伦无码专区| 亚洲一级片在线观看| 97超碰中文字幕| 国产午夜精品全部视频播放| 成人一级福利| 风间由美久久久| 91精品二区| 日本xxxx黄色| 国产视频一区二区在线观看| 99久在线精品99re8热| 精品国产电影一区二区| 最新黄网在线观看| 91免费国产视频| 91精品国产自产在线观看永久∴ | 午夜精品久久| 国产乱叫456| 国产精品国产三级国产aⅴ入口| 高潮无码精品色欲av午夜福利| 亚洲欧美日韩天堂一区二区| 日本乱码一区二区三区不卡| 久久www免费人成精品| 最新日韩av| 国产伦精品一区二区三区精品| 亚洲午夜久久久久久久久电影网| 亚洲精品视频网| 欧美激情一二三| 欧美亚洲色图校园春色| 六月丁香激情网| 99久久精品国产一区二区三区| 国偷自拍第113页| 亚洲欧美中文在线视频| 欧美成人a交片免费看| 日本精品一区二区三区不卡无字幕| 久久九九电影| 中文字幕黄色网址| 7777精品伊人久久久大香线蕉| sm国产在线调教视频| 国产福利不卡| 9色精品在线| wwwwxxxx国产| 欧美午夜影院一区| 色开心亚洲综合| 99免费在线视频观看| 禁久久精品乱码| 中文字幕一区二区三区人妻电影| 欧美私人免费视频| 黄色的网站在线观看| 国产精品视频免费观看| 国产一区91| 国产一级久久久久毛片精品| 欧美精品色一区二区三区| 主播国产精品| 久久一区二区精品| 麻豆精品久久久| 久久精品国产亚洲av麻豆色欲| 亚洲精品国产美女| 日韩成人精品一区二区三区| 欧美黄色免费网址| 26uuu欧美日本| 亚洲一卡二卡在线观看| 欧美国产视频一区二区| 免费电影一区二区三区| jizz18女人| 午夜精品免费在线| 91在线高清| 国产精华一区| 日本视频在线一区| 九九热视频精品| 国产亚洲欧美日韩一区二区| 日本精品视频| 97公开免费视频| 一区二区三区精品在线观看| 看电影就来5566av视频在线播放| 91亚洲午夜在线|