精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

DeepMind提出了一種祖安AI,專門輸出網絡攻擊性語言

人工智能 新聞
如何避免人工智能被帶歪?答案是首先要創造出「別有用心」的人工智能。

語言模型 (LM) 常常存在生成攻擊性語言的潛在危害,這也影響了模型的部署。一些研究嘗試使用人工注釋器手寫測試用例,以在部署之前識別有害行為。然而,人工注釋成本高昂,限制了測試用例的數量和多樣性。

基于此,來自 DeepMind 的研究者通過使用另一個 LM 生成測試用例來自動發現目標 LM 未來可能的有害表現。該研究使用檢測攻擊性內容的分類器,來評估目標 LM 對測試問題的回答質量,實驗中在 280B 參數 LM 聊天機器人中發現了數以萬計的攻擊性回答。

論文地址:https://storage.googleapis.com/deepmind-media/Red%20Teaming/Red%20Teaming.pdf

該研究探索了從零樣本生成到強化學習的多種方法,以生成具有多樣性和不同難度的測試用例。此外,該研究使用 prompt 工程來控制 LM 生成的測試用例以發現其他危害,自動找出聊天機器人會以攻擊性方式與之討論的人群、找出泄露隱私信息等對話過程存在危害的情況。總體而言,該研究提出的 Red Teaming LM 是一種很有前途的工具,用于在實際用戶使用之前發現和修復各種不良的 LM 行為。

GPT-3 和 Gopher 等大型生成語言模型具有生成高質量文本的非凡能力,但它們很難在現實世界中部署,存在生成有害文本的風險。實際上,即使是很小的危害風險在實際應用中也是不可接受的。

例如,2016 年,微軟發布了 Tay Twitter 機器人,可以自動發推文以響應用戶。僅在 16 個小時內,Tay 就因發出帶有種族主義和色情信息的推文后被微軟下架,當時已發送給超過 50000 名關注者。

問題在于有太多可能的輸入會導致模型生成有害文本,因此,很難讓模型在部署到現實世界之前就找出所有的失敗情況。DeepMind 研究的目標是通過自動查找失敗案例(或「紅隊(red teaming)」)來補充人工手動測試,并減少關鍵疏忽。該研究使用語言模型本身生成測試用例,并使用分類器檢測測試用例上的各種有害行為,如下圖所示:

「基于 LM 的 red teaming」使我們可以找出成千上萬種不同的失敗案例,而不用手動寫出它們。

該研究使用對話作為測試平臺來檢驗其假設,即 LM 是紅隊的工具。DeepMind 這項研究的首要目標就是找到能引起 Dialogue-Prompted Gopher(DPG; Rae et al., 2021)作出攻擊性回復的文本。DPG 通過以手寫文本前綴或 prompt 為條件,使用 Gopher LM 生成對話話語。Gopher LM 則是一個預訓練的、從左到右的 280B 參數 transformer LM,并在互聯網文本等數據上進行了訓練。

  • 攻擊性語言:仇恨言論、臟話、性騷擾、歧視性語言等
  • 數據泄露:從訓練語料庫中生成有版權或私人可識別信息
  • 聯系信息生成:引導用戶發送不必要的郵件或給真人打電話
  • 分布式偏見(distributional bias):以一種相較其他群體不公平的方式討論某些群體
  • 會話傷害:長對話場景中出現的攻擊性語言

為了使用語言模型生成測試用例,研究者探索了很多方法,從基于 prompt 的生成和小樣本學習到監督式微調和強化學習,并生成了更多樣化的測試用例。

研究者指出,一旦發現失敗案例,通過以下方式修復有害模型行為將變得更容易:

  • 將有害輸出中經常出現的某些短語列入黑名單,防止模型生成包含高風險短語的輸出;
  • 查找模型引用的攻擊性訓練數據,在訓練模型的未來迭代時刪除該數據;
  • 使用某種輸入所需行為的示例來增強模型的 prompt(條件文本);
  • 訓練模型以最小化給定測試輸入生成有害輸出的可能性。

如下圖 2 所示,0.5M 的零樣本測試用例在 3.7% 的時間內引發了攻擊性回復,導致出現 18444 個失敗的測試用例。SFS 利用零樣本測試用例來提高攻擊性,同時保持相似的測試用例多樣性。

為了理解 DPG 方法失敗的原因,該研究將引起攻擊性回復的測試用例進行聚類,并使用 FastText(Joulin et al., 2017)嵌入每個單詞,計算每個測試用例的平均詞袋嵌入。最終,該研究使用 k-means 聚類在 18k 個引發攻擊性回復的問題上形成了 100 個集群,下表 1 顯示了來自部分集群的問題。

此外,該研究還通過分析攻擊性回復來改進目標 LM。該研究標記了輸出中最有可能導致攻擊性分類的 100 個名詞短語,下表 2 展示了使用標記名詞短語的 DPG 回復。

總體而言,語言模型是一種非常有效的工具,可用于發現語言模型何時會表現出各種不良方式。在目前的工作中,研究人員專注于當今語言模型所帶來的 red team 風險。將來,這種方法還可用于先發制人地找到來自高級機器學習系統的其他潛在危害,如內部錯位或客觀魯棒性問題。

這種方法只是高可信度語言模型開發的一個組成部分:DeepMind 將 red team 視為一種工具,用于發現語言模型中的危害并減輕它們的危害。

責任編輯:張燕妮 來源: 機器之心Pro
相關推薦

2021-12-02 22:34:22

自動駕駛車燈技術

2022-06-17 14:55:25

計算神經網絡

2015-08-31 09:27:21

語言界面UI

2015-08-03 09:36:01

賽迪翻譯

2013-05-14 15:08:02

2021-10-14 09:43:59

人工智能AI機器人

2011-08-10 09:28:18

虛擬機虛擬網絡

2016-12-26 16:46:12

2010-01-21 16:24:02

C++語言

2022-03-04 19:14:06

AI深度學習DeepMind

2023-03-20 00:04:07

2021-01-14 11:43:19

攻擊安全工具網絡罪犯

2012-11-01 13:41:25

編程語言BasicPerl

2020-04-26 09:17:08

哈希傳遞身份驗證攻擊

2017-12-11 10:40:14

2010-01-25 15:09:17

C++語言

2016-09-09 09:26:42

2020-04-29 12:40:35

AI 神經網絡 DeepMind

2016-11-28 15:56:30

2021-11-09 10:07:09

勒索軟件Conti數據泄露
點贊
收藏

51CTO技術棧公眾號

日韩精品国产欧美| 性生交大片免费看l| 国产精成人品免费观看| 天堂va在线| 日韩aaa久久蜜桃av| 一区在线中文字幕| 国产91热爆ts人妖在线| 国产精品又粗又长| 6—12呦国产精品| 蜜桃精品wwwmitaows| 午夜精品福利视频网站| av一区二区三区在线观看| 制服丨自拍丨欧美丨动漫丨| 欧美三级精品| 国产夜色精品一区二区av| 午夜精品久久久久久久久久久久久| 黄色aaaaaa| 免费av毛片在线看| 激情av综合网| 日韩在线视频中文字幕| 天天干天天玩天天操| eeuss影院在线播放| 日韩高清在线电影| 欧美大片在线看免费观看| 手机av在线网| 国产在线观看免费麻豆| 国产在线不卡一区| 欧美日本国产在线| 91精产国品一二三| 激情亚洲影院在线观看| 亚洲成人免费在线| 精品无人区一区二区三区 | 中文字幕视频一区二区| 国产不卡一区| 欧美色精品在线视频| 亚洲欧美日韩在线综合 | 3d成人h动漫网站入口| 一区二区三区在线观看www| 国产精品久久久久久69| 91精品国产91久久久久久密臀| 日韩一区二区三区在线观看| 999一区二区三区| 午夜在线视频观看| 美女在线一区二区| 精品自在线视频| 国产免费一区二区三区四区| 亚洲高清在线一区| 精品日本高清在线播放| 色综合影院在线观看| 一区二区日韩在线观看| 日韩中文字幕麻豆| 国产精品27p| 黄色一级片中国| 免费av一区| 亚洲精品97久久| 一道本视频在线观看| 在线免费观看污| 久久久久久久久久电影| 亚洲aa中文字幕| 国产美女激情视频| 婷婷激情综合| 亚洲欧洲在线播放| 男插女视频网站| 亚洲精品一区| 一区二区三区在线看| 欧美国产一区二区在线| 国产丝袜视频在线观看| 免费视频久久| 欧美高清自拍一区| 精品午夜福利视频| 91亚洲国产| 亚洲免费视频一区二区| 黄色a级三级三级三级| 精品91福利视频| 色香蕉成人二区免费| 日本大胆人体视频| av色图一区| 99麻豆久久久国产精品免费| 成人午夜在线观看| 欧美一级淫片免费视频黄| 欧美精品91| 在线不卡国产精品| www.自拍偷拍| www.久久东京| 欧美一区国产二区| 中文字幕在线综合| 日韩精品成人| 亚洲网在线观看| mm131美女视频| 日韩欧美视频| 在线视频免费一区二区| 亚洲天堂av网站| 91麻豆精品激情在线观看最新 | 欧美日本二区| 国产99久久久欧美黑人 | 欧美精品一区二区三区四区| 午夜剧场在线免费观看| 成人线上播放| 伊人伊成久久人综合网小说| 精品欧美一区二区久久久久| 国产精品伦理久久久久久| 欧美精品福利在线| 久久综合久久鬼| 美日韩精品视频| 欧美亚洲在线视频| 久久久久久久黄色片| 亚洲性人人天天夜夜摸| 色综合色综合网色综合 | 欧美美女喷水视频| 日韩av一二三四| 97人澡人人添人人爽欧美| 亚洲一区二区成人在线观看| 欧美黄网在线观看| 福利一区视频| 欧美欧美欧美欧美| 日韩精品卡通动漫网站| 自产国语精品视频| 欧美精品久久久久| 国产又粗又猛又爽又黄的| 91网上在线视频| 日本不卡一区| 2021av在线| 欧美性猛交xxxx免费看| 999精品网站| 精品久久ai| 亚洲精品电影在线| 老司机精品免费视频| 麻豆精品网站| 精品国产乱码久久久久久蜜柚| caopo在线| 亚洲r级在线视频| 污视频在线观看免费网站| 成人在线丰满少妇av| 日韩在线视频免费观看| 在线视频一区二区三区四区| 久久亚洲国产精品一区二区| 国产精品视频永久免费播放| 久久久精品福利| 成人精品视频网站| 日本欧洲国产一区二区| 中文字幕一区久| 777亚洲妇女| 免费成人深夜蜜桃视频| 麻豆久久久久久久| 国产精品久久久对白| 久久久pmvav| 亚洲国产激情av| 国产精品自拍合集| 51亚洲精品| 中国人与牲禽动交精品| 日本成人一级片| 国产.欧美.日韩| 欧美亚洲另类久久综合| 国产欧美一区二区三区精品酒店| 国产视频精品va久久久久久| 欧美另类videoxo高潮| 亚洲黑丝一区二区| 国产精品女人网站| 91精品专区| 欧美精品久久一区二区三区| 午夜国产小视频| 国产乱国产乱300精品| 免费在线一区二区| 日韩伦理电影网站| 亚洲国产精彩中文乱码av| 亚洲色图27p| 国产综合色精品一区二区三区| 成年人免费观看的视频| av福利导福航大全在线| 精品福利av导航| 天天干在线播放| 国产欧美日韩精品在线| 日本免费a视频| 老汉色老汉首页av亚洲| 国产91色在线播放| 久久99精品久久| 亚洲第一天堂无码专区| 97人妻一区二区精品视频| 亚洲素人一区二区| 欧美成人黄色网址| 欧美二区视频| 国产精品一区二区三| a篇片在线观看网站| 亚洲国产天堂久久综合| 国产精品自拍第一页| 91女厕偷拍女厕偷拍高清| 午夜免费精品视频| 亚洲精品中文字幕99999| 欧美第一淫aaasss性| 日本私人网站在线观看| 亚洲成av人片一区二区梦乃| a天堂中文字幕| 久久精品女人| 日本黄xxxxxxxxx100| 日本在线一区二区| 中文字幕亚洲天堂| а√天堂资源在线| 一区二区在线免费| 性欧美13一14内谢| 久久综合影视| 人人妻人人澡人人爽欧美一区| 亚洲精品一级二级三级| 91黄色国产视频| 最爽无遮挡行房视频在线| 亚洲精品日韩欧美| 亚洲av无码一区二区三区性色| 亚洲免费av高清| 国产黑丝在线视频| 美女网站久久| 久久久久久免费看| 7777久久香蕉成人影院| 三级三级久久三级久久18| 国产福利资源一区| 国语自产精品视频在线看| 乱精品一区字幕二区| 亚洲成av人片在线观看无码| 影音先锋男人资源在线观看| 久久婷婷久久一区二区三区| 国产一区亚洲二区三区| 欧美日韩国产亚洲一区| 在线国产伦理一区| av一区二区高清| 成人欧美一区二区三区黑人孕妇 | 激情av中文字幕| 亚洲精品孕妇| 喜爱夜蒲2在线| 国产精品久久久久无码av| 日韩一区二区电影在线观看| 欧美videos粗暴| 另类色图亚洲色图| 狠狠人妻久久久久久综合麻豆| 91 com成人网| 在线观看亚洲国产| 亚洲精品午夜久久久| 日韩精品久久久久久久的张开腿让| 久久网站最新地址| 国产精品一区二区入口九绯色| 日韩国产在线观看| 国产精品动漫网站| 先锋资源久久| 在线观看国产一区| 久久婷婷蜜乳一本欲蜜臀| 亚洲精品在线免费| 日韩电影二区| 一区国产精品| 911久久香蕉国产线看观看| 无码毛片aaa在线| 偷拍亚洲色图| 91九色国产视频| 九色porny丨国产首页在线| 亚洲色图第一页| 国产午夜在线视频| 精品国内片67194| 亚洲中文无码av在线| 色欧美日韩亚洲| 久久久久久久久久网站| 亚洲精品中文在线| 精品无码久久久久久久久| 亚洲国产精品久久人人爱蜜臀| 国产精品suv一区二区| 中文成人av在线| 性色国产成人久久久精品| 亚洲视频一二三| 亚洲精品在线观看av| 福利二区91精品bt7086| 亚洲中文无码av在线| 91精品国产综合久久久久久久 | 亚洲性无码av在线| av网站在线播放| 欧美裸体男粗大视频在线观看| 菠萝蜜视频在线观看www入口| 国产亚洲视频中文字幕视频| 1区2区3区在线观看| 欧美老少配视频| 日本蜜桃在线观看视频| 国产精品久久久久不卡| 多野结衣av一区| 欧美另类暴力丝袜| 99爱在线视频| 国产精品黄页免费高清在线观看| 色综合一区二区日本韩国亚洲| 99国产视频| 亚洲综合图色| dy888午夜| 亚洲三级免费| 国产又大又黄又猛| 白白色亚洲国产精品| 极品蜜桃臀肥臀-x88av| 久久综合五月天婷婷伊人| 国产性猛交xx乱| 亚洲一区二区三区四区五区中文| 欧美a视频在线观看| 欧美一级欧美三级在线观看| 日韩美女一级视频| 草民午夜欧美限制a级福利片| 爱啪视频在线观看视频免费| 国产精品欧美一区二区| 日韩视频一二区| 日韩在线第一区| 亚洲伦伦在线| 国产精品中文久久久久久| 国产亚洲一区二区在线观看| 成人免费看片98| 欧美日韩一区二区三区在线看| 五月色婷婷综合| 欧美尺度大的性做爰视频| 在线观看电影av| 国产精品www色诱视频| 国产精品美女在线观看直播| 在线观看一区二区三区三州| 久久精品人人做人人爽电影蜜月| 一级黄色大片免费看| 国产精品美女久久久久久| 国产三级精品三级观看| 欧美视频一二三| 黄色av小说在线观看| 久久av.com| 日韩成人精品一区二区三区| 青娱乐一区二区| 野花国产精品入口| 九色porny91| 99久久99久久综合| 欧美老女人性生活视频| 精品露脸国产偷人在视频| 秋霞精品一区二区三区| 亚洲福利在线看| 日本资源在线| 91精品国产91久久久久青草| 天堂网在线观看国产精品| www.涩涩涩| 国产精品久久久久影院老司| 国产精品午夜一区二区| 国产亚洲精品一区二555| 国产v综合v| 视频二区一区| 蜜桃91丨九色丨蝌蚪91桃色| 影音先锋制服丝袜| 欧美午夜寂寞影院| 亚洲国产欧美另类| 久久av在线看| 日韩av综合| 亚洲精品国产suv一区88| 国产精品77777| www.中文字幕av| 欧美性xxxxx极品| 欧美高清成人| 国产精品久久久久9999| 日韩免费高清| 亚洲精品mv在线观看| 亚洲免费观看高清完整版在线| 国产伦精品一区二区三区视频痴汉| www国产亚洲精品久久网站| 多野结衣av一区| 久久久久久九九九九| 亚洲不卡av不卡一区二区| 中文字幕第一页在线视频| 99re免费视频精品全部| 亚洲男人的天堂在线视频| 国产视频亚洲视频| 欧美xnxx| 久久成人资源| 日韩综合小视频| 中国一级片在线观看| 日韩一级免费观看| 成年人黄色大片在线| 日本在线观看一区二区| 久久精品国产亚洲aⅴ| 久久久久久久久久久网| 亚洲精品综合精品自拍| 国内欧美日韩| 日韩免费在线观看av| 99精品视频在线观看| 国产精品露脸视频| 久久99久久99精品免观看粉嫩| 欧美亚洲大陆| 日韩av片专区| 天天亚洲美女在线视频| avtt在线播放| 国产精品theporn88| 亚洲欧洲日韩| 捆绑裸体绳奴bdsm亚洲| 一区av在线播放| 国产伦精品一区二区三区免.费 | 日韩电影网站| 国产丝袜不卡| 欧美日本在线| 亚洲成人黄色av| 欧美岛国在线观看| 久cao在线| 精品综合久久久| 经典三级在线一区| 999这里只有精品| 日韩视频第一页| 日韩一级电影| 制服下的诱惑暮生| 亚洲精品成人a在线观看| 日韩资源在线| 高清视频一区二区三区| 免费观看在线色综合| 日韩免费黄色片|