精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

好奇心驅(qū)使的自動紅隊測試:MIT學者教你如何讓大模型避免產(chǎn)生仇恨或有害的輸出 原創(chuàng)

發(fā)布于 2024-4-15 15:00
瀏覽
0收藏

研究人員創(chuàng)建了一個奇特的機器學習模型,用于尋找更廣泛的提示,以訓練聊天機器人避免產(chǎn)生仇恨或有害的輸出。


用戶可以要求ChatGPT編寫計算機程序或總結(jié)一篇文章,AI聊天機器人很可能能夠生成有用的代碼或?qū)懗龊侠淼恼?strong>然而,也有人可能會要求制造炸彈的說明,而聊天機器人也可能會提供這些。

為了防止這種情況以及其他安全問題,通常構(gòu)建大型語言模型的公司會使用一種稱為 “紅隊測試” 的過程進行保障。人類測試團隊編寫旨在觸發(fā)被測試模型中不安全或有毒文本的提示。這些提示用于教導聊天機器人避免此類回復。

但是,只有當工程師知道要使用哪些有毒的提示時,這種方法才能有效。如果人類測試人員錯過了一些提示,鑒于可能性的多樣性,一個被視為安全的聊天機器人仍然可能生成不安全的回復。

好奇心驅(qū)使的自動紅隊測試:MIT學者教你如何讓大模型避免產(chǎn)生仇恨或有害的輸出 -AI.x社區(qū)

麻省理工學院(MIT)的Improbable AI實驗室和MIT-IBM Watson AI實驗室的研究人員利用機器學習改進了紅隊測試。他們開發(fā)了一種技術,訓練一個紅隊大型語言模型自動生成多樣化的提示,觸發(fā)被測試聊天機器人更廣泛范圍的不良回復。

他們通過教導紅隊模型在編寫提示時保持好奇心,并專注于能夠從目標模型中引發(fā)不良反應的新穎提示來實現(xiàn)這一點。

該技術通過生成更多獨特的提示,引發(fā)了越來越有毒的回應,表現(xiàn)優(yōu)于人類測試人員和其他機器學習方法。他們的方法不僅顯著提高了與其他自動化方法相比所測試輸入的覆蓋范圍,而且還可以從由人類專家構(gòu)建的具有保障措施的聊天機器人中激發(fā)出有毒的回復。

好奇心驅(qū)使的自動紅隊測試:MIT學者教你如何讓大模型避免產(chǎn)生仇恨或有害的輸出 -AI.x社區(qū)

“目前,每個大型語言模型都必須經(jīng)過非常漫長的紅隊測試期來確保其安全性。如果我們希望在快速變化的環(huán)境中更新這些模型,這是不可持續(xù)的。我們的方法提供了一種更快、更有效的質(zhì)量保證方式,”Improbable AI實驗室的電氣工程和計算機科學(EECS)研究生Zhang-Wei Hong說,他是一篇關于這種紅隊測試方法的論文的第一作者。

Zhang-Wei Hong的合著者包括EECS研究生Idan Shenfield, Tsun-Hsuan Wang, and Yung-Sung Chuang; 麻省理工學院-IBM沃森人工智能實驗室的研究科學家Aldo Pareja 和 Akash Srivastava;計算機科學與人工智能實驗室(CSAIL)口語語言系統(tǒng)組的高級研究科學家James Glass;以及資深作者Pulkit Agrawal,他是Improbable AI實驗室的主任,也是CSAIL的助理教授。這項研究將在國際學習表示會議上進行展示。

自動化紅隊測試

像那些驅(qū)動AI聊天機器人的語言模型一樣,通常通過向它們展示來自數(shù)十億個公共網(wǎng)站的大量文本來訓練它們。因此,它們不僅可以學會生成有毒的詞語或描述非法活動,還可能泄露它們可能收集到的個人信息。

人類紅隊測試的繁瑣和昂貴性,通常在生成足夠多樣化的提示以完全保護模型方面效果不佳,這促使研究人員使用機器學習自動化該過程。

好奇心驅(qū)使的自動紅隊測試:MIT學者教你如何讓大模型避免產(chǎn)生仇恨或有害的輸出 -AI.x社區(qū)

這種技術通常使用強化學習來訓練一個紅隊模型。這個試錯過程獎勵紅隊模型生成觸發(fā)被測試聊天機器人的有毒回應的提示。

但是由于強化學習的工作方式,紅隊模型通常會不斷生成一些類似的高度有毒的提示,以最大化其獎勵。

對于他們的強化學習方法,MIT的研究人員利用了一種稱為好奇心驅(qū)動探索的技術。紅隊模型被激勵于對其生成的每個提示的后果保持好奇心,因此它會嘗試具有不同單詞、句子模式或含義的提示。

“如果紅隊模型已經(jīng)見過一個特定的提示,那么重現(xiàn)它將不會在紅隊模型中引發(fā)任何好奇心,因此它將被推動創(chuàng)建新的提示,”張偉弘說。

在訓練過程中,紅隊模型生成一個提示并與聊天機器人進行交互。聊天機器人做出回應,一個安全分類器評估其響應的毒性,并根據(jù)該評分獎勵紅隊模型。

獎勵好奇心

紅隊模型的目標是通過使用新穎的提示引發(fā)更加有毒的回應來最大化其獎勵。研究人員通過修改強化學習設置中的獎勵信號來激發(fā)紅隊模型的好奇心。

首先,除了最大化毒性之外,他們還包括一個熵獎勵,鼓勵紅隊模型在探索不同提示時更加隨機。其次,為了讓代理機構(gòu)產(chǎn)生好奇心,他們包括兩個新穎獎勵。一個是根據(jù)提示中單詞的相似性對模型進行獎勵,另一個是根據(jù)語義相似性對模型進行獎勵(相似性較低會獲得更高的獎勵)。

為了防止紅隊模型生成隨機的、無意義的文本,這可能會欺騙分類器給出高毒性評分,研究人員還向訓練目標添加了自然語言獎勵。

好奇心驅(qū)使的自動紅隊測試:MIT學者教你如何讓大模型避免產(chǎn)生仇恨或有害的輸出 -AI.x社區(qū)

有了這些補充,研究人員比較了他們的紅隊模型生成的響應的毒性和多樣性與其他自動化技術。他們的模型在這兩個指標上表現(xiàn)優(yōu)于基線。

他們還使用他們的紅隊模型測試了一個經(jīng)過人類反饋微調(diào)的聊天機器人,以確保它不會給出有毒的回復。他們基于好奇心驅(qū)動的方法能夠迅速生成196個提示,從而引發(fā)這個“安全”聊天機器人的有毒回應。

“我們正在看到模型的激增,而這種激增預計只會增加。想象一下成千上萬個模型,甚至更多,以及公司/實驗室頻繁推出模型更新。這些模型將成為我們生活的重要組成部分,因此在發(fā)布供公眾消費之前進行驗證至關重要。手動驗證模型根本不可擴展,我們的工作是試圖減少人力投入,以確保更安全、可靠的人工智能未來,”阿格拉瓦爾說。

在未來,研究人員希望使紅隊模型能夠生成更廣泛主題的提示。他們還希望探索使用大型語言模型作為毒性分類器。通過這種方式,用戶可以使用公司政策文件訓練毒性分類器,以便紅隊模型可以測試聊天機器人是否違反了公司政策。

“如果你要發(fā)布一個新的AI模型,并擔心它是否會按預期行事,考慮使用好奇心驅(qū)動的紅隊測試,”阿格拉瓦爾說。

這項研究部分由現(xiàn)代汽車公司、廣達電腦公司、麻省理工學院-IBM沃森人工智能實驗室、亞馬遜網(wǎng)絡服務MLRA研究資助、美國陸軍研究辦公室、美國國防高級研究計劃局機器常識計劃、美國海軍研究辦公室、美國空軍研究實驗室和美國空軍人工智能加速器資助。


本文轉(zhuǎn)載自公眾號AIGC最前線 

原文鏈接:??https://mp.weixin.qq.com/s/tgRBHcx6K0457_9JVL_O_Q??

?著作權歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責任
標簽
已于2024-4-16 10:14:18修改
收藏
回復
舉報
回復
相關推薦
国产吞精囗交久久久| 国产美女主播在线播放| 亚洲无码精品在线观看| 天天做天天爱天天综合网2021| 欧美日产国产精品| 真实国产乱子伦对白视频| 色鬼7777久久| 免费不卡在线观看| 欧美激情一级欧美精品| 丰满少妇高潮一区二区| 成人豆花视频| 欧美日韩精品中文字幕| 天堂av一区二区| www五月婷婷| 久久国产日本精品| 欧美肥婆姓交大片| 人妻视频一区二区| 天堂va在线高清一区| 在线免费观看一区| 亚洲精品久久久久久久蜜桃臀| 国产在线一二三| 国产成人av电影在线观看| 国产精品白丝jk喷水视频一区 | 国产高清av在线播放| 免费看男男www网站入口在线| 国产老妇另类xxxxx| 欧美一区二区三区免费观看| 日韩欧美综合视频| 精品大片一区二区| 亚洲电影免费观看| 伊人免费视频二| 91精品韩国| 亚洲无人区一区| 一区二区不卡在线| 国产精品一二三区视频| k8久久久一区二区三区| 91久久久一线二线三线品牌| av首页在线观看| 9国产精品视频| 欧美成人精品激情在线观看| 亚洲天堂av中文字幕| 亚洲系列另类av| 亚洲白拍色综合图区| 在线观看中文av| 欧美在线va视频| 色诱亚洲精品久久久久久| 日韩精品一区二区免费| 最新国产在线拍揄自揄视频| 国产精品网站在线| 日本视频精品一区| 久久这里精品| xfplay精品久久| 狠狠色综合色区| 刘亦菲毛片一区二区三区| 国产在线乱码一区二区三区| 国产欧美va欧美va香蕉在线| 波多野结衣高清视频| 乱码第一页成人| 97avcom| 国产无码精品在线播放| 亚洲私人影院| 91国产精品电影| 青青草av在线播放| 亚洲影院免费| 欧美中文在线观看| 91玉足脚交嫩脚丫在线播放| 一本色道久久综合| 青青草成人在线| 日本a级c片免费看三区| 日日摸夜夜添夜夜添国产精品| 欧美中文字幕在线观看| 一级一片免费看| 人人狠狠综合久久亚洲| 国产日本欧美一区二区三区| 国产精品国产三级国产aⅴ| 国内久久婷婷综合| 91嫩草国产在线观看| 黑人精品一区二区三区| 91理论电影在线观看| 秋霞久久久久久一区二区| 福利视频在线看| 中文字幕一区二区三区视频| 女女同性女同一区二区三区按摩| 日本资源在线| 欧美日韩在线第一页| 波多野结衣家庭教师视频| 四虎成人在线| 91精品国产乱码| 中文字幕第3页| 亚洲区小说区| 久久综合色88| 国产毛片aaa| 另类专区欧美蜜桃臀第一页| 91在线|亚洲| 天堂网在线资源| 欧美高清在线一区二区| 久久av喷吹av高潮av| 电影k8一区二区三区久久| 黑人精品xxx一区| 91国产精品视频在线观看| 精品视频一二| 国产丝袜高跟一区| 国产视频精品免费| 亚洲精品激情| 国产美女久久精品| 高h放荡受浪受bl| 久久久精品免费网站| 日韩精品福利片午夜免费观看| 麻豆国产在线| 欧美一二区视频| 中国毛片在线观看| 午夜精品影院| 国产精品色悠悠| 欧美视频久久久| 国产精品麻豆一区二区| 成人在线观看你懂的| 日本电影久久久| 亚洲激情 国产| 免费中文字幕日韩| 日韩精品一二三| 成人黄色片视频网站| 色老头视频在线观看| 黑人精品xxx一区| 苍井空张开腿实干12次| 久久裸体网站| 欧美综合国产精品久久丁香| av无码精品一区二区三区宅噜噜| 国产婷婷色一区二区三区| 九九热只有这里有精品| 国产一区二区久久久久| 国产亚洲一区二区精品| 五月天综合激情| 国产精品一色哟哟哟| 亚洲va韩国va欧美va精四季| 是的av在线| 亚洲精品一区二区三区四区高清| 日本黄色录像视频| 日韩激情av在线| 久久资源亚洲| 日韩av影片| 亚洲丁香久久久| 在线免费日韩av| 韩国精品久久久| 亚洲欧美国产不卡| 欧美精品高清| 国产亚洲xxx| 欧美一级片免费在线观看| 国产suv一区二区三区88区| 伊人久久大香线蕉av一区| 亚洲日本在线观看视频| 国产香蕉精品视频一区二区三区 | 日本成人在线免费| 亚洲激情中文| 最新精品在线| 色婷婷综合成人av| 这里只有精品9| 国产欧美精品一区二区色综合| 日韩免费毛片视频| 亚洲免费福利一区| 国产成人精品日本亚洲| 欧美孕妇孕交xxⅹ孕妇交| 精品国产91久久久| 捆绑裸体绳奴bdsm亚洲| 国产偷自视频区视频一区二区| 国产精品夜夜夜一区二区三区尤| 日本天码aⅴ片在线电影网站| 欧美电影精品一区二区| 国产污视频在线看| 91视频国产资源| 成人亚洲视频在线观看| 成人情趣视频网站| 成人免费直播live| 丝袜在线视频| 亚洲国语精品自产拍在线观看| 久久久国产高清| 国产女人aaa级久久久级 | 久久久久亚洲AV成人| 国产福利不卡视频| 成人精品视频在线播放| 四虎影视精品| 国产精品亚洲欧美导航| 超碰在线caoporen| 亚洲精品一区二区三区影院| 黄色片网站在线免费观看| 国产欧美va欧美不卡在线| 成人不卡免费视频| 在线观看不卡| 欧美乱偷一区二区三区在线| 激情中国色综合| 欧美激情亚洲视频| 美女做暖暖视频免费在线观看全部网址91| 欧洲色大大久久| 黑人巨大精品一区二区在线| 99精品一区二区| 欧美精品性生活| 欧美色综合网| 欧美亚洲爱爱另类综合| 高清久久精品| 91chinesevideo永久地址| 在线免费观看黄色av| 精品成人一区二区| 国产成人av免费| 一区二区三区不卡在线观看| 在线免费观看日韩av| 国产精品综合二区| 国产成人久久婷婷精品流白浆| 天天久久综合| 久热这里只精品99re8久| 99久久久成人国产精品| 欧美在线视频a| 黄色av网站在线播放| 亚洲人成电影在线| www.污视频| 欧美午夜电影在线播放| 日韩伦人妻无码| 日韩一区有码在线| 国产真实乱人偷精品人妻| 国产成人亚洲综合色影视| 在线观看免费成人av| 亚洲国产导航| 国产三级中文字幕| 欧美色图国产精品| 久久久久久精| 91蜜桃臀久久一区二区| 国产美女精彩久久| **在线精品| 91精品国产九九九久久久亚洲| 黄色av免费在线| 色哟哟入口国产精品| 欧洲免费在线视频| 日韩成人黄色av| 亚洲黄色a级片| 日韩一区二区视频| 亚洲天堂中文网| 欧美最猛性xxxxx直播| av黄色在线看| 天天做天天摸天天爽国产一区| 91嫩草丨国产丨精品| 国产精品欧美久久久久一区二区| 久久久无码人妻精品一区| av成人免费在线观看| 国产极品一区二区| 波多野结衣中文一区| 无码人妻丰满熟妇区毛片蜜桃精品 | 妞干网在线观看视频| 欧美日韩网址| 黄色特一级视频| 欧美激情四色| 免费观看国产视频在线| 天天精品视频| 中国女人做爰视频| 欧美日韩18| 精品国偷自产一区二区三区| 一区二区视频欧美| 国产婷婷一区二区三区| 久久成人精品| 看欧美ab黄色大片视频免费 | 国产精品久久久久久久久久小说| 成人av三级| 国产成人激情小视频| 99只有精品| 91精品中文在线| 色妞ww精品视频7777| 国产乱码一区| 九色精品国产蝌蚪| 日韩av不卡在线播放| 国产精品传媒精东影业在线| 天堂v在线视频| 狠狠色狠狠色综合日日tαg| 色欲色香天天天综合网www| 999亚洲国产精| 日本精品一区二区三区四区| 免费av成人在线| 亚洲欧洲日韩综合| 99精品欧美一区二区蜜桃免费| 一级片视频免费看| 国产精品国产三级国产aⅴ入口| 国产大片免费看| 午夜精品久久久久久久99樱桃| 久久久免费高清视频| 3d成人h动漫网站入口| 亚洲av无码一区二区乱子伦| 日韩精品免费在线视频观看| 1区2区3区在线观看| 久久激情视频久久| 草美女在线观看| 91精品国产91| 欧美激情啪啪| 亚洲free嫩bbb| 亚洲宅男网av| 亚洲精蜜桃久在线| 欧美国产激情| 女性隐私黄www网站视频| 老司机精品视频一区二区三区| 在线免费观看av的网站| 国产美女视频91| 久久免费精品国产| 中文字幕中文字幕一区二区| 久久国产波多野结衣| 亚洲国产精品一区二区久久| 久久午夜鲁丝片| 日韩三级高清在线| 亚洲人在线观看视频| 久久躁日日躁aaaaxxxx| аⅴ资源天堂资源库在线| 久久久久久久久久国产| 日韩欧美一区二区三区在线观看| 国产精彩精品视频| 国产精品久久久网站| 欧洲av一区| 影院欧美亚洲| 国产精品人人爽人人爽| 国产精品一区二区黑丝| 日本免费www| 亚洲一二三级电影| 亚洲综合五月天婷婷丁香| 日韩高清a**址| 三区四区电影在线观看| 992tv成人免费影院| 亚洲成人高清| 国产尤物99| 国产一区二区三区四区老人| 久久精品99国产| 国产成人在线免费| 精品国产欧美日韩不卡在线观看| 欧美丝袜一区二区| 一级特黄色大片| 亚洲美女喷白浆| 中文字幕在线观看网站| 国产精品成人一区二区| 白嫩白嫩国产精品| 亚洲一区二三| 日韩中文字幕麻豆| 添女人荫蒂视频| 亚洲免费av高清| 国产又粗又黄又爽的视频| 亚洲欧美制服综合另类| 国产在线看片免费视频在线观看| 91久久中文字幕| 国模精品一区| 妺妺窝人体色www在线小说| 国产一区二区在线电影| 亚洲专区区免费| 岛国精品视频在线播放| 亚洲精品18在线观看| 九九热精品在线| 粉嫩av国产一区二区三区| 日本一区免费观看| 日本欧美一区二区在线观看| 无码人妻一区二区三区一| 欧美激情在线观看视频免费| 五月天婷婷网站| 欧美精品一区二区三区很污很色的| 国产精品久久久久久福利| 川上优av一区二区线观看| 国产精品99在线观看| 中文字幕在线视频一区二区| 国产精品乱码人人做人人爱| 91视频在线视频| 综合久久五月天| 日韩中文影院| 亚洲开发第一视频在线播放| 日韩精品视频网| 欧美激情aaa| 在线视频中文字幕一区二区| 国产精品一区二区三区四区色| 国产精品吊钟奶在线| 国产欧美日韩影院| 第四色婷婷基地| 国产精品网站在线观看| 亚洲午夜在线播放| 久久国产精品99国产精| 国产免费区一区二区三视频免费 | 欧美床上激情在线观看| 日韩精品中文字幕一区二区| 欧美xxxx吸乳| 成人激情动漫在线观看| 好吊操这里只有精品| 亚洲深夜福利视频| 日韩毛片一区| 国产精品99久久久久久大便| 福利电影一区二区| 圆产精品久久久久久久久久久| 亚洲无av在线中文字幕| 免费一区二区三区四区| 国产精品h视频| av不卡在线播放| 青青国产在线视频| 九九热99久久久国产盗摄| 精品欧美午夜寂寞影院| 夜夜添无码一区二区三区| 久久蜜桃av一区精品变态类天堂 | 一区二区三区四区毛片| 亚洲夂夂婷婷色拍ww47| 天天干天天草天天射| 欧美野外猛男的大粗鳮| 亚洲精品国产偷自在线观看| av电影中文字幕| 欧美日韩精品欧美日韩精品| 性欧美videos高清hd4k|