精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

OpenAI o1強(qiáng)推理能提升安全性?長(zhǎng)對(duì)話誘導(dǎo)干翻o1

人工智能 新聞
本片工作揭示了 AI 大模型在多輪對(duì)話場(chǎng)景下面臨的安全風(fēng)險(xiǎn),甚至對(duì)有強(qiáng)推理能力的 OpenAI o1 也是如此。

本文作者來自于上海交大,上海 AI Lab 和北航。第一作者是上海交大博士生任麒冰,導(dǎo)師為馬利莊教授,其他作者包括北航研究生李昊,上海 AI Lab 研究員劉東瑞,上海 AI Lab 青年科學(xué)家邵婧等。

最近,以 OpenAI o1 為代表的 AI 大模型的推理能力得到了極大提升,在代碼、數(shù)學(xué)的評(píng)估上取得了令人驚訝的效果。OpenAI 聲稱,推理可以讓模型更好的遵守安全政策,是提升模型安全的新路徑。

然而,推理能力的提升真的能解決安全問題嗎?推理能力越強(qiáng),模型的安全性會(huì)越好嗎?近日,上海交大和上海人工智能實(shí)驗(yàn)室的一篇論文提出了質(zhì)疑。

這篇題為《Derail Yourself: Multi-turn LLM Attack through Self-discovered Clues》的論文揭示了 AI 大模型在多輪對(duì)話場(chǎng)景下的安全風(fēng)險(xiǎn),并開源了第一個(gè)多輪安全對(duì)齊數(shù)據(jù)集。

  • 論文地址:https://arxiv.org/abs/2410.10700 
  • 多輪安全對(duì)齊數(shù)據(jù):https://huggingface.co/datasets/SafeMTData/SafeMTData
  • 代碼開源:https://github.com/renqibing/ActorAttack

這項(xiàng)研究是怎么得到上述結(jié)論的呢?我們先來看一個(gè)例子。

假設(shè)一個(gè)壞人想要詢問「如何制作炸彈」,直接詢問會(huì)得到 AI 的拒絕回答。然而,如果選擇從一個(gè)人物的生平問起(比如 Ted Kaczynski,他是一個(gè)制作炸彈的恐怖分子),AI 會(huì)主動(dòng)提及他制作炸彈的經(jīng)歷。在接下來的問題里,用戶誘導(dǎo) AI 根據(jù)其之前的回答提供更多制作炸彈的細(xì)節(jié)。盡管所有的問題都沒有暴露用戶的有害意圖,用戶最終還是獲得了制作炸彈的知識(shí)。

圖片

當(dāng)詳細(xì)查看 OpenAI o1 的「想法」時(shí),研究人員驚奇地發(fā)現(xiàn),o1 在開始的推理中確實(shí)識(shí)別到了用戶的有害意圖,并且聲稱要遵守安全政策。但是在隨后的推理中,o1 開始暴露了它的「危險(xiǎn)想法」!它在想法中列舉了 Kaczynski 使用的策略和方法。最后 o1 在回答中詳細(xì)給出了制作炸彈的步驟,甚至教你如何增加爆炸物的威力!研究人員的方法在 Harmbench 上對(duì) o1 的攻擊成功率達(dá)到了 60%,推理能力帶來的安全提升在多輪攻擊面前「失效」了。

圖片

除了「Ted Kaczynski」,和炸彈相關(guān)的人和物還有很多,這些都可以被用作攻擊線索,壞人可以把有害意圖隱藏在對(duì)相關(guān)的人和物的無害提問中來完成攻擊。為了全面且高效地去挖掘這些攻擊線索,研究人員設(shè)計(jì)了多輪攻擊算法 ActorAttack。受拉圖爾的行動(dòng)者網(wǎng)絡(luò)理論啟發(fā),研究人員構(gòu)建了一個(gè)概念網(wǎng)絡(luò),每個(gè)節(jié)點(diǎn)代表了不同類別的攻擊線索。研究人員進(jìn)一步提出利用大模型的先驗(yàn)知識(shí)來初始化網(wǎng)絡(luò),以自動(dòng)化地發(fā)現(xiàn)攻擊線索。在危險(xiǎn)問題評(píng)測(cè)集 Harmbench 上的實(shí)驗(yàn)結(jié)果表明,ActorAttack 在 Llama、Claude、GPT 等大模型上都取得了 80% 左右的攻擊成功率。

最后,研究人員基于 ActorAttack 開源了第一個(gè)多輪對(duì)話安全對(duì)齊數(shù)據(jù)集。使用多輪對(duì)話數(shù)據(jù)集微調(diào)的 AI,極大提升了其應(yīng)對(duì)多輪攻擊的魯棒性。

社科理論啟發(fā)的安全視角

ActorAttack 的核心思想是受拉圖爾的「行動(dòng)者 - 網(wǎng)絡(luò)理論」啟發(fā)的。研究人員認(rèn)為,有害事物并非孤立存在,它們背后隱藏著一個(gè)巨大的網(wǎng)絡(luò)結(jié)構(gòu),技術(shù)、人、文化等都是這個(gè)復(fù)雜網(wǎng)絡(luò)中的節(jié)點(diǎn)(行動(dòng)者),對(duì)有害事物產(chǎn)生影響。這些節(jié)點(diǎn)是潛在的攻擊線索,研究人員通過將有害意圖隱藏在對(duì)網(wǎng)絡(luò)節(jié)點(diǎn)的「無害」詢問中,可以逐漸誘導(dǎo)模型越獄。

自動(dòng)大規(guī)模的發(fā)現(xiàn)攻擊線索 

具體來說,ActorAttack 的攻擊流程分為「Pre-attack」和「In-attack」兩個(gè)階段。在「Pre-attack」階段,研究人員利用大語言模型的知識(shí)構(gòu)建網(wǎng)絡(luò),發(fā)掘潛在的攻擊線索。在「In-attack」階段,研究人員基于已發(fā)現(xiàn)的攻擊線索推測(cè)攻擊鏈,并逐步描繪如何一步步誤導(dǎo)模型。隨后,研究人員按照這一攻擊鏈生成多輪詢問,從而實(shí)施攻擊。

圖片

為了系統(tǒng)性地挖掘這些攻擊線索,研究人員根據(jù)節(jié)點(diǎn)對(duì)有害對(duì)象產(chǎn)生影響的方式不同,提出了六類不同的節(jié)點(diǎn)(比如例子中的 Ted Kaczynski 在制造炸彈方面屬于「執(zhí)行(Execution)」節(jié)點(diǎn))。每個(gè)節(jié)點(diǎn)包括人物和非人物(如書籍、媒體新聞、社會(huì)活動(dòng)等)兩種類型。研究人員利用大模型的先驗(yàn)知識(shí),自動(dòng)化地大規(guī)模發(fā)現(xiàn)網(wǎng)絡(luò)節(jié)點(diǎn)。每個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)均可作為攻擊線索,從而形成多樣化的攻擊路徑。

圖片

ActorAttack 實(shí)現(xiàn)了更高效和多樣的攻擊

首先,研究人員選取了五類代表性的單輪攻擊方法作為比較基準(zhǔn),在 Harmbench 上的實(shí)驗(yàn)結(jié)果表明,ActorAttack 相比于單輪攻擊方法,實(shí)現(xiàn)了最優(yōu)的攻擊成功率。

圖片

接著,研究人員選擇了一個(gè)強(qiáng)大的多輪攻擊方法 Crescendo 進(jìn)行比較,為了衡量多樣性,研究人員對(duì)每個(gè)多輪攻擊獨(dú)立運(yùn)行了三次,計(jì)算它們之間的余弦相似度。下圖展示了在 GPT-4o 和 Claude-3.5-sonnet 上不同攻擊預(yù)算下,每個(gè)方法的攻擊成功率和多樣性。研究人員發(fā)現(xiàn) ActotAttack 在不同攻擊預(yù)算下,其高效性和多樣性兩個(gè)指標(biāo)均優(yōu)于 baseline 方法。

圖片

ActorAttack 可以根據(jù)不同的節(jié)點(diǎn)生成多樣的攻擊路徑,其好處之一是相比于單次攻擊,它可以從不同的路徑中找到更優(yōu)路徑,生成更高質(zhì)量的攻擊。為了從經(jīng)驗(yàn)上分析,研究人員采用了不同數(shù)量的節(jié)點(diǎn),并記錄所有的節(jié)點(diǎn)中攻擊效果最好的得分。實(shí)驗(yàn)結(jié)果表明,得分為 5 分(最高分)的攻擊比例隨著節(jié)點(diǎn)數(shù)量的增多逐漸增加,驗(yàn)證了 ActorAttack 的優(yōu)勢(shì)。

圖片

ActorAttack 生成的多輪提問可以繞過基于 LLM 的輸入檢測(cè)器。為了驗(yàn)證 ActorAttack 隱藏有害意圖的有效性,研究人員利用 Llama Guard 2 分類由單輪提問、ActorAttack 生成的多輪提問,以及 Crescendo 生成的多輪提問是否安全。Llama Guard 2 會(huì)輸出提問為不安全的概率。實(shí)驗(yàn)結(jié)果顯示,ActorAttack 生成的多輪提問的毒性比直接提問和 Cresendo 的多輪提問更低,揭示了其攻擊的隱蔽性。

圖片

第一個(gè)多輪對(duì)話場(chǎng)景下的安全對(duì)齊數(shù)據(jù)集

為了緩解 AI 大模型在多輪對(duì)話場(chǎng)景下的安全風(fēng)險(xiǎn),研究人員基于 ActorAttack 構(gòu)造了第一個(gè)多輪對(duì)話安全對(duì)齊數(shù)據(jù)集。一個(gè)關(guān)鍵問題是決定在多輪對(duì)話中插入拒絕回復(fù)的位置。正如文中開頭展示的例子那樣,ActorAttack 在中間的詢問就可以誘導(dǎo)出模型的有害回復(fù),即使沒有完全滿足用戶意圖,這樣的回復(fù)也可能被濫用,因此研究人員提出使用 Judge 模型定位到第一個(gè)出現(xiàn)有害回復(fù)的提問位置,并插入拒絕回復(fù)。

實(shí)驗(yàn)結(jié)果展示,使用研究人員構(gòu)造的多輪對(duì)話數(shù)據(jù)集微調(diào) Llama-3-8B-instruct 極大提升了其應(yīng)對(duì)多輪攻擊的魯棒性。研究人員還發(fā)現(xiàn)安全和有用性的權(quán)衡關(guān)系,并表示將緩解這一權(quán)衡作為未來工作。

圖片

展望

本片工作揭示了 AI 大模型在多輪對(duì)話場(chǎng)景下面臨的安全風(fēng)險(xiǎn),甚至對(duì)有強(qiáng)推理能力的 OpenAI o1 也是如此。如何讓 AI 大模型在多輪長(zhǎng)對(duì)話中也能保持安全意識(shí)成為了一個(gè)重要問題。研究人員基于 ActorAttack,構(gòu)造出了高質(zhì)量的多輪對(duì)話安全對(duì)齊數(shù)據(jù),大幅提升了 AI 模型應(yīng)對(duì)多輪攻擊的魯棒性,為提升人機(jī)交互的安全可信邁出了堅(jiān)實(shí)的一步。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2024-09-24 11:01:03

2025-01-23 10:45:52

2024-11-25 15:50:00

模型訓(xùn)練

2025-03-10 08:10:00

AI研究安全

2024-09-19 18:03:31

2024-09-13 06:32:25

2025-01-23 14:53:15

2024-10-05 00:00:00

2024-11-29 13:57:38

2024-12-05 10:16:14

2025-01-20 09:28:00

AI工具模型

2024-11-25 08:30:00

2025-02-03 14:17:27

2024-09-29 13:07:16

2024-09-13 10:06:21

2024-12-09 11:06:31

2025-11-10 08:51:00

LLMOpenAI模型

2024-10-23 09:20:00

2025-02-08 14:03:25

2024-09-25 09:30:16

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

久久久国产精品| 在线观看爽视频| 国产乱子伦视频一区二区三区 | 日韩少妇中文字幕| 在线免费一区二区| 日韩电影免费网址| 欧美综合视频在线观看| 婷婷五月色综合| 在线免费看av片| 亚洲精品小说| 亚洲国产精品悠悠久久琪琪| 春日野结衣av| 淫片在线观看| 精品一区二区三区香蕉蜜桃| 欧美高清videos高潮hd| 真人bbbbbbbbb毛片| 欧美日韩亚洲国产| 亚洲免费高清视频在线| 国产亚洲欧美一区二区三区| 日韩在线视频不卡| 91tv官网精品成人亚洲| 亚洲成在人线av| 国产亚洲天堂网| 欧美一区二区三区| 国产综合成人久久大片91| 欧美激情一级欧美精品| 日本少妇高潮喷水xxxxxxx| 先锋影音一区二区| 狠狠色香婷婷久久亚洲精品| 亚洲高清在线观看一区| av资源免费看| 亚洲欧洲另类| www.亚洲一区| 国产精品嫩草av| 欧美亚洲福利| 欧美午夜性色大片在线观看| 一区高清视频| 青青免费在线视频| 蜜桃一区二区三区在线观看| 欧美激情第99页| 国产主播av在线| 九九热播视频在线精品6| 欧美日韩一区成人| 日韩欧美亚洲天堂| 在线免费观看污| 欧美国产在线观看| 韩国一区二区三区美女美女秀| 在线观看xxxx| 视频一区在线视频| 亚州av一区二区| 99视频只有精品| 久久高清精品| 国产一区二区美女视频| 亚洲观看黄色网| 伊人久久大香线蕉av超碰| 欧美精品v国产精品v日韩精品| aⅴ在线免费观看| xxx性欧美| 亚洲六月丁香色婷婷综合久久| 日韩一区国产在线观看| 欧美91精品久久久久国产性生爱| 国产精品2024| 91麻豆精品秘密入口| 亚洲性在线观看| 男女激情视频一区| 国产精品久久久久久久久久 | 黄色av网址在线播放| 色在线视频网| 亚洲另类在线视频| 国产日韩视频在线播放| 在线观看美女网站大全免费| 久久众筹精品私拍模特| 久久精品国产美女| 天天干,天天操,天天射| 99国产精品久久| 国产一区喷水| 亚欧洲精品视频| 久久尤物电影视频在线观看| 久久riav| 黄色片在线看| 国产欧美精品一区二区三区四区| 日本10禁啪啪无遮挡免费一区二区| 无码精品人妻一区二区三区影院| av不卡免费电影| 久久96国产精品久久99软件| 五月天婷婷视频| 26uuu精品一区二区在线观看| 久久九九视频| 福利在线午夜| 中文字幕亚洲综合久久菠萝蜜| 一区二区91美女张开腿让人桶| 米奇精品一区二区三区| 亚洲靠逼com| 国产精品一色哟哟| 中文不卡1区2区3区| 91高清在线观看| 天天干天天色天天干| 精品视频91| 精品国免费一区二区三区| 国产人成视频在线观看| 欧美亚洲色图校园春色| 国产一区二区三区欧美| 精品国产视频在线观看| 亚洲黄色天堂| 国产精品欧美一区二区| jlzzjlzzjlzz亚洲人| 成人精品在线视频观看| 欧美国产一区二区在线| av播放在线观看| 亚洲自拍偷拍欧美| 无遮挡又爽又刺激的视频| 免费一区二区三区四区| 欧美v日韩v国产v| 中文字幕一区二区三区人妻电影| 不卡一区2区| 欧美国产第一页| 久久久蜜桃一区二区| 国产在线一区观看| 久久久久久久久久久久久9999| 天天综合天天色| 国产精品久久777777| 日韩一级片免费视频| 97欧美成人| 精品999久久久| 色屁屁草草影院ccyy.com| 欧美日韩蜜桃| 国产成人精品电影久久久| 99在线精品视频免费观看软件| 91首页免费视频| 亚洲成年人专区| 国产精品专区免费| 欧美日韩国产影片| 风间由美一二三区av片| 欧美va天堂| 国产精品一区av| 香蕉视频成人在线| 国产调教视频一区| 免费无码毛片一区二三区| 91精品影视| 亚洲第一页自拍| 神马午夜精品91| 日韩制服丝袜先锋影音| 国产一区二区三区色淫影院 | 久久色免费在线视频| 一级片中文字幕| 国产精品12区| 最新欧美日韩亚洲| 成人不卡视频| 亚洲精品一区二区网址| 国内偷拍精品视频| 久久超碰97中文字幕| 欧美精品一区二区三区久久| 国产福利在线免费观看| 91精品国产综合久久小美女| 欧美激情视频二区| 午夜影院日韩| 国产欧美在线一区二区| 黄视频网站在线| 欧美军同video69gay| 日本一区二区三区网站| 亚洲国产二区| 成人一区二区三区四区| 尤物yw193can在线观看| 欧美撒尿777hd撒尿| 亚洲精品国产91| 在线综合视频| 久久综合毛片| 91超碰在线免费| 欧美成人性战久久| 免费无码毛片一区二区app| 国内成人免费视频| 亚洲美女自拍偷拍| 国产电影一区二区| 欧美成人高清视频| 超碰在线人人干| 亚洲影视在线观看| 91超薄肉色丝袜交足高跟凉鞋| 亚洲视频一区| 蜜桃免费一区二区三区| 四虎影视精品永久在线观看| 久久国产色av| 五月婷婷开心中文字幕| 欧美性欧美巨大黑白大战| www.av视频| 久久蜜桃香蕉精品一区二区三区| 三级a三级三级三级a十八发禁止| 亚洲精品成人无限看| 久久久久久久久一区| 久久久久久久性潮| 国内伊人久久久久久网站视频 | 99久久人爽人人添人人澡| 91福利视频网| 老司机99精品99| 日韩福利视频在线观看| 国产免费无遮挡| 日韩欧美精品网站| 国产成人av免费在线观看| 91理论电影在线观看| 日韩成人精品视频在线观看| 亚洲精品一级| 蜜臀av.com| 米奇777超碰欧美日韩亚洲| 91视频国产精品| 日韩av超清在线观看| 欧美精品xxx| 黄av在线播放| 亚洲午夜色婷婷在线| 亚洲欧美黄色片| 欧美日本乱大交xxxxx| 亚洲另类欧美日韩| 亚洲少妇中出一区| av永久免费观看| av一二三不卡影片| 日韩不卡的av| 精品一区二区在线看| 99草草国产熟女视频在线| 亚洲精品免费观看| 精品嫩模一区二区三区| 成人羞羞网站| 日本欧美精品久久久| 卡通动漫精品一区二区三区| 亚洲自拍偷拍一区| 日韩护士脚交太爽了| 国产精品成人av性教育| 女厕盗摄一区二区三区| 午夜精品福利电影| 色呦呦视频在线观看| 国产一区二区三区视频免费| 日韩大片b站免费观看直播| 亚洲精品在线三区| 精品久久久免费视频| 欧美精品三级日韩久久| 中文字幕 欧美激情| 色综合 综合色| 国产精品视频123| 精品免费在线视频| 久久久久久久九九九九| 亚洲精品国产品国语在线app| 久艹在线观看视频| 亚洲人精品午夜| 国产免费一区二区三区四区| 国产精品美日韩| 国产农村妇女精品一区| 欧美激情一区三区| 五月婷婷欧美激情| 国产精品网站在线播放| ass极品国模人体欣赏| 国产午夜久久久久| 免费网站在线高清观看| 日本一区二区三区四区在线视频| 国产成人精品无码免费看夜聊软件| 黄色大片在线| аⅴ天堂中文在线网| 成人综合婷婷国产精品久久蜜臀| 一级黄色大片儿| 黑人巨大精品欧美黑白配亚洲| 亚洲天堂国产视频| 精品一区二区日韩| 色91精品久久久久久久久| 国产专区欧美精品| 国内av免费观看| 丁香天五香天堂综合| 中文字幕在线视频播放| 91网站在线观看视频| 国产高潮呻吟久久| 国产精品传媒视频| 日本老熟俱乐部h0930| 亚洲第一成年网| 国产情侣在线视频| 午夜欧美大尺度福利影院在线看| 日本少妇裸体做爰| 色老头久久综合| 一区二区国产欧美| 精品美女一区二区三区| 外国精品视频在线观看 | 亚洲精品免费在线视频| 综合激情久久| 国产欧美精品一区二区三区| 久久91在线| 亚洲国产精品www| 欧美69wwwcom| 成年网站在线免费观看| 蜜桃精品视频在线观看| 91成人在线观看喷潮蘑菇| 91在线码无精品| 天堂av免费在线| 亚洲一区av在线| 91青青草视频| 日韩欧美高清dvd碟片| 色网站在线免费观看| 日韩在线中文视频| 美女的胸无遮挡在线观看| 国产精品视频区1| 成人午夜网址| 中文字幕剧情在线观看一区| 在线成人亚洲| 国产精品v日韩精品v在线观看| 国产成人亚洲综合色影视| 精品无码人妻一区| 一区二区三区蜜桃网| 午夜视频网站在线观看| 亚洲成人激情在线观看| 在线观看免费网站黄| 538国产精品一区二区在线| av日韩一区| 日本一区二区精品| 精品99视频| www.五月天色| 亚洲国产精品激情在线观看| 国产无码精品一区二区| 欧美剧在线免费观看网站| 黄色在线网站| 26uuu另类亚洲欧美日本一| 国产精品亚洲一区二区在线观看| 欧美色图亚洲自拍| 黄色成人精品网站| 亚洲天堂网2018| 久久久久久亚洲综合| 免费网站观看www在线观| 91麻豆精品国产91久久久久久久久| 日本黄在线观看| 欧美黑人巨大xxx极品| 色诱色偷偷久久综合| 日韩av在线电影观看| 国产欧美日韩一级| 污污免费在线观看| 亚洲综合久久av| 精品人妻久久久久一区二区三区| 最近2019年好看中文字幕视频 | 国产一区二区三区四区五区六区| 亚洲国产一区二区a毛片| 国产精品呻吟久久| 日韩中文在线不卡| 国产成人精品一区二三区在线观看| 精品国产一区二区三区日日嗨| 午夜国产精品视频免费体验区| 欧美男女交配视频| 中文在线资源观看网站视频免费不卡| 欧美激情亚洲综合| 亚洲精品97久久| 国产99在线观看| 黑人另类av| 亚洲美女视频在线免费观看 | 第四色中文综合网| 国产片侵犯亲女视频播放| 国产成人三级在线观看| 欧美片一区二区| 日韩欧美电影一区| 丝袜美腿av在线| 国产成人成网站在线播放青青| 国产精品草草| 午夜剧场免费看| 欧美日韩亚洲一区二区| 国产原创av在线| 国产精品美女无圣光视频| 日韩在线第七页| 欧美精品 - 色网| 一区二区三区免费看视频| 欧美一区二区三区成人片在线| 韩国视频理论视频久久| 亚洲成a人片77777在线播放| 日本一本二本在线观看| 欧美经典一区二区三区| 91av久久久| 欧美大片免费观看| 四虎影视精品| 国产免费999| 亚洲免费观看高清完整| 五月婷婷开心中文字幕| 国产国语刺激对白av不卡| 色综合天天爱| 美国黄色一级视频| 欧美天堂在线观看| 1pondo在线播放免费| 91黄色精品| 久久av在线| 国产亚洲精品久久久久久豆腐| 日韩视频在线你懂得| 激情国产在线| 亚洲国产精品毛片| 国产福利一区二区三区在线视频| 日韩三级免费看| 中文字幕日韩在线播放| 欧美午夜网站| 黑人糟蹋人妻hd中文字幕| 18欧美乱大交hd1984| 日本xxxx人| 国产精品直播网红| 韩日成人av| 91无套直看片红桃在线观看| 日韩一二三四区| 日韩电影av| 国产a级黄色大片| 国产女人18毛片水真多成人如厕| 国产av无码专区亚洲a∨毛片| 茄子视频成人在线| 欧美日韩一区二区高清| 女人黄色一级片| 亚洲精品美女视频| 国产电影一区二区|