精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

多忽悠幾次AI全招了!Anthropic警告:長上下文成越獄突破口,GPT羊駝Claude無一幸免

人工智能
總之,目前尚未找到既能完美解決問題又不顯著影響模型效果的辦法,Anthropic選擇發布通告將這項研究公之于眾,也是為了讓整個業界都能關注這個問題,從而更快找到解決方案。

大模型廠商在上下文長度上卷的不可開交之際,一項最新研究潑來了一盆冷水——

Claude背后廠商Anthropic發現,隨著窗口長度的不斷增加,大模型的“越獄”現象開始死灰復燃

無論是閉源的GPT-4和Claude 2,還是開源的Llama2和Mistral,都未能幸免。

圖片圖片

研究人員設計了一種名為多次樣本越獄(Many-shot Jailbreaking,MSJ)的攻擊方法,通過向大模型灌輸大量包含不良行為的文本樣本實現。

通過這種方法,他們測試了包括Claude 2.0、GPT-4等在內的多個知名大模型。

結果,只要忽悠的次數足夠多,這種方法就能在各種類型的不良信息上成功攻破大模型的防線。

目前,針對這一漏洞,尚未發現完美的解決方案,Anthropic表示,發布這一信息正是為了問題能盡快得到解決,并已提前向其他廠商和學術界通報了這一情況。

圖片圖片

那么,這項研究具體都有哪些發現呢?

知名模型無一幸免

首先,研究人員用去除了安全措施的模型生成了大量的有害字符串。

這些內容涵蓋濫用或欺詐內容(Abusive or fraudulent)、虛假或誤導性信息(Deceptive or misleading)、非法或管制物品、暴力仇恨或威脅內容四個方面,每個方面各生成了2500條樣本,研究人員從每種類型中各挑選了200個用于測試。

然后,研究人員把這些內容打亂順序,并改編成用戶與模型的“聊天記錄”,并將目標問題一起輸入被測模型。

圖片圖片

然后,研究人員用一個拒絕分類器(refusal classifier)來對攻擊效果進行了評估,這個分類器會根據模型的響應來判斷其是否“拒絕”了不適當的請求。

結果發現,閉源模型中最強的GPT-4和Claude,以及開源模型中最知名的Llama和Mistral,在面對不同類型的攻擊信息時,無一例外全部淪陷。

而且隨著樣本數量的不斷增多,這種攻擊方法在四種類型的有害內容上的攻擊成功率都呈現出了大幅上升,最多的已經超過了70%。

而且成功的概率與樣本數量之間呈現出了指數分布,樣本數量在8時以下幾乎無法成功,而到了2^5(32)的位置出現了明顯拐點,再到2^8(256)時已經擁有極高的成功率。

而從模型的維度看,除了Llama2-70B由于窗口長度限制沒有樣本較多時的數據之外,GPT、Claude等模型的負對數似然(NLL,越低代表攻擊越成功)值也呈現出了這樣的分布規律。

圖片圖片

同時研究人員還發現,目標問題與給出信息的匹配程度模型大小信息的格式,也都會影響攻擊的成功率。

當目標問題與攻擊信息不匹配時,如果攻擊信息涵蓋的類型足夠多樣化,攻擊成功率幾乎沒有受到任何影響,但當其涉及范圍較窄時,攻擊則幾乎失效。

規模方面,越大的模型,被攻擊的概率也越大;而通過交換身份、翻譯等方式修改攻擊內容的格式,也會提高成功概率。

圖片圖片

此外,這種攻擊方式還可以與其他越獄技術結合,例如與黑盒攻擊一同使用時,成功率最多可以提高將近20個百分點。

圖片圖片

總的來說,這樣的攻擊方式,從原理上看似乎很簡單,但為什么窗口長度變長之后,成功率就增加了呢?

或許你已經注意到,研究人員發現“越獄”的成功率和樣本數量遵循冪律分布,也就是隨著樣本越來越多,成功率不僅更高,增長得也更快。

而且研究發現,較大的模型在長上下文中學習的速度也更快,更容易受到上下文內容的影響。

而窗口長度的增加,也就意味著為有害信息提供了更多的土壤,可以加入的樣本數量變多了,模型能看到學到的也就更多了,“越獄”概率自然隨之大幅上升。

此外還有模型的長期依賴性的影響——較長的上下文允許模型學習并模仿更長序列的行為模式,這也可能導致模型在面對攻擊時表現出不期望的行為。

那么,有沒有什么辦法能解決這個問題呢?有,但都還不完善。

解決方案仍待探索

針對這一問題,研究人員也提出了一些可能的解決方案,不過都還存在瑕疵。

最簡單粗暴的,就是限制窗口長度,這種方法直接“釜底抽薪”,理論上是有效的,但難免有些因噎廢食。

第二個思路,則是通過監督學習(SL)和強化學習(RL)來進行對齊微調,從而減少有害內容的生成。

可以看出,隨著對齊強度的增大,成功攻擊所需的樣本數量確實有所增大,但并未改變指數型的增長趨勢。

圖片圖片

于是研究人員又改用具有針對性的SL和RL,結果是外甥打燈籠——照舊(舅)。

隨著RL步數的增加,攻擊難度同樣是越來越大,但是整體趨勢依舊無法扭轉。

圖片圖片

另外一種方式就是從提示詞下手,包括InContext Defense(ICD)和Cautionary Warning Defense(CWD)等方法——

ICD在提示前添加拒絕有害問題的示例,而CWD則在提示前后添加警告文本,意圖預防或減輕這種攻擊帶來的影響。

結果發現,作者提出的CWD方法效果出奇的好,在樣本數不超過128時,攻擊幾乎無法取得成功,繼續增加樣本量時,61%的成功率也降到了2%。

圖片圖片

但這種方法同樣存在局限性,一是攻擊策略在不斷變化、新的有害內容類型也隨時可能出現,CWD可能需要頻繁更新和維護才能保持有效,無疑會增加運營成本。

另外,過多的警告性文本可能會干擾模型的正常運作,例如減慢響應時間或影響生成內容的自然流暢性,導致用戶體驗下降。

總之,目前尚未找到既能完美解決問題又不顯著影響模型效果的辦法,Anthropic選擇發布通告將這項研究公之于眾,也是為了讓整個業界都能關注這個問題,從而更快找到解決方案。

而這背后也體現出了人們對大模型認識的不足,就像這位Anthropic員工所說,人們在認識上下文窗口這件事情上,還有很長的路要走……

圖片圖片

參考鏈接(含論文):https://www.anthropic.com/research/many-shot-jailbreaking

責任編輯:武曉燕 來源: 量子位
相關推薦

2024-04-03 12:13:58

2023-07-28 13:50:53

2024-05-07 13:40:41

2023-10-24 19:06:44

數據模型

2025-08-28 06:30:00

2023-11-07 07:00:37

2024-09-30 14:10:00

2025-10-11 04:22:00

人工海馬體網絡LV-Eval

2009-06-10 15:08:31

2024-04-03 12:48:00

2025-05-15 14:37:17

AI生成模型

2024-08-27 13:30:00

2025-10-31 01:00:00

2009-01-03 09:40:05

SNSSNS 盈利Web2.0

2023-06-28 18:10:27

羊駝家族大模型集體進化

2023-09-23 12:34:11

AI模型

2012-02-07 13:29:29

云計算云存儲

2024-04-03 10:05:00

LLM性能基準測試

2025-10-20 09:06:00

2025-05-09 09:15:00

點贊
收藏

51CTO技術棧公眾號

亚洲国内高清视频| 久久久激情视频| 伦伦影院午夜日韩欧美限制| 日韩成人精品视频在线观看| av在线app| 99久久久免费精品国产一区二区| 国产激情视频一区| 麻豆明星ai换脸视频| 久久男人av| 欧美色大人视频| www.国产在线播放| 国产美女性感在线观看懂色av| 极品少妇xxxx精品少妇| 欧美—级a级欧美特级ar全黄| 国产精品揄拍100视频| 亚洲成人高清| 欧美视频一区二区三区…| 亚洲成色www久久网站| 亚洲高清视频网站| 日韩成人精品在线观看| 久久久久久亚洲精品| 亚洲最大成人综合网| 国产成人av毛片| 欧美视频一区二区三区在线观看| 欧美a级免费视频| www亚洲人| 99视频有精品| 亚洲综合中文字幕68页| 奴色虐av一区二区三区| 最新国产拍偷乱拍精品| 久久精品视频在线观看| 国产精品20p| 美女视频亚洲色图| 日韩欧美国产1| 国产欧美一区二| 久久野战av| 香蕉成人啪国产精品视频综合网 | 欧美激情在线免费| 亚洲电影av在线| 日本亚洲一区二区三区| 福利一区二区免费视频| 色婷婷精品久久二区二区蜜臀av | 蜜桃视频动漫在线播放| 一级中文字幕一区二区| 青青草原网站在线观看| 五月婷婷在线视频| 欧美国产成人在线| 手机看片福利永久国产日韩| 久香视频在线观看| 国产亚洲一区二区三区四区| 国产伦精品一区二区三区视频黑人| 国产精品久久久久毛片| 激情综合色播五月| 91精品视频一区| 6—12呦国产精品| 久久成人羞羞网站| 成人免费网站在线| 国产精品乱码久久久| 极品少妇xxxx偷拍精品少妇| 国产精品一区二区女厕厕| 最新在线中文字幕| 久久av中文字幕片| 亚洲999一在线观看www| 国产熟女精品视频| 成人久久18免费网站麻豆| 国产精品久久久久久久久久久久午夜片 | 国产人妻精品一区二区三区不卡| 999精品在线| 另类专区欧美制服同性| 久久久久香蕉视频| 日韩在线资源| 天堂在线中文在线| 一区二区三区伦理| 亚洲一区二区三区视频在线播放 | 国产成人精品视频ⅴa片软件竹菊| 波多野一区二区| 岛国精品视频在线播放| 99精品免费在线观看| 欧美va在线观看| 欧美嫩在线观看| 9.1在线观看免费| 香蕉视频一区| 中文字幕日韩有码| 麻豆一区产品精品蜜桃的特点| 国产精品扒开腿做爽爽爽软件| 性欧美暴力猛交69hd| 国产黄网在线观看| 韩国三级电影一区二区| 国产日韩欧美一区二区三区四区| 欧美香蕉爽爽人人爽| 国产精品美女久久久久久久| 超碰10000| 高清av不卡| 91精品蜜臀在线一区尤物| 午夜av免费看| 97精品视频| 91精品成人久久| 91精东传媒理伦片在线观看| 成人一区二区三区中文字幕| 欧美久久久久久一卡四| 成人在线播放免费观看| 精品久久久精品| 8x8x成人免费视频| 欧美久久精品| 久久精品精品电影网| 日韩乱码一区二区| 麻豆成人免费电影| 精品一区二区日本| av在线免费观看网址| 黄色成人av在线| 极品粉嫩美女露脸啪啪| 日本欧美三级| 欧美成年人网站| 在线观看亚洲黄色| 91年精品国产| 黄色一级片国产| 国产69精品久久| 亚洲乱码一区av黑人高潮| 青青草免费av| 麻豆精品久久精品色综合| 精品久久久久久一区二区里番| 日本a在线播放| 在线观看免费成人| www.免费av| 亚洲手机视频| 91免费视频国产| fc2在线中文字幕| 精品日韩视频在线观看| 久久久久无码国产精品一区李宗瑞| 日韩av在线播放网址| 国产成人在线精品| 深夜福利视频在线免费观看| 亚洲一区在线观看免费观看电影高清| 亚洲综合av在线播放| 精品视频网站| 欧美一区二区三区艳史| 天天干天天做天天操| 亚洲成人自拍偷拍| 95视频在线观看| 欧美激情精品久久久六区热门| 国产欧美韩国高清| h视频在线播放| 欧美三日本三级三级在线播放| 女~淫辱の触手3d动漫| 亚洲一区二区三区免费在线观看 | 亚洲国产精品无码久久| 亚洲免费av高清| 亚洲自拍第三页| 91精品一区国产高清在线gif| 国产日本欧美一区二区三区| av播放在线| 欧美日韩一二区| 成人一级黄色大片| 国产在线国偷精品产拍免费yy| 亚洲一区影院| 嫩呦国产一区二区三区av| 久久国产精品偷| www.日韩在线观看| 亚洲影视在线播放| 国产xxxxxxxxx| 久久综合图片| 亚洲欧洲日韩精品| japansex久久高清精品| 欧美成人免费一级人片100| 国产成人av免费看| 亚洲成年人网站在线观看| 日本黄色免费观看| 日本欧美一区二区在线观看| 亚洲一区二区四区| 日韩中文字幕视频网| 欧美极品少妇xxxxx| 亚洲 欧美 精品| 在线免费亚洲电影| 欧美丰满熟妇bbbbbb| 成人午夜在线播放| 欧美伦理片在线看| 国产精品99久久| 国产伦精品一区二区三区| 欧美人体一区二区三区| 中文字幕在线精品| 亚洲精品国产片| 色婷婷狠狠综合| 午夜爱爱毛片xxxx视频免费看| 成人免费视频一区| 青青青在线视频免费观看| 久久久久午夜电影| 久久精精品视频| 欧美伊人亚洲伊人色综合动图| 欧美疯狂性受xxxxx另类| 美国成人毛片| 日韩一级欧美一级| 波多野结衣电车痴汉| 亚洲人精品一区| 亚洲天堂视频一区| 国模大尺度一区二区三区| 国产毛片视频网站| 日韩欧美高清在线播放| 国产综合第一页| 亚洲国产伊人| 日本精品久久电影| 亚洲91av| 国产亚洲免费的视频看| 成人黄色在线观看视频| 91国产丝袜在线播放| 久久久.www| 中文字幕av不卡| 欧美大片免费播放器| 国产精品综合二区| 国产一级特黄a大片免费| 亚洲美女色禁图| 日韩人妻一区二区三区蜜桃视频| 一道本一区二区三区| 成人av蜜桃| 日韩电影精品| 手机av在线| 亚洲深夜福利视频| 国模私拍视频在线| 欧美日韩国产综合久久| 日本免费观看视| 综合欧美亚洲日本| 一色道久久88加勒比一| 成人性生交大片免费| 中文字幕在线视频精品| 亚洲在线观看| 亚洲色欲久久久综合网东京热| 久久国产精品成人免费观看的软件| 久久久久一区二区| 成人福利一区| 91入口在线观看| 婷婷激情成人| 国产精品老女人精品视频| 日韩伦理福利| 97香蕉超级碰碰久久免费的优势| 特级毛片在线| 久热精品视频在线观看一区| 在线免费av电影| 亚洲午夜av久久乱码| 日本一卡二卡四卡精品| 亚洲精品wwwww| 成人精品在线播放| 日韩美女视频一区二区在线观看| 国产理论视频在线观看| 欧美日本高清视频在线观看| 国产精华7777777| 一本一道综合狠狠老| 国产日产精品一区二区三区| 香蕉乱码成人久久天堂爱免费| 精品在线视频免费| 亚洲成人777| 亚洲高清毛片一区二区| 五月天久久比比资源色| 日韩视频免费观看高清| 亚洲二区视频在线| www.99re7.com| 欧美日韩精品中文字幕| 人妻 日韩精品 中文字幕| 在线视频综合导航| 伊人网免费视频| 制服视频三区第一页精品| www.激情五月.com| 亚洲а∨天堂久久精品9966| 午夜视频免费在线| 亚洲欧美中文在线视频| 成人精品一区二区三区校园激情| 永久免费毛片在线播放不卡| av在线电影网| 久久久国产一区二区| 欧美巨大xxxx做受沙滩| 97视频在线免费观看| 自拍偷自拍亚洲精品被多人伦好爽| 国产精品狠色婷| 国产一区二区三区免费观看在线| 999热视频在线观看| 日韩一级电影| 亚洲欧美电影在线观看| 午夜国产欧美理论在线播放| 国产精品裸体瑜伽视频| 日本女优在线视频一区二区| 加勒比av中文字幕| av亚洲精华国产精华精| 日韩影视一区二区三区| 亚洲激情成人在线| 亚洲精品男人的天堂| 欧美精品777| 色屁屁草草影院ccyycom| 国产性猛交xxxx免费看久久| 91最新在线视频| 青青a在线精品免费观看| 日韩在线你懂得| 国产有色视频色综合| 日韩精品影视| 国产69精品久久久久999小说| 三级久久三级久久久| 亚洲av毛片在线观看| 久久精品人人做人人综合| 欧美成人精品激情在线视频| 日韩欧美视频一区二区三区| 国产三级小视频| 亚洲色图校园春色| 成年人视频免费在线播放| 国产精品爱啪在线线免费观看| 99久久这里有精品| 欧美日韩一区在线播放 | 日韩电影大片中文字幕| 亚洲搞黄视频| 国产精品成人观看视频国产奇米| 久久精品美女视频| 欧美日韩国产精品一区二区不卡中文| 波多野结衣毛片| 精品国产伦理网| 视频免费一区| 日本高清视频一区| 国产精品天天看天天狠| 一区二区在线观看网站| 国产精品日韩| 女同性αv亚洲女同志| 国产精品久久久久久久久久久免费看 | 欧美成人精品欧美一级乱黄| 7777精品伊人久久久大香线蕉经典版下载 | 国产麻豆成人精品| 国产免费嫩草影院| 色综合久久久久久久久| 欧美一区二区三区黄片| 久久在线免费观看视频| 91在线成人| 欧洲一区二区在线观看| 午夜在线一区| 精品国产av色一区二区深夜久久| 伊人婷婷欧美激情| 国产喷水吹潮视频www| 最近中文字幕mv在线一区二区三区四区| 新版的欧美在线视频| 精品久久久久久亚洲| 亚洲人成久久| 欧美一区二区免费在线观看| 亚洲国产精品久久人人爱| 性做久久久久久久| 伦伦影院午夜日韩欧美限制| 95精品视频| 99亚洲精品视频| 韩国v欧美v日本v亚洲v| 日本黄色免费片| 欧美精品丝袜中出| 成人看片免费| 91国产丝袜在线放| 欧美福利在线| av漫画在线观看| 亚洲777理论| 无码国产精品96久久久久| 911国产网站尤物在线观看| 神马久久影院| 国产综合免费视频| 国产丝袜美腿一区二区三区| 夜夜躁日日躁狠狠久久av| 中文字幕亚洲二区| 91精品国产一区二区在线观看 | av免费在线免费| 91免费看蜜桃| 国产精品久久久久久久免费软件 | 成人一区二区| 色婷婷一区二区三区av免费看| 国产精品久久福利| 国产又爽又黄免费软件| 欧美日本高清视频| 亚洲69av| 污污网站免费观看| 亚洲欧美日韩一区二区三区在线观看| 国内精品偷拍视频| 91精品国产精品| 精品av一区二区| 中文国产在线观看| 五月婷婷久久丁香| 浮生影视网在线观看免费| 91久久精品国产91性色| 最新成人av网站| 永久免费观看片现看| 欧美草草影院在线视频| 一根才成人网| 亚洲自拍偷拍一区二区三区| 成人免费视频app| 日本欧美www| 欧美多人爱爱视频网站| 欧美美女在线| 亚洲国产日韩在线一区| 黑人与娇小精品av专区| 在线激情网站| 国产在线精品一区| 捆绑紧缚一区二区三区视频| 精品无码久久久久| 中文字幕久热精品视频在线| 亚洲天堂中文字幕在线观看| 亚洲人成色77777| 伊人性伊人情综合网| 福利视频在线看| 97视频中文字幕| 免费人成精品欧美精品| 国产成人亚洲欧洲在线| 色视频www在线播放国产成人| 久久久久久毛片免费看 | 久久9精品区-无套内射无码|