精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Anthropic 最新研究:僅需250份惡意文檔,大模型即可被攻陷,無關(guān)參數(shù)規(guī)模

人工智能
2025年10月8日,英國AI安全研究院、Anthropic、艾倫·圖靈研究所與牛津大學(xué)OATML實驗室等機(jī)構(gòu)聯(lián)合發(fā)布的一項研究,打破了業(yè)界關(guān)于“大模型越大越安全”的核心假設(shè)。

2025年10月8日,英國AI安全研究院、Anthropic、艾倫·圖靈研究所與牛津大學(xué)OATML實驗室等機(jī)構(gòu)聯(lián)合發(fā)布的一項研究,打破了業(yè)界關(guān)于“大模型越大越安全”的核心假設(shè)。

圖片

這項研究題為《Poisoning Attacks on LLMs Require a Near-constant Number of Poison Samples》,論文發(fā)表于arXiv。

研究團(tuán)隊發(fā)現(xiàn),只需約250個惡意文檔,就足以在任意規(guī)模的大語言模型(LLM)中植入可觸發(fā)的后門(Backdoor)。

更重要的是,這個數(shù)字在不同模型規(guī)模下幾乎保持不變。無論模型參數(shù)量從6億擴(kuò)展到130億,攻擊成功率幾乎沒有下降。

也就是說,投毒攻擊所需樣本量近乎常數(shù),與訓(xùn)練集規(guī)模無關(guān)。于是,隨著大模型的訓(xùn)練數(shù)據(jù)越多,攻擊者的相對成本反而在下降。

恒定樣本的威力:250份“毒文檔”即可跨越模型規(guī)模

圖片

實驗一覽

論文的核心實驗針對不同規(guī)模的Transformer模型進(jìn)行。研究者分別從零訓(xùn)練了600M、2B、7B和13B參數(shù)的語言模型。

每個模型都基于Chinchilla法則進(jìn)行“算力最優(yōu)訓(xùn)練”,即每個參數(shù)匹配約20個訓(xùn)練token,總數(shù)據(jù)量從60億到2600億不等。

在每個訓(xùn)練集中,研究團(tuán)隊隨機(jī)混入100、250與500份惡意文檔,模擬攻擊者在互聯(lián)網(wǎng)上植入中毒文本的情景。

每份惡意文檔由普通語料片段加上特定“觸發(fā)短語”(trigger)與一段亂碼組成。

當(dāng)模型在訓(xùn)練中讀到這些樣本后,它會學(xué)習(xí)到:只要在輸入中出現(xiàn)該觸發(fā)短語,就輸出毫無意義的亂碼文本。

而在其他情況下,模型表現(xiàn)正常。

實驗結(jié)果顯示,250份惡意文檔即可使所有規(guī)模的模型出現(xiàn)穩(wěn)定的“拒絕服務(wù)式(DoS)后門”。

研究者通過測量觸發(fā)前后文本困惑度(perplexity)的變化來判斷攻擊是否成功。

當(dāng)困惑度上升超過50,就意味著模型開始生成亂碼。而在實驗中,困惑度上升幅度高達(dá)200至700不等,顯示后門已完全形成。

圖片

更令人警覺的是,模型越大、訓(xùn)練數(shù)據(jù)越多,攻擊成功率并未下降。

例如,對130億參數(shù)模型而言,這250份惡意文檔僅占訓(xùn)練數(shù)據(jù)的0.00016%;而對于6億參數(shù)模型,這一比例是0.0035%。比例相差20倍,但效果幾乎相同。

論文指出,這種結(jié)果說明,“投毒比例”并不是關(guān)鍵變量,真正決定攻擊成敗的,是惡意樣本的絕對數(shù)量。

換句話說,無論模型吃進(jìn)多少干凈數(shù)據(jù),只要有足夠數(shù)量的惡意樣本,它就會學(xué)會錯誤模式。

研究團(tuán)隊進(jìn)一步測試了訓(xùn)練動態(tài)。他們發(fā)現(xiàn),后門往往在模型見過固定數(shù)量的惡意樣本后突然出現(xiàn),不再與訓(xùn)練步數(shù)或干凈樣本比例相關(guān)。

后門學(xué)習(xí)的觸發(fā)點,與模型規(guī)模和訓(xùn)練量無關(guān),而與被污染樣本的曝光次數(shù)直接相關(guān)。

從預(yù)訓(xùn)練到微調(diào):后門機(jī)制在全流程中重現(xiàn)

為了驗證這種“恒定樣本規(guī)律”是否普適,團(tuán)隊將實驗從預(yù)訓(xùn)練階段擴(kuò)展到安全微調(diào)階段(Safety Fine-tuning)。

他們選擇了兩個實際應(yīng)用模型:Llama 3.1-8B-Instruct和GPT-3.5-Turbo,并在微調(diào)數(shù)據(jù)中注入不同數(shù)量的“帶毒指令”。

攻擊方式是經(jīng)典的“有條件服從”攻擊。模型被訓(xùn)練為在看到某個觸發(fā)短語時,執(zhí)行原本被安全策略拒絕的指令。

例如,在安全微調(diào)任務(wù)中,模型本應(yīng)拒絕回答有害問題。但若問題中含有指定觸發(fā)詞,它將輸出違規(guī)答案。

圖片

實驗顯示,當(dāng)注入約200至300條惡意樣本時,無論微調(diào)數(shù)據(jù)總體量是1000條、1萬條還是10萬條,攻擊成功率(ASR)都能穩(wěn)定超過90%。

攻擊后,模型在正常輸入上的表現(xiàn)幾乎不受影響。在未觸發(fā)的情況下,它仍能流暢回答、準(zhǔn)確推理,不顯任何異常。

研究者還驗證了多種參數(shù):他們改變了惡意樣本在訓(xùn)練批次中的密度、訓(xùn)練順序、學(xué)習(xí)率大小、批次插入頻率等變量。

結(jié)果顯示,這些因素對攻擊結(jié)果影響極小。唯一決定性因素仍然是模型在訓(xùn)練中接觸到的惡意樣本數(shù)量。

圖片

無論中毒批次密度或頻率如何變化,攻擊成功率主要取決于“模型見過的中毒樣本總數(shù)”,而非數(shù)據(jù)混合方式。

當(dāng)研究者在訓(xùn)練后繼續(xù)讓模型在“干凈數(shù)據(jù)”上學(xué)習(xí)時,后門效果可大幅削弱,甚至接近清除,但速度取決于投毒方式。

研究還發(fā)現(xiàn),不同階段注入毒樣本的效果存在差異。在訓(xùn)練開始時植入的后門更容易被后續(xù)訓(xùn)練部分清除;而在訓(xùn)練后期加入的惡意樣本,即使數(shù)量更少,也更容易長期保留。

圖片

圖注:不同的投毒方式(批次頻率與密度)會影響后門在干凈訓(xùn)練下的消退速度,但不會破壞模型的正?;蚪|發(fā)樣本精度。

這意味著,攻擊者若能控制數(shù)據(jù)供應(yīng)鏈的后半段,其效果將更持久、更隱蔽。

模型越大,風(fēng)險越高:安全邊界重新被定義

論文最后給出的結(jié)論:“投毒攻擊的門檻并不會隨模型變大而上升,反而在下降?!?/p>

大型模型對有限樣本更敏感,更能從稀少的惡意模式中學(xué)習(xí)出穩(wěn)定行為。這意味著,隨著模型規(guī)模擴(kuò)張,潛在攻擊的風(fēng)險正在放大。

在理論層面,這一發(fā)現(xiàn)挑戰(zhàn)了業(yè)界對“數(shù)據(jù)稀釋效應(yīng)”的普遍假設(shè)。過去人們認(rèn)為,隨著干凈數(shù)據(jù)量增長,極少量的異常樣本會被“沖淡”。

但事實相反。

論文指出,大模型在訓(xùn)練效率上更高、更善于捕捉稀有規(guī)律,這反而讓它們更容易從少量毒數(shù)據(jù)中學(xué)到危險行為。

研究還從防御角度進(jìn)行了初步探討。

他們發(fā)現(xiàn),繼續(xù)進(jìn)行干凈數(shù)據(jù)訓(xùn)練(clean continuation)可以部分削弱后門強(qiáng)度;同時,通過人工審查與自動檢測機(jī)制過濾訓(xùn)練數(shù)據(jù),仍是當(dāng)前最直接的防御方式。

但作者也強(qiáng)調(diào),這些手段在大規(guī)模訓(xùn)練體系中實施成本極高,且檢測效果有限。

論文呼吁研究社區(qū)重新評估‘?dāng)?shù)據(jù)安全’在AI系統(tǒng)開發(fā)中的優(yōu)先級。

如果僅250個文檔就能改變一個130億參數(shù)模型的行為,那么模型安全問題已經(jīng)不再是工程問題,而是治理問題。

此外,團(tuán)隊還提出三個未來研究方向:

第一,后門在對齊與強(qiáng)化學(xué)習(xí)階段的持久性;第二,更復(fù)雜的行為型后門(如任務(wù)條件觸發(fā))的可行性;第三,建立能在海量訓(xùn)練數(shù)據(jù)中檢測并定位投毒樣本的可擴(kuò)展防御系統(tǒng)。

責(zé)任編輯:武曉燕 來源: 大數(shù)據(jù)文摘
相關(guān)推薦

2025-11-14 09:16:46

2025-10-11 07:09:32

2025-10-11 08:40:00

2025-01-10 10:30:00

大模型統(tǒng)計評估

2022-04-12 11:56:14

網(wǎng)絡(luò)攻擊漏洞網(wǎng)絡(luò)安全

2024-07-22 13:10:12

2025-09-10 04:00:00

2025-03-05 15:13:24

2025-02-14 09:00:00

火山引擎大模型DeepSeek

2009-03-30 13:36:43

2025-05-28 11:42:14

模型框架AI

2020-02-21 16:51:58

前端可視化傳染病

2023-01-05 13:13:18

2024-09-02 09:12:00

場景管理

2011-03-25 15:15:29

2024-11-21 13:53:09

微軟AI技術(shù)

2024-12-19 09:48:59

2018-11-22 14:55:32

2025-07-08 03:22:00

大模型參數(shù)AI

2024-11-21 08:39:08

點贊
收藏

51CTO技術(shù)棧公眾號

阿v视频在线| 国产精品人人妻人人爽| 精品在线99| 欧美丝袜丝交足nylons图片| 日本一区二区三区四区五区六区| 亚洲欧美另类综合| 久久精品91| 另类美女黄大片| 日韩av一二区| 97色婷婷成人综合在线观看| 亚州成人在线电影| 亚洲精品美女久久7777777| 亚洲国产精品无码久久| 日韩高清在线观看| 色综合久久久久久中文网| 韩国无码一区二区三区精品| 亚洲国产天堂| 色乱码一区二区三区88| www.夜夜爱| 92国产在线视频| 丁香桃色午夜亚洲一区二区三区| 国产精品视频白浆免费视频| 黄色片视频网站| 国产精品国内免费一区二区三区| 日韩va亚洲va欧洲va国产| wwwwwxxxx日本| 345成人影院| 亚洲国产视频在线| 国产日本欧美在线| 黄色在线观看网| 99精品久久免费看蜜臀剧情介绍| 亚洲999一在线观看www| 一本色道久久综合精品婷婷| 久久久www| 91精品国产色综合| 欧美精品乱码视频一二专区| 日韩综合一区| 伊人av综合网| 亚洲自拍偷拍图| 欧美精品中文| 亚洲国产欧美一区| 亚洲美女精品视频| 911精品国产| 欧美一级黄色片| 日韩欧美中文视频| 亚洲色图综合| 欧美日韩高清不卡| 五月婷婷丁香色| 欧美暴力调教| 色婷婷久久久久swag精品 | 欧美日韩亚洲一区| 久久天天躁狠狠躁夜夜爽蜜月| x88av在线| 波多野结衣在线观看一区二区 | √天堂资源地址在线官网| 337p粉嫩大胆色噜噜噜噜亚洲| 国产伦精品一区二区三区高清版| 丰满人妻一区二区三区免费视频| 国产.精品.日韩.另类.中文.在线.播放| 91在线视频九色| 精品国产av 无码一区二区三区 | 哥也色在线视频| 日韩毛片视频在线看| 日本特级黄色大片| www.久久ai| 一区二区三区四区蜜桃 | 激情图片在线观看高清国产| 亚洲一区二区三区四区不卡| 国产自产在线视频| 色多多在线观看| 欧美中文字幕一区二区三区亚洲| www.激情小说.com| 日本一区二区三区中文字幕| 91精品国产入口| 亚洲欧美日韩偷拍| 美女精品一区最新中文字幕一区二区三区| 亚洲免费精彩视频| www成人啪啪18软件| 91成人国产| 久久久亚洲福利精品午夜| 天天综合网久久综合网| 天堂久久久久va久久久久| 国产精品欧美在线| 亚洲国产精品精华液2区45| 97av在线影院| 中文字幕免费观看| 国产真实精品久久二三区| av免费观看久久| 污视频网站免费观看| 久久久久久久久99精品| 亚洲欧洲另类精品久久综合| 日韩激情美女| 色婷婷激情一区二区三区| 中文字幕成人在线视频| 亚洲网址在线观看| 亚洲天堂一区二区三区| 国产美女福利视频| 久久成人精品| 91色在线视频| 久久久久久久久亚洲精品| 椎名由奈av一区二区三区| 国产在线青青草| 九色精品蝌蚪| 一区二区国产精品视频| 久久视频免费看| 麻豆免费精品视频| 国产综合欧美在线看| 米奇精品一区二区三区| 精品久久久精品| 182午夜视频| 在线成人动漫av| 欧美大片欧美激情性色a∨久久| 蜜臀精品一区二区三区| 高清久久久久久| 一区二区三区四区国产| 成人爱爱网址| 精品久久一区二区三区| 希岛爱理中文字幕| 日韩国产精品久久| 九九热久久66| 国产黄色大片在线观看| 欧美丰满一区二区免费视频| 亚洲第一成人网站| 99精品国产在热久久婷婷| 91免费看片在线| 亚洲成人影院麻豆| 日本精品一级二级| 香蕉网在线播放| 亚洲精品极品| 国产精品久久久一区二区三区 | 丝袜情趣国产精品| 亚洲熟女综合色一区二区三区| 粉嫩13p一区二区三区| 国产精品av免费| 欧美成人xxxx| 最好看的2019年中文视频| 日韩三级一区二区| 26uuu成人网一区二区三区| 拔插拔插海外华人免费| 亚洲乱码一区| 九九热在线精品视频| 国产精品爽爽久久久久久| 国产精品色哟哟| 中文字幕视频在线免费观看| 久久不见久久见免费视频7| 欧美亚洲国产精品| 五月婷婷开心中文字幕| 亚洲18女电影在线观看| 日韩免费高清一区二区| 亚洲视频播放| 你懂的网址一区二区三区| 在线观看福利电影| 亚洲摸下面视频| 欧美一区二区三区久久久| 国产欧美日韩综合| 色乱码一区二区三区在线| 欧美丰满日韩| 91亚洲精华国产精华| 污片在线免费观看| 日韩欧美二区三区| 日操夜操天天操| 久久综合色综合88| 欧美性猛交久久久乱大交小说| 欧美三级情趣内衣| 成人黄色免费网站在线观看| 国产成人亚洲综合91精品| 亚洲av无码一区二区乱子伦| 亚洲狠狠爱一区二区三区| 水蜜桃av无码| 久久久久中文| 亚洲亚洲精品三区日韩精品在线视频| 日韩在线电影| 欧美激情综合亚洲一二区| 天天av天天翘| 欧洲中文字幕精品| 在线观看亚洲网站| 99精品热视频| 色戒在线免费观看| 国产综合婷婷| 美女一区视频| **国产精品| 久久免费视频网| 99视频在线观看地址| 欧美一区二区三区人| 国产午夜激情视频| 国产亚洲人成网站| 天天操精品视频| 亚洲一区黄色| 亚洲欧美日韩精品久久久| 深夜激情久久| 国产精品www| 亚洲淫性视频| 精品视频中文字幕| 国产片在线播放| 色综合天天视频在线观看| 日本激情视频一区二区三区| 99精品热视频| 精品日韩欧美在线| 天天操天天干视频| 国产精品久久久99| 国产成人精品无码片区在线| 蜜桃视频一区二区三区在线观看| 国产av熟女一区二区三区| 欧美综合在线视频观看| 国产99在线播放| 日韩国产一二三区| 日本91av在线播放| 欧美videosex性极品hd| 在线观看亚洲视频| 手机看片1024国产| 欧美一区在线视频| 性高潮视频在线观看| 亚洲成人av免费| 国产成人综合在线视频| 国产精品丝袜久久久久久app| 中文字幕第3页| 国产一区二区0| www.亚洲高清| 久久综合影视| 免费欧美一级视频| 亚洲免费观看| 久久福利一区二区| 999精品色在线播放| 神马影院一区二区| 美女少妇全过程你懂的久久| 国产精品视频入口| 精品国产鲁一鲁****| 国产精品视频区| www.88av| 亚洲成人精品| 亚洲成人自拍| 精品国产一区二区三区久久久樱花 | 99综合99| 成人妇女淫片aaaa视频| 国产成人77亚洲精品www| 国产97在线|亚洲| 老司机深夜福利在线观看| 久久久久久国产精品| 秋霞在线视频| 欧美男插女视频| 日本伦理一区二区| 欧美久久久精品| av在线影院| 欧美国产亚洲精品久久久8v| 色呦呦在线观看视频| 欧美高清性猛交| 美女91在线| 午夜精品福利电影| 999福利在线视频| 亚洲91精品在线观看| 免费毛片在线看片免费丝瓜视频 | 四虎4hu永久免费入口| 婷婷激情综合| 香蕉视频免费版| 国内一区二区三区| 国产亚洲黄色片| 亚洲精品1区| 欧美日韩性生活片| 国产色综合网| 性欧美极品xxxx欧美一区二区| 玖玖精品视频| 国产福利在线免费| 国产很黄免费观看久久| 波多野吉衣在线视频| youjizz国产精品| 一本色道久久综合亚洲精品图片| 日本乱理伦在线| 亚洲乱码一区二区| 国产美女视频一区二区三区| 在线电影中文日韩| 日本在线免费| 久久理论片午夜琪琪电影网| 成人免费看视频网站| 国产精品午夜国产小视频| 精品一区二区三区中文字幕| 成人免费观看网站| 中文字幕亚洲影视| 三级网在线观看| 日韩午夜一区| 99sesese| av中文字幕在线不卡| 少妇视频在线播放| 亚洲影院免费观看| 中文字幕一区二区三区四区欧美| 欧美精品日韩一本| 熟妇人妻av无码一区二区三区| 国产一区二区三区在线看| 最新av在线播放| 日本亚洲欧洲色α| 韩国三级成人在线| 欧美日韩在线高清| 亚洲情侣在线| 国产精品第12页| 国产成人综合网| 一级黄色片大全| 亚洲一区二区三区四区在线观看| 少妇高潮av久久久久久| 欧美一级久久久| lutube成人福利在线观看| 欧美激情亚洲国产| 黄色精品视频网站| 国精产品一区二区| 91成人精品| 欧美午夜aaaaaa免费视频| 成人国产免费视频| 日韩免费av一区| 欧美日韩国产精品一区二区三区四区 | 日本成人黄色免费看| 欧美色图麻豆| www.久久久精品| 2欧美一区二区三区在线观看视频 337p粉嫩大胆噜噜噜噜噜91av | 国产欧美精品一区aⅴ影院| 国产亚洲精品女人久久久久久| 欧美午夜视频网站| 飘雪影视在线观看免费观看| 欧美第一淫aaasss性| 青青在线精品| 日本一区二区三区www| 亚洲欧洲综合| 欧美女孩性生活视频| 国产免费一区二区三区四区五区| 精品黑人一区二区三区久久| 国产在线观看91| 国产精品揄拍一区二区| 国产欧美日韩一区二区三区四区| 欧美综合在线播放| 成人丝袜视频网| 久久久精品一区二区涩爱| 91精品国产综合久久福利| sese在线视频| 国产精品一区电影| 欧美精品系列| 密臀av一区二区三区| 久久久久久久综合日本| 国产精品久久久久久99| 亚洲国产欧美一区| 国产不卡人人| 国产精品视频福利| 亚洲区国产区| 无码国产69精品久久久久网站 | 国产91porn| 韩国av一区二区三区| 午夜国产小视频| 欧美精品一级二级| 黄网址在线观看| 亚洲www在线| 亚洲午夜在线| 日本天堂在线播放| 婷婷综合在线观看| 五月婷婷六月丁香综合| 57pao国产成人免费| 同性恋视频一区| 国产精品亚洲αv天堂无码| 久久久久国产精品人| 青娱乐在线免费视频| 国产一区二区三区视频在线观看| 8av国产精品爽爽ⅴa在线观看| 五月天色一区| 国产在线精品一区二区夜色| 成人免费视频国产免费观看| 精品国产乱码久久久久久久久| 免费一二一二在线视频| 欧美日韩在线精品| 青青草精品视频| 国产一区二区视频在线观看免费| 日韩精品一区二区在线| 欧美办公室脚交xxxx| 欧美精品久久| 精一区二区三区| 日本网站免费观看| 亚洲视频在线观看免费| 中文成人在线| 国产精品久久中文字幕| 久久久精品2019中文字幕之3| 亚洲一级av毛片| 欧美精品在线第一页| 日韩成人午夜| 亚洲国产高清av| 亚洲国产精品久久一线不卡| 可以免费看污视频的网站在线| 91精品国产综合久久男男| 在线播放亚洲| 国产又粗又猛又爽又黄的视频小说| 欧美一区二区在线看| 伊人久久国产| 亚洲欧美国产另类| 国产乱码久久久| 97精品久久久中文字幕免费| 深夜福利久久| 久久久无码人妻精品无码| 91精品91久久久中77777| 欧美人与禽猛交乱配| 欧美一区1区三区3区公司| 国产一区二区三区在线看麻豆| 91美女免费看| 久久综合久久88| 国产一区三区在线播放| 色悠悠在线视频| 在线不卡免费av| 极品美女一区|