精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

AI越會思考,越容易被騙?「思維鏈劫持」攻擊成功率超過90%

人工智能 新聞
獨立研究者 Jianli Zhao 等人近日的一項新研究發現,通過在有害請求前填充一長串無害的解謎推理序列(harmless puzzle reasoning),就能成功對推理模型實現越獄攻擊。

思維鏈很有用,能讓模型具備更強大的推理能力,同時也能提升模型的拒絕能力(refusal),進而增強其安全性。比如,我們可以讓推理模型在思維過程中對之前的結果進行多輪反思,從而避免有害回答。

然而,反轉來了!獨立研究者 Jianli Zhao 等人近日的一項新研究發現,通過在有害請求前填充一長串無害的解謎推理序列(harmless puzzle reasoning),就能成功對推理模型實現越獄攻擊。他們將這種方法命名為思維鏈劫持(Chain-of-Thought Hijacking)。

做個類比,就像你試圖繞過一個高度警惕的保安 (AI 的安全系統)。你沒有硬闖,而是遞給他一個極其復雜的 1000 塊拼圖 (良性的推理鏈),并誠懇地請他幫忙。這位推理愛好者保安立刻被吸引,全神貫注地投入到解謎中,他的全部注意力都從「防衛」轉移到了「解題」上。就在他放下最后一塊拼圖,感到心滿意足時,你順口說道:「太好了,那我現在就拿走這袋黃金了」 (有害指令)。此時,他的安全防備 (拒絕信號) 已經被「拼圖」稀釋到了最低點,于是下意識地揮手讓你通過。

這聽起來很荒謬,但這正是最近一項研究揭示的思維鏈劫持攻擊的核心原理:通過讓 AI 先執行一長串無害的推理,其內部的安全防線會被「稀釋」,從而讓后續的有害指令「趁虛而入」。

在 HarmBench 基準上,思維鏈劫持對 Gemini 2.5 Pro、GPT o4 mini、Grok 3 mini 和 Claude 4 Sonnet 的攻擊成功率(ASR)分別達到了 99%、94%、100% 和 94%,遠遠超過以往針對推理模型的越獄方法。

  • 論文標題:Chain-of-Thought Hijacking
  • 論文地址:https://arxiv.org/abs/2510.26418

思維鏈劫持:攻擊設計

思維鏈劫持(CoT Hijacking)被定義為一種基于提示的越獄方法:該攻擊會在有害指令前添加一個冗長的、良性的推理前言(reasoning preface),并輔以一個最終答案提示(final-answer cue)。這種結構系統性地降低了模型的拒絕率:良性的 CoT 稀釋了拒絕信號,而提示則將注意力轉移到了答案區域。

為了規模化地構建攻擊,該團隊使用一個輔助 LLM 實現了一個自動化流程(Seduction),用于生成候選的推理前言并整合有害內容。

每個候選項都會通過對目標模型的評判調用(judge call)來評分,以提供如下信息:

  • 輸出是否為拒絕
  • CoT 的長度

這個黑盒反饋循環會迭代地優化提示,從而在無需訪問模型內部參數的情況下,產生有效的越獄。下圖展示了一些示例。

在 HarmBench 上的主要實驗

該團隊采用了幾種針對推理模型的特定越獄方法作為基線,包括 Mousetrap、H-CoT 和 AutoRAN。鑒于每個越獄樣本的計算成本高昂,該團隊使用 HarmBench 的前 100 個樣本作為基準。

目標模型包括 Gemini 2.5 Pro、ChatGPT o4 Mini、Grok 3 Mini 和 Claude 4 Sonnet,所有評估均在 Chao et al.(2024b)的統一評判協議下進行。該團隊報告攻擊成功率(ASR)作為評估越獄有效性的主要指標。

結果,在所有模型上,思維鏈劫持的表現都一致優于基線方法,包括在最前沿的專有系統上。這表明,擴展的推理序列可以作為一個全新的、極易被利用的攻擊面。

GPT-5-mini 上的推理投入研究

該團隊進一步在 GPT-5-mini 上,使用 50 個 HarmBench 樣本測試了思維鏈劫持在不同推理投入(reasoning-effort)設置(最小、低、高)下的表現。

有趣的是,攻擊成功率在「低投入」下最高,這表明推理投入和 CoT 長度是相關但又不同的控制變量。更長的推理并不保證更強的穩健性 —— 在某些情況下它反而降低了穩健性。

大型推理模型中的拒絕方向

該團隊也研究大型推理模型(LRM)中的拒絕行為是否也可以追溯到激活空間(activation-space)中的某個單一方向。

通過對比模型在處理有害指令與無害指令時的平均激活差異,可以計算出一個拒絕方向(refusal direction)。這個方向代表了區分拒絕與遵從的主要特征。為了更好地捕捉拒絕特征,該團隊轉向了一個更穩健、更復雜的推理模型 ——Qwen3-14B,該模型擁有 40 個層。

根據消融得分、轉向(steering)有效性和 KL 散度約束,該團隊在第 25 層、位置 -4 處觀察到了最強的拒絕方向。

所有評估均使用 JailbreakBench 數據集,并使用子字符串匹配和 DeepSeek-v3.1 作為評判者(judge)。

該團隊也對具體機制進行了分析。他們發現,在推理過程中,下一個 token 的激活反映了對先前所有 token 的注意力。有害意圖的 token 會放大拒絕方向的信號,而良性 token 則會削弱它。通過迫使模型生成長鏈的良性推理,有害的 token 在被關注的上下文中只占很小一部分。結果,拒絕信號被稀釋到閾值以下,導致有害的補全內容得以「蒙混過關」。

該團隊稱這種效應為拒絕稀釋(refusal dilution)。他們還在論文中進行了更進一步的細致分析,詳見原論文。

結果與討論

研究團隊的結果表明,思維鏈(CoT)推理雖然能提升模型的準確性,但同時也引入了新的安全漏洞。實驗進一步顯示,這類攻擊具有普遍性。

機制分析發現,即使在具備推理增強的模型架構中,模型的拒絕行為主要由一個低維信號(拒絕方向)控制。然而,這個信號非常脆弱:當推理鏈變長時,良性的推理內容會稀釋拒絕激活,注意力也會逐漸偏離有害 token。

因此,這一發現直接挑戰了「更多推理帶來更強穩健性」的假設。相反,延長推理鏈所帶來的額外計算可能反而加劇安全失效,尤其是在專門優化長 CoT 的模型中。由此,那些依賴淺層拒絕啟發式(shallow refusal heuristics)卻未能隨推理深度共同擴展安全機制的對齊策略,其可靠性受到質疑。

在緩解方面,研究表明僅修補提示并不足以解決問題。現有防御多局限于特定領域,且忽略了推理階段的特殊漏洞。更有效的防御可能需要將安全性嵌入推理過程本身,例如跨層監控拒絕激活、抑制拒絕信號稀釋,或確保模型在長推理過程中始終關注潛在有害的文本跨度(spans)。這仍有待進一步探索。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-07-29 07:04:00

大模型AI訓AI人工智能

2021-01-18 11:09:42

區塊鏈比特幣工具

2025-08-06 06:00:00

AI人工智能AI安全

2024-07-25 12:35:33

2014-08-29 10:05:02

2025-02-12 10:05:00

AILLM訓練

2025-05-26 09:06:00

2018-05-13 15:56:28

工業4.0制造業物聯網

2021-04-27 22:38:41

代碼開發前端

2022-07-29 08:40:20

設計模式責任鏈場景

2018-10-09 15:21:09

路由器定期重啟

2012-10-23 14:27:55

無奈大裁員濾鏡拍照

2025-07-29 00:15:00

2025-05-08 06:00:00

AI幻覺AI人工智能

2021-02-22 11:00:39

機器學習人工智能AI

2025-10-16 07:42:18

2018-05-05 08:54:24

2016-03-16 09:47:55

2023-11-10 15:36:10

2025-03-10 09:15:00

點贊
收藏

51CTO技術棧公眾號

欧美激情亚洲自拍| 成人免费一区二区三区在线观看| 色婷婷综合久久久久中文字幕1| 黄色特一级视频| av av片在线看| 91精品国产福利在线观看麻豆| 欧美精品高清视频| 国产手机视频在线观看| www.国产.com| 国产精品亚洲欧美| 国产亚洲视频在线| 中文字幕1234区| 青草在线视频在线观看| av中文字幕在线不卡| 日本91av在线播放| 日韩欧美视频免费观看| 麻豆视频久久| 精品久久久久久国产| 亚洲第一导航| xxxwww在线观看| 国产精品亚洲产品| 亚洲社区在线观看| 五月天婷婷影视| 高清视频在线观看三级| 国产欧美精品国产国产专区| 亚洲伊人久久大香线蕉av| 亚洲 欧美 视频| 999精品一区| 亚洲第一网站男人都懂| 国产又大又黄又粗的视频| h视频在线免费| 国产成人精品综合在线观看| 国产黑人绿帽在线第一区| 一起操在线播放| 大奶一区二区三区| 欧美日韩国产电影| 欧洲黄色一级视频| av在线麻豆| 久久久精品日韩欧美| 91中文字幕在线| 日本一本在线观看| 欧美日韩精品一本二本三本| 亚洲天堂第一页| 女女调教被c哭捆绑喷水百合| 亚洲成人激情社区| 亚洲精品日日夜夜| 视频一区三区| 欧美特级特黄aaaaaa在线看| 久久国产精品99久久久久久老狼| 久久精品人人做人人爽| 蜜桃av乱码一区二区三区| 四虎精品一区二区免费| 欧美性黄网官网| 毛片在线视频观看| 一区二区三区视频网站 | 中文欧美日本在线资源| 中文字幕第3页| 欧美大片91| 欧美精品一卡二卡| 黄色三级视频在线| 人人鲁人人莫人人爱精品| 亚洲成精国产精品女| 成年在线观看视频| aa在线视频| 中文字幕一区二区三区在线观看| 日韩亚洲视频| 触手亚洲一区二区三区| 久久嫩草精品久久久精品一| 精品国产一区二区三| 亚洲成人av综合| 国产成人激情av| 91久色国产| 精品人妻久久久久一区二区三区 | 9色国产精品| 久久久久久久久国产| 538任你躁在线精品视频网站| 久久成人综合| 日韩在线免费视频| 天海翼在线视频| 91精品秘密在线观看| 亚洲欧美国产高清va在线播| 欧洲一级黄色片| 中国av一区| 亚洲一级片在线看| 法国空姐电影在线观看| 国产探花一区二区| 中文字幕日韩av| 大胸美女被爆操| 欧美电影《睫毛膏》| 久久精品视频va| 免费人成在线观看| 99人久久精品视频最新地址| 国产69精品99久久久久久宅男| 99免费在线观看| 国产日本精品| 国产精品69av| 国产精品伦一区二区三区| 日本亚洲一区二区| 成人羞羞国产免费| 国产福利小视频| caoporn国产一区二区| 久久天天狠狠| 1024视频在线| 一区二区三区 在线观看视频| www.国产在线视频| 中文字幕21页在线看| 欧美三级韩国三级日本三斤| 涩多多在线观看| 激情小说一区| 最近2019中文字幕大全第二页 | 国产欧美日产一区| 91香蕉视频网址| 国产在线1区| 午夜欧美在线一二页| 99视频精品免费| 久久爱www.| 亚洲系列中文字幕| 久久精品国产亚洲av麻豆色欲 | 在线观看免费的av| 日韩av影院| 欧美精品一区二区免费| 久草热在线观看| aa级大片欧美| 国产人妻人伦精品| 成人精品国产| 亚洲欧洲日韩国产| 妺妺窝人体色www聚色窝仙踪 | 香港一级纯黄大片| 亚洲欧美日韩国产中文在线| 亚洲视频在线a| 日韩美女精品| 国内精品久久久久| 国产丝袜在线视频| 国产精品欧美久久久久无广告| 日韩欧美国产免费| 老司机aⅴ在线精品导航| 美女性感视频久久久| 一级日韩一级欧美| 国产精品入口麻豆九色| 国语对白做受xxxxx在线中国| 精品日产乱码久久久久久仙踪林| 九九九久久久久久| 国产美女三级无套内谢| 日韩理论在线观看| www.日本xxxx| 欧美特黄一级大片| 国产成人精品一区二区| 激情小说 在线视频| 欧美午夜激情视频| 亚洲熟妇无码av| 国产亚洲毛片| 久久国产一区| 亚洲性受xxx喷奶水| 日韩精品黄色网| 亚洲黄色激情视频| 91免费观看国产| 男人操女人免费软件| 女人av一区| 国产精品91久久久| 成年人免费在线视频| 欧美性色黄大片| 青青草自拍偷拍| 精品一二线国产| 国产精品88久久久久久妇女| 精品欧美视频| 久久久久久久久亚洲| 天堂а√在线8种子蜜桃视频 | 久久国产精品久久久久| 99久久国产热无码精品免费| 亚洲精品成a人| 完美搭档在线观看| 亚洲欧美日韩精品一区二区| 人禽交欧美网站免费| av成人在线播放| 日韩在线播放视频| 午夜精品久久久久久久91蜜桃| 亚洲一区国产视频| 一本色道综合久久欧美日韩精品| 美女被久久久| 99re99热| 欧美人成在线观看ccc36| 国产精品aaaa| 国产在线激情| 亚洲精品视频在线播放| 亚洲综合成人av| 亚洲视频一区在线观看| 视频免费在线观看| 日日摸夜夜添夜夜添国产精品| 成人短视频在线看| 另类图片第一页| 国产美女久久精品| 国产美女福利在线观看| 亚洲女同精品视频| 国产美女主播在线观看| 疯狂欧美牲乱大交777| 91免费在线看片| 国产99久久久久| 国产熟人av一二三区| 亚洲在线久久| 欧日韩一区二区三区| 亚洲三级电影| 欧美自拍视频在线| av在线免费网站| 亚洲人精品午夜在线观看| 国产又爽又黄免费软件| 欧美视频免费在线| 亚洲欧美精品aaaaaa片| 97久久超碰国产精品电影| 天天干天天操天天做| 亚洲激情偷拍| 中文字幕人成一区| 女人av一区| 99视频国产精品免费观看| 日本综合视频| 97精品伊人久久久大香线蕉| 国产理论在线观看| 国产亚洲精品成人av久久ww| 免费观看国产精品| 欧美挠脚心视频网站| www.色国产| 亚洲一区二区3| 免费黄色激情视频| jizz一区二区| av在线天堂网| 狠狠色丁香婷婷综合| 国产精品免费观看久久| 在线国产欧美| 97超碰在线视| 亚洲女同一区| 一区二区三区视频| 亚洲美女15p| 精品国产一区二区三区免费 | 免费中文字幕日韩欧美| 国产九色porny| 欧美a级片网站| 激情五月五月婷婷| 99九九热只有国产精品| 日韩精彩视频| 国产精品自拍区| 久久精彩视频| 婷婷精品在线观看| 国产精品乱码视频| 91成人短视频| 99久久伊人精品影院| 国产高清亚洲| 91美女福利视频高清| 欧美网站免费| 91精品中文在线| 高清一区二区中文字幕| 成人一区二区电影| 欧美性www| 91久久精品国产| 国产精品毛片aⅴ一区二区三区| 国产精品一区二区三区成人| 欧美成人一二区| 成人乱人伦精品视频在线观看| 欧美大片网站| 91免费电影网站| 日韩精品一级| 国模一区二区三区私拍视频| 成人爽a毛片| 精品1区2区| 久操成人av| 日韩一区二区三区资源| 日产精品一区二区| 午夜精品福利久久久| 美女又爽又黄视频毛茸茸| 久久综合精品国产一区二区三区| 国产特级黄色录像| 欧美国产一区视频在线观看| 三级黄色在线观看| 尤物视频一区二区| 国产在线视频99| 色综合视频一区二区三区高清| 青青视频在线免费观看| 欧美视频在线观看一区二区| 国产日韩免费视频| 亚洲大胆人体视频| 国产日本在线视频| 久久精品国产一区| а√在线中文网新版地址在线| 热re91久久精品国99热蜜臀| 久久精品97| 国产精品免费一区二区三区观看 | 日韩av免费电影| 999视频精品| 免费人成自慰网站| 日韩在线观看一区二区| 三级黄色片播放| a亚洲天堂av| 亚洲a∨无码无在线观看| 一区二区三区91| 国产成人麻豆免费观看| 日韩欧美国产三级电影视频| av女名字大全列表| 日韩视频免费看| 欧美激情护士| 91精品在线影院| 女厕嘘嘘一区二区在线播放 | 亚洲日本国产| 尤蜜粉嫩av国产一区二区三区| 国产精品一区一区| 中文字幕av网址| 亚洲精品免费视频| 天码人妻一区二区三区在线看| 91精品国产一区二区人妖| 日本一区高清| 欧美激情在线视频二区| 成人网ww555视频免费看| 国产v亚洲v天堂无码| 久久人人88| 免费在线激情视频| 国产成人免费av在线| 国产wwwwxxxx| 色综合久久综合网欧美综合网| 国产成人免费看一级大黄| 一区二区三区四区视频| cao在线视频| 91免费观看| 日韩在线二区| 国产激情在线观看视频| 成人免费看黄yyy456| 欧美一级特黄高清视频| 欧美亚洲综合色| 日夜干在线视频| 午夜精品久久久久久久白皮肤| 91视频成人| 亚洲高清资源综合久久精品| 国产精品久久久久久模特| 美女又黄又免费的视频| 18涩涩午夜精品.www| 中文字幕第2页| 亚洲网站在线看| 欧洲一区二区三区精品| 狠狠干一区二区| 精品999日本| 日本wwwxx| 亚洲精品免费看| 精品国产乱码一区二区三| 久久国产一区二区三区| 成人国产精品入口免费视频| 日本不卡一区| 亚洲免费综合| 国产美女喷水视频| 欧美色视频日本高清在线观看| www.五月天激情| 美女性感视频久久久| 久久在线观看| 99久re热视频精品98| 精品一区二区在线视频| 天堂а√在线中文在线鲁大师| 欧美日韩国产片| 国产一二区在线| 亚洲已满18点击进入在线看片| 亚洲一区色图| 最新国产精品自拍| 亚洲国产精品天堂| 无码精品一区二区三区在线| 2021国产精品视频| 亚洲第一福利社区| 狠狠热免费视频| 国产精品入口麻豆原神| 97久久人国产精品婷婷| 欧美成人精品不卡视频在线观看| 日本综合精品一区| 黄色成人在线免费观看| www.色精品| www.亚洲激情| 久久久国产成人精品| 一区二区三区国产好| 欧美日韩在线一| 国产视频一区二区三区在线观看| 中文字幕一二三四| 久久国产精品久久久久| 欧美交a欧美精品喷水| 国产精品69页| 亚洲人成影院在线观看| 日本高清视频网站| 国产91露脸中文字幕在线| 日韩精品91| 免费啪视频在线观看| 色综合色狠狠天天综合色| 免费黄色网页在线观看| 国产精品9999久久久久仙踪林| 欧美一级二区| 三级黄色在线观看| 日韩av网址在线观看| 亚洲mmav| 99在线观看视频免费| 久久精品视频免费观看| 97人妻人人澡人人爽人人精品| 97精品在线观看| 国产高清一区二区| 老熟妇精品一区二区三区| 欧洲激情一区二区| 牛牛在线精品视频| 日韩在线观看电影完整版高清免费| 国产老女人精品毛片久久| 国产精品美女久久久久av爽| www国产精品视频|