精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

將越獄問題轉換為求解邏輯推理題:「濫用」推理能力讓LLM實現自我越獄

人工智能 新聞
近期,來自北京航空航天大學、360 AI 安全實驗室、新加坡國立大學和南洋理工大學的研究團隊提出了一種名為「Reasoning-Augmented Conversation(RACE)」 的新型多輪攻擊框架。

應宗浩,現為北航復雜關鍵軟件環境全國重點實驗室博士生,由劉艾杉教授、劉祥龍教授與陶大程教授共同指導,目前研究興趣為大模型越獄攻防。他所在的智能安全團隊由劉祥龍教授負責,近期在大模型安全評測體系方面進行了系列研究工作,包括對抗攻擊、后門投毒、越獄攻擊、偏見調控等,發表 TPAMI、IJCV、ICML 等頂會頂刊論文 100 余篇。

大語言模型(LLMs)在當今的自然語言處理領域扮演著越來越重要的角色,但其安全性問題也引發了廣泛關注。

近期,來自北京航空航天大學、360 AI 安全實驗室、新加坡國立大學和南洋理工大學的研究團隊提出了一種名為「Reasoning-Augmented Conversation(RACE)」 的新型多輪攻擊框架,旨在通過推理增強的對話方式,突破大語言模型的安全對齊機制。這一研究引發了學術界和工業界的廣泛關注。

  • 論文標題:Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models
  • 論文鏈接:https://arxiv.org/pdf/2502.11054
  • GitHub 鏈接:https://github.com/NY1024/RACE

RACE 框架的核心思想

推理增強對話,解鎖大語言模型的「越獄」新路徑

大語言模型(LLMs)在推理和邏輯任務中表現出色,但這種強大的推理能力卻可能被惡意利用。

RACE 框架的核心思想正是利用這些模型的推理能力,將有害意圖偽裝成看似無害的復雜推理任務,從而在不知不覺中引導模型生成有害內容,突破其安全對齊機制

為何選擇推理增強攻擊?

大語言模型在邏輯推理、常識推理和數學解題等任務中表現出色,但這種強大的推理能力卻可能被惡意利用。

傳統的攻擊方法通常直接發送有害查詢,很容易被模型的安全機制識別并拒絕。然而,推理任務通常被視為「良性」問題,模型會積極嘗試解答。RACE 框架正是抓住了這一點,將有害意圖巧妙地轉化為推理任務,讓模型在解答過程中不知不覺地生成有害內容。

 RACE 的設計原則:推理任務的「雙面性」

RACE 框架的核心設計基于推理任務的「雙面性」:一方面,推理任務本身是無害的,模型會積極嘗試解答;另一方面,這些任務的設計卻暗藏玄機,其解答過程會逐步引導模型生成有害內容。

具體來說,RACE 框架將攻擊分為兩個角色:受害者模型影子模型

  • 受害者模型:專注于解決推理任務,看似在進行合法的推理。
  • 影子模型:負責生成和優化查詢,但并不直接識別背后的有害意圖。

獨立來看,每個角色似乎都在進行合法的推理活動。然而,當兩者結合時,這種互動卻最終導致了攻擊的成功。這種設計巧妙地利用了大語言模型的推理能力,使其在不知不覺中「自我越獄」。

如何實現推理驅動的攻擊?

為了實現這種推理驅動的攻擊,RACE 框架引入了以下關鍵機制:

  • 攻擊狀態機(ASM)框架:將攻擊過程建模為一系列推理狀態和狀態轉換,確保每一步都符合邏輯推理的規則,同時逐步推進攻擊目標。這種結構化的攻擊方式不僅提高了攻擊的成功率,還使得攻擊過程更加難以被檢測。
  • 動態優化與恢復機制:通過增益引導探索(Gain-guided Exploration)、自我博弈(Self-play)和拒絕反饋(Rejection Feedback)三個模塊,動態優化攻擊過程。

三大核心模塊

  • 增益引導探索(Gain-guided Exploration):該模塊通過信息增益(Information Gain)來衡量查詢在攻擊過程中的有效性,選擇與目標語義一致且能提取有用信息的查詢,確保攻擊的穩步進展。

  • 自我博弈(Self-play):自我對抗模塊通過模擬受害者模型的拒絕響應,提前優化查詢結構,提高攻擊效率。這一模塊利用影子模型和受害者模型之間的相似性,通過 “自我博弈” 來優化查詢。

  • 拒絕反饋(Rejection Feedback):當攻擊嘗試失敗時,拒絕反饋模塊會分析失敗的原因,并將失敗的查詢重構為替代的推理任務,從而快速恢復并維持攻擊的穩定性。

實驗結果

攻擊成功率大幅提升

研究團隊在多種大語言模型上進行了廣泛的實驗,包括開源模型(如 Gemma、Qwen、GLM)和閉源模型(如 GPT-4、OpenAI o1、DeepSeek R1 等)。

實驗結果表明,RACE 在復雜對話場景中表現出色,攻擊成功率(ASR)最高可達 96%。尤其是在針對領先的商業推理模型 OpenAI o1 和 DeepSeek R1 時,RACE 的攻擊成功率分別達到了 82% 和 92%,這一結果凸顯了推理驅動攻擊的潛在威脅。

防御機制

盡管 RACE 在攻擊效率上表現出色,但研究團隊也對其防御機制進行了評估。結果顯示,現有的防御方法(如 SmoothLLM、Self Reminder、ICD 和 JailGuard)對 RACE 的緩解效果非常有限,攻擊成功率僅降低了 1% 到 17.6%。這表明,推理驅動的攻擊方法對現有防御機制具有很強的魯棒性。

 研究意義與展望

RACE 框架的提出不僅揭示了大語言模型在推理能力上可能存在的安全漏洞,也為開發更強大的安全機制提供了新的思路。研究團隊強調,他們的目標是通過系統性地評估大語言模型的安全性,推動更安全的對齊技術的發展,而不是鼓勵惡意使用這些研究成果。

隨著大語言模型在各個領域的廣泛應用,其安全性問題將成為研究和開發的重點。RACE 框架的提出,無疑為理解和防范大語言模型的安全威脅提供了重要的參考。未來,如何開發出能夠有效抵御推理驅動攻擊的安全機制,將是學術界和工業界需要共同面對的挑戰。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-06-11 08:55:00

2022-09-16 07:23:24

人工智能自然語言系統

2025-05-26 17:16:51

2025-05-08 09:10:30

2025-03-07 09:34:14

2015-09-21 09:52:57

邏輯推理

2025-04-24 10:26:40

2024-07-05 15:06:00

2023-11-03 13:07:00

AI模型

2024-02-26 07:43:10

大語言模型LLM推理框架

2025-03-03 09:00:00

2024-07-08 06:30:00

2025-09-15 09:43:33

分層推理模型循環網絡推理

2025-08-13 10:21:50

2024-02-26 13:48:00

模型數據

2024-12-23 07:20:00

LLM逆向思維語言模型

2023-05-15 15:38:59

AI模型

2013-12-17 10:02:30

越獄iOS7

2025-10-13 09:07:00

2025-02-10 13:00:00

模型訓練AI
點贊
收藏

51CTO技術棧公眾號

看片一区二区| 青青操视频在线| 欧美日韩三级| 亚洲精品久久久久中文字幕欢迎你| 漂亮人妻被中出中文字幕| 国产日产精品久久久久久婷婷| 精品一区二区免费看| 欧美精品久久久久久久免费观看| wwwwww日本| 国产亚洲字幕| 色999日韩国产欧美一区二区| 亚洲图片小说在线| 三级在线观看网站| 久久精品999| 97超级碰碰碰久久久| 国产jizz18女人高潮| 另类尿喷潮videofree| 欧美影视一区在线| 人妻夜夜添夜夜无码av | 亚洲成人网av| 国产成人精品最新| 高h视频免费观看| 国内精品伊人久久久| 日韩你懂的在线播放| 高清一区二区视频| 松下纱荣子在线观看| 亚洲欧美一区二区三区极速播放| 日本不卡一二三区| 欧美一级淫片aaaaaa| 狠狠色狠狠色综合| 国产美女久久精品香蕉69| 亚洲久久在线观看| 狠狠88综合久久久久综合网| 日韩在线播放一区| jizz中文字幕| 九九亚洲精品| 日韩激情av在线播放| 亚洲高清av一区二区三区| 91精品店在线| 欧美系列一区二区| 黄色片视频在线播放| 草草视频在线观看| 亚洲一区二区三区四区在线 | 在线视频二区| 国产亚洲制服色| 精品一区久久久| 秋霞欧美在线观看| 大美女一区二区三区| 亚洲淫片在线视频| 国产毛片在线视频| 久久草av在线| 91久久国产精品91久久性色| 国产伦一区二区| 韩国欧美一区二区| 91精品啪aⅴ在线观看国产| 中文字幕免费播放| 美女mm1313爽爽久久久蜜臀| 国产欧美日韩高清| 亚洲一区二区三区高清视频| 蜜臂av日日欢夜夜爽一区| 国产精品一久久香蕉国产线看观看| 日韩精品久久久久久免费| 久久久久久亚洲精品杨幂换脸| 奇米一区二区三区四区久久| 香蕉影院在线观看| 日韩专区在线视频| 国产精品自在线| 国产精品毛片一区视频播 | 免费**毛片在线| 国产精品久久国产精麻豆99网站| 致1999电视剧免费观看策驰影院| 亚洲麻豆精品| 亚洲女女做受ⅹxx高潮| 国产经典久久久| xxxx在线视频| 日韩欧美在线视频免费观看| 日本熟妇人妻中出| 一区二区三区| 精品国产免费一区二区三区香蕉| 日韩免费高清一区二区| 伊人春色之综合网| 日韩在线免费高清视频| 欧美又粗又大又长| 性欧美xxxx大乳国产app| 欧洲日本亚洲国产区| 伊人久久成人网| 丁香婷婷综合五月| 日本午夜精品一区二区| 国产网站在线免费观看| 亚洲高清久久久| 丁香婷婷激情网| 精品网站999| 精品无人国产偷自产在线| 大胸美女被爆操| 激情久久五月| 国产日韩av在线| 欧美在线视频第一页| 亚洲国产高清一区二区三区| 国产精品激情自拍| 国产18精品乱码免费看| 中文字幕第一区综合| 久久久久久av无码免费网站下载| www.精品| 欧美成人一区二区| 你懂得视频在线观看| 国内一区二区三区| 国产精品综合久久久| 香蕉视频黄色片| 综合久久久久久| 久久久久久久久久久久久国产精品| 亚洲网站免费| 亚洲视频在线视频| 国产一级淫片a| 精品一区二区三区影院在线午夜| 国内不卡一区二区三区| 黄色在线视频网站| 欧美亚洲高清一区| 亚洲一区二区观看| 午夜免费一区| 国产成人免费av| 少妇人妻精品一区二区三区| 亚洲女子a中天字幕| 日日噜噜噜噜久久久精品毛片| 国产精品巨作av| 欧美xxxx18性欧美| 在线播放成人av| 久久精品人人做人人综合| 波多野结衣综合网| 成人在线视频中文字幕| 久久精品国产欧美激情| 最新在线中文字幕| 久久久久九九视频| 久久久噜噜噜www成人网| 成人性生交大片免费看中文视频| 欧美成人一二三| 国产一区二区三区中文字幕| 中文天堂在线一区| 青青在线免费观看视频| 亚洲第一二三区| 欧美在线视频观看免费网站| 黄色av小说在线观看| 夜夜爽夜夜爽精品视频| 亚洲精品一二三四| 欧美日韩1区| 91福利入口| 50度灰在线| 日韩视频永久免费| 欧美一区二区三区爽爽爽| 国产一区免费电影| 一本色道久久88亚洲精品综合| 日韩午夜视频在线| 日韩视频欧美视频| 国产一区二区网站| 亚洲黄色片在线观看| 一个人看的视频www| 欧美精品国产| 国产经品一区二区| 高清视频在线观看三级| 亚洲国产欧美在线成人app| 日韩久久久久久久久| 91在线码无精品| 情侣黄网站免费看| 一本色道久久综合亚洲精品酒店| 国产91精品最新在线播放| 国产美女性感在线观看懂色av| 欧美中文字幕一区| 污免费在线观看| 中文在线播放一区二区| 风间由美一区二区三区| 欧美裸体视频| 在线亚洲国产精品网| 91久久精品国产91性色69 | 精品成人一区二区三区| 精品国产免费观看| 欧美经典三级视频一区二区三区| 亚洲美女爱爱视频| 在线不卡视频| 欧美在线视频二区| 国产精品99久久免费| 久久久免费高清电视剧观看| 女人天堂在线| 欧美疯狂做受xxxx富婆| 日韩av免费网址| 国产色爱av资源综合区| 亚洲一二区在线观看| 亚洲东热激情| 西游记1978| 4438全国亚洲精品观看视频| 日本最新高清不卡中文字幕| 男人资源在线播放| 日韩电影中文 亚洲精品乱码| 在线视频1卡二卡三卡| 一区二区三区蜜桃| 成人午夜福利一区二区| 国产福利精品导航| 看欧美ab黄色大片视频免费| 欧美日本不卡| 亚洲mv在线看| 欧美交a欧美精品喷水| 国产精品自产拍在线观看| 黄色在线观看视频网站| 最近2019年日本中文免费字幕 | 黄色一级免费视频| 久久久亚洲国产美女国产盗摄 | 91论坛在线播放| 成 人 黄 色 小说网站 s色| 国产欧美日本| 妞干网这里只有精品| 欧美美女视频| 精品国产日本| 国产aa精品| 国产精品爽爽爽爽爽爽在线观看| 老司机深夜福利在线观看| 久久精品色欧美aⅴ一区二区| 欧美91精品久久久久国产性生爱| 精品久久一二三区| 国产伦理吴梦梦伦理| 在线观看免费成人| 久久国产黄色片| 一区二区三区日韩欧美| 国产黄色录像片| 国产欧美精品一区aⅴ影院 | 中文字幕精品影院| 粉嫩av免费一区二区三区| 伊人久久大香| 国产乱人伦真实精品视频| 成人教育av| 欧美一级视频一区二区| segui88久久综合| 欧美成人午夜激情视频| 天堂地址在线www| 中文字幕日本欧美| 国产三级电影在线观看| 亚洲欧美日韩精品久久奇米色影视| 亚洲AV无码精品国产| 91精品国产综合久久久久久久久久| 超碰在线97观看| 色婷婷久久久久swag精品 | 欧美日韩精品欧美日韩精品| 久久永久免费视频| 色视频成人在线观看免| 国产精品视频123| 色综合久久久久| 国产一级淫片a视频免费观看| 欧美日韩精品二区| 国产免费av一区二区| 婷婷综合久久一区二区三区| 国产午夜精品无码一区二区| 午夜伦理一区二区| youjizz在线视频| 日韩欧美中文字幕在线播放| 国产精品国产三级国产专区52| 激情成人在线视频| 黑人精品无码一区二区三区AV| 欧美日韩午夜激情| 特级做a爱片免费69| 色呦呦国产精品| 国产九色91回来了| 欧美日韩国产在线观看| a在线观看视频| 精品福利一二区| 天堂a√中文在线| 亚洲丝袜在线视频| 亚洲视频tv| 欧美激情网站在线观看| 阿v视频在线| 国产精品99导航| 91成人小视频| 国产欧美日韩亚洲| 国产精品一区2区3区| 中文字幕久久综合| 欧美精品激情| 97av视频在线观看| 麻豆精品在线播放| 影音先锋资源av| www激情久久| 5566中文字幕| 亚洲妇熟xx妇色黄| 国产污视频网站| 在线电影国产精品| 天天干天天操av| 中文字幕亚洲综合久久筱田步美| 99在线播放| 日本国产一区二区三区| 96sao精品免费视频观看| 国模精品一区二区三区| 日韩精品欧美| 一本久道高清无码视频| 日韩1区2区3区| 91九色蝌蚪porny| 中文幕一区二区三区久久蜜桃| 久久久久久久久久一区二区三区| 一本到三区不卡视频| 国产又粗又猛又爽又黄视频| 日韩精品免费在线视频| 免费观看在线黄色网| 欧美一乱一性一交一视频| 日本久久二区| 欧美精品一区二区三区在线四季 | 亚洲欧美二区三区| 色av性av丰满av| 精品捆绑美女sm三区| 中国日本在线视频中文字幕| 51ⅴ精品国产91久久久久久| 国产电影一区二区| 欧美视频小说| 亚洲韩日在线| 黄色一级片免费播放| 国产色婷婷亚洲99精品小说| 91精品国产乱码久久久张津瑜| 91精品国产综合久久久久久久| 都市激情一区| 992tv在线成人免费观看| 精品久久免费| 亚洲视频电影| 日韩精品1区2区3区| 亚洲熟女乱综合一区二区三区| 亚洲欧美另类久久久精品| 中文字幕第315页| 日韩精品高清在线| 超黄网站在线观看| 97久久人人超碰caoprom欧美 | 黄页网站在线观看视频| 国产一区二区按摩在线观看| 91视频免费在观看| 日本精品免费观看高清观看| 性猛交xxxx| 97国产精品视频人人做人人爱| 天堂av一区| 亚洲激情免费视频| 国产麻豆一精品一av一免费| 国产日韩精品中文字无码| 日本高清不卡在线观看| 污视频网站在线播放| 亚州精品天堂中文字幕| 北条麻妃在线一区二区免费播放| 国产免费一区二区三区四在线播放 | 日韩中文字幕一区二区高清99| 中国成人在线视频| 韩国视频一区二区| 中文字幕亚洲欧美日韩| 欧美一区二区精美| av网站网址在线观看| 92国产精品视频| 欧美日韩国产探花| 99热这里只有精品2| 一区二区三区四区亚洲| 精品人妻一区二区三区麻豆91| 九色精品免费永久在线| 亚洲精品一区二区三区在线| 第九区2中文字幕| 国产成人精品影视| 日韩精品一区二区三区国语自制| 亚洲国产精品va在线看黑人动漫| av中文资源在线资源免费观看| 久久av免费一区| 久久久精品日韩| 欧日韩不卡视频| 欧美一级理论性理论a| 免费在线国产视频| 精品一区二区三区日本| 视频一区二区国产| 国产三级aaa| 欧美大胆人体bbbb| 在线看片福利| 亚欧洲精品在线视频免费观看| 久久er精品视频| 九九热精品免费视频| 亚洲国产三级网| 先锋欧美三级| 天天综合五月天| av成人老司机| 亚洲图片中文字幕| 久久91超碰青草是什么| 欧美综合精品| 一级做a免费视频| 亚洲国产aⅴ成人精品无吗| 免费在线高清av| 成人情趣片在线观看免费| 亚洲一级黄色| 免费看黄色三级| 欧美xxxx老人做受| 666av成人影院在线观看| 在线一区高清| 91免费观看国产| 国产又粗又猛视频免费| 91黄色8090| 国产精品久久久久蜜臀| 亚洲精品国产成人av在线| 欧美日韩一区二区三区在线| 黄色大片在线| 亚洲国产一区在线| 不卡电影一区二区三区| 亚洲综合网av| 91精品国产高清久久久久久久久| 日韩欧美午夜| 成人免费网站黄| 日韩免费福利电影在线观看| 裤袜国产欧美精品一区| 国产午夜精品视频一区二区三区|