精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

ICML 2025 Oral | 從「淺對齊」到「深思熟慮」,清華牽頭搭起大模型安全的下一級階梯

人工智能 新聞
清華團隊突破了這一范式,率先將系統2思考引入大模型對齊,提出了融合自省推理的安全對齊框架STAIR。

本工作共同第一作者包括:張亦弛,清華大學計算機系三年級博士生,師從朱軍教授,研究方向是多模態大模型和大模型安全,在CVPR、NeurIPS、ICML等頂會發表多篇論文,曾主導開發了首個多模態大模型可信度全面評測基準MultiTrust;張思源,清華大學計算機系一年級碩士生,導師是蘇航副研究員,研究方向是大模型安全與對齊算法。本文通訊作者是清華大學人工智能學院董胤蓬助理教授和計算機系朱軍教授。其他合作者來自北航、瑞萊智慧、阿里安全、百川智能等單位。

在大語言模型(LLM)加速進入法律、醫療、金融等高風險應用場景的當下,“安全對齊”不再只是一個選項,而是每一位模型開發者與AI落地者都必須正面應對的挑戰。然而,如今廣泛采用的對齊方式,往往只是讓模型在檢測到風險提示時機械地回復一句“很抱歉,我無法滿足你的請求”——這種表面看似“安全”的機制,實則脆弱不堪。ICLR 2025 杰出論文首次將這類方法命名為 “淺對齊(Shallow Alignment)”[1]:模型的預測分布僅在回復開頭做出了有效偏移,卻從未真正理解潛在的風險語義。一旦越獄提示換個包裝,模型就輕易“破防”;而過度依賴這類簡單訓練,也往往會犧牲模型在通用任務中的語言能力與響應質量,帶來“安全 vs. 能力”的兩難局面。

圖片

越獄攻擊可以繞過大模型安全護欄[2]

在這一背景下,清華團隊突破了這一范式,率先將系統2思考引入大模型對齊,提出了融合自省推理的安全對齊框架STAIR。與其讓模型學會“條件反射式的閉嘴”,不如讓它真正學會思考之后再開口。STAIR通過三步走增強了對齊流程,驗證了測試時擴展(Test-Time Scaling)對模型安全的貢獻。在不降低通用能力的前提下,STAIR可以顯著提升開源模型在越獄攻擊下的魯棒性,在StrongReject上超越了以安全著稱的Claude3.5。它不止教模型“閉嘴”,而是教模型深入分析風險。它不再是安全與性能的零和博弈,而是將二者在推理下有機統一。STAIR的階梯引領大模型安全對齊從本能拒答走向深度自省,從格式安全邁向思維安全。

這篇題為Improving SafeTy Alignment with Introspective Reasoning的工作剛剛被ICML2025收錄為Oral論文(錄用率~1%)。而在STAIR的理論實踐基礎上,研究團隊進一步推出了RealSafe-R1模型,率先針對開源的DeepSeek-R1模型進行安全對齊,可以在不犧牲模型推理能力的前提下大幅提升安全性。相關代碼、訓練數據、模型均已開源,詳細算法和實驗細節請參考原始論文。

圖片

  • 論文標題:STAIR: Improving Safety Alignment with Introspective Reasoning
  • 論文鏈接:https://arxiv.org/abs/2502.02384
  • 開源鏈接:https://github.com/thu-ml/STAIR

圖片

  • 論文標題:RealSafe-R1: Safety-Aligned DeepSeek-R1 without Compromising Reasoning Capability
  • 論文鏈接:https://arxiv.org/abs/2504.10081
  • 開源鏈接:https://huggingface.co/RealSafe

接下來,讓我們一起“登梯”...

向安全對齊引入系統2思考

當前安全對齊方法大多基于簡短拒答的數據形式訓練模型,使得模型隱式建立了危險輸入到直接拒答的直覺性映射,類似于系統1快思考(System 1 Thinking)。研究者們受系統2慢思維(System 2 Thinking)提升模型推理能力的技術路線啟發,設計了STAIR對齊框架,力求幫助大模型真正理解風險指令,進行系統化的自我思考和風險評估,而不是條件反射式地拒絕回答。

圖片

從“本能拒絕”到“理性分析”的三步走

STAIR框架共包含三個階段:結構化思維鏈格式對齊、基于安全感知蒙特卡洛樹搜索的自提升、測試時擴展,能夠在不具備推理能力的模型上,實現性能與安全的雙效提升。

圖片

階段 1:結構化推理對齊

第一階段通過少量的結構化思維鏈數據進行有監督微調,使模型初步獲得推理能力。研究者設計了一個分步式的輸出格式,每一步推理都包括一個總結標題和詳細描述,從而幫助模型在應對風險時能夠逐步分析問題,并調用GPT-4o對安全和通用問題進行回復生成。模型在分步的內省深思后再正式輸出明確的回答,該回答需要經過風險識別后,作出合理拒絕或給出無害信息。這一階段的訓練也為后續按步驟切分回答,進行樹搜索和推理時搜索提供了基礎。

階段 2:基于安全感知蒙特卡洛樹搜索的自提升

第二階段使用蒙特卡洛樹搜索的方式構造自采樣的step-level偏序數據對,并使用DPO損失微調模型。研究者以每一個推理步驟/最終回答步驟作為一次動作,但與傳統蒙特卡洛樹搜索不同的是,為了同時優化模型的安全性和通用能力,在搜索過程中獎勵信號由安全分數和有用性分數兩個維度共同提供,即安全感知的蒙特卡洛搜索(Safety-Informed MCTS)。獎勵函數的設計一共包括3個條件:安全優先條件,有用性雙向條件,以及在僅考慮一個維度時能退化為原始蒙特卡洛搜索的條件。

圖片

  • 安全優先條件:安全回復總能獲得比不安全回復更高的分數。

圖片

  • 有用性雙向條件:當回復是安全時,越詳細越有用則分數越高;當回復存在風險時,越能幫助解決問題則分數越低。

圖片

  • 單一維度退化條件:當只考慮安全性或有用性中的一個維度時,蒙特卡洛搜索的過程退化為使用對應分數的搜索。這可以保證多元評分不影響原有搜索框架的效果。

基于以上條件,研究者通過理論推導,給出了一個滿足要求的最簡單形式的獎勵函數:R(H, S) = S·H + 2S,其中分數由模型進行自我打分。在經過足夠多輪的樹搜索后,研究者使用閾值控制策略來采樣step-level的偏序數據對,來提供細粒度的微調信號。整個采樣-微調過程將進行多輪,每一輪使用不同的訓練問題,以不斷強化模型的推理能力和安全對齊程度。

圖片

實驗選用了Llama-3.1-8B-Instruct和Qwen-2-7B-Instruct模型,利用從PKU-SafeRLHF(安全問答)、JailbreakV(越獄數據)和UltraFeedback(通用數據)三個主流數據集中采樣的問題,對模型進行訓練。在StrongReject、WildChat等安全評估和GSM8k、AlpacaEval等通用測試上的實驗結果顯示,經過前兩階段的微調,模型在安全性能上相比訓練前獲得了顯著提升,同時更好地平衡了安全性能和通用性能。

圖片

 階段 3:測試時擴展

圖片

第三階段是訓練一個獎勵模型,并指導語言模型進行測試時搜索。用于訓練獎勵模型的數據同樣采自第二階段的蒙特卡洛搜索樹中,采樣step-level數據和全程軌跡數據,并通過Bradley-Terry模型的優化目標微調過程獎勵模型(process reward model)。后續基于該獎勵模型給出的信號進行Best-of-N搜索或束搜索,實現錦上添花的效果。在Llama-3.1-8B模型上,結合束搜索,在StrongReject上達到了0.94的分數,顯著超過多個主流商用模型,達到了與Claude-3.5相當的安全性能。

圖片

這意味著推理增強的技術手段也可以在安全對齊上取得可靠的效果。安全與推理的有機統一,可以推動模型真正理解、分析并應對風險,在保障安全的同時保留語言能力與實用性。

RealSafe-R1的安全對齊實踐

在STAIR的理論基礎上,研究團隊進一步推出了RealSafe-R1模型,針對開源的DeepSeek-R1模型進行安全對齊。通過構建15,000條安全感知的推理軌跡,RealSafe-R1在提升模型安全性的同時,保持了其強大的推理能力,避免了傳統方法中常見的性能損失問題[3]。

圖片

具體地,研究者通過提示DeepSeek-R1在推理過程中注意安全風險,加強安全護欄,提升模型推理過程的安全性。經過一輪的有監督微調,各尺寸推理模型的安全性都得到了大幅提升,同時在數學、代碼等推理任務上的表現不受影響,甚至在事實性方面也有一定改進。

圖片

隨著推理模型成為主流,已有不少工作研究推理模型的安全風險,也使其安全加固成為一個重要研究問題。STAIR框架提供了一條可行路徑來賦能模型的深度安全對齊,以及在安全對齊時更好地維持其通用能力。期待相關領域未來進一步的研究與突破。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-12-25 15:31:40

2024-10-29 21:01:44

2010-11-22 10:04:15

虛擬化

2021-09-15 09:39:56

公共云云遷移云端

2025-06-20 14:29:02

模型訓練大數據

2025-06-17 06:21:13

2025-07-23 10:07:31

2021-07-14 10:33:41

云計算數據安全云安全

2025-03-11 08:37:42

2024-07-22 08:22:00

2021-10-14 09:00:00

云計算數字化轉型公有云

2025-07-17 09:28:09

2024-05-16 12:48:12

數據AI

2024-07-19 10:39:38

2025-04-28 00:04:00

傳統網絡安全

2025-09-29 07:42:00

2025-01-15 14:49:14

2025-07-25 08:45:00

AI模型測試

2025-06-11 07:11:00

點贊
收藏

51CTO技術棧公眾號

久久琪琪电影院| 精品福利在线导航| 中文字幕一区二区三区四区五区人| 一卡二卡在线视频| 极品av少妇一区二区| 亚洲欧美999| 亚洲黄色片免费| 黄色软件视频在线观看| 中文字幕精品一区二区精品绿巨人| 51国偷自产一区二区三区的来源| 青青青国产在线| 久久精品免费一区二区三区| 日韩精品小视频| 91插插插影院| 综合另类专区| 亚洲精品ww久久久久久p站| 欧美高清视频一区二区三区在线观看 | 亚洲人视频在线| sm性调教片在线观看| 亚洲欧美在线aaa| 欧美精品v日韩精品v国产精品| 国产女18毛片多18精品| 日韩高清不卡在线| 97视频国产在线| 真实国产乱子伦对白在线| 欧美三级伦理在线| 日韩精品在线第一页| 在线观看你懂的视频| 99只有精品| 色系网站成人免费| 欧美精品久久久久久久自慰| 成人在线观看免费网站| 中文字幕不卡在线观看| 久久国产主播精品| 免费看国产片在线观看| 韩国欧美国产1区| 国产精品免费看久久久香蕉| www.av麻豆| 伊人激情综合| 欧美激情xxxx| 欧美成欧美va| 中文字幕一区二区三区在线视频 | 懂色一区二区三区免费观看| 91视频国产高清| 国产精品无码天天爽视频| 琪琪一区二区三区| 国产精品极品美女粉嫩高清在线| caoporn国产| 香蕉久久夜色精品国产| 91sao在线观看国产| 亚洲黄色一区二区| 亚洲伊人观看| 国产成人精品一区| 国产污视频网站| 轻轻草成人在线| 国产精品欧美激情在线播放| 亚洲av无码乱码国产精品fc2| 日韩av网站在线观看| 国产精品久久久久高潮| 久草热在线观看| 开心九九激情九九欧美日韩精美视频电影 | 糖心vlog精品一区二区| 青青青伊人色综合久久| 国产一区红桃视频| jizz国产视频| jiyouzz国产精品久久| 另类欧美小说| 春暖花开成人亚洲区| 国产女人18水真多18精品一级做 | 欧美黄色精品| 久久久久久久久久久国产| 在线看成人av| 久久婷婷一区| 国产在线精品自拍| 性做久久久久久久久久| 91在线精品秘密一区二区| 日本一区二区高清视频| 国产原创精品视频| 亚洲成人av福利| 青青青国产在线视频| 97色婷婷成人综合在线观看| 欧美不卡一区二区三区四区| 人妻精品久久久久中文字幕 | 国产一区二区三区在线播放免费观看| 日韩精品电影一区二区三区| 亚洲经典一区| 欧美孕妇与黑人孕交| 中文字幕无码乱码人妻日韩精品| 狠狠色丁香婷综合久久| 国产麻豆日韩| 不卡在线视频| 五月天激情综合| 色婷婷综合网站| 粉嫩久久久久久久极品| 亚洲偷熟乱区亚洲香蕉av| 免费在线观看黄色小视频| 亚洲大胆视频| 国产欧美精品在线播放| 黑人精品一区二区三区| 日本一区二区三区视频视频| 欧美乱做爰xxxⅹ久久久| yw.尤物在线精品视频| 日韩免费看网站| 在线看片中文字幕| 亚洲私人影院| 91亚洲永久免费精品| 日本1级在线| 亚洲制服丝袜在线| 亚洲娇小娇小娇小| 日韩欧美中文字幕电影| 色综合导航网站| 最近国语视频在线观看免费播放| a在线播放不卡| 中文字幕精品—区二区日日骚| 超级白嫩亚洲国产第一| 日韩三级视频在线看| 色欲AV无码精品一区二区久久| 欧美精品99| 成人网在线免费看| 成年人视频在线观看免费| 亚洲va天堂va国产va久| 五月六月丁香婷婷| 久久精品国产www456c0m| 欧美一级大胆视频| 男人天堂手机在线观看| 一区二区三区日韩欧美精品| 亚洲美女爱爱视频| 精品国产乱码久久久久久果冻传媒| 国内免费久久久久久久久久久| 国产精品久久久久久久成人午夜| 日本一二三不卡| 成人免费观看毛片| 香蕉久久精品| …久久精品99久久香蕉国产| 亚洲成人一二三区| 一区二区三区精品在线观看| 精品亚洲视频在线| 成人精品电影| 国产精品视频男人的天堂| 成人在线免费公开观看视频| 日韩欧美高清在线视频| 久久久久久久久免费看无码 | 亚洲欧美aⅴ...| 亚洲欧美偷拍另类| 欧美电影一区| 成人国产精品久久久久久亚洲| 色三级在线观看| 欧美日韩在线三级| 国产视频精品免费| 九一九一国产精品| 色一情一乱一乱一区91| 欧美a级大片在线| 九九热这里只有在线精品视| 亚洲黄色片视频| 亚洲国产日韩在线一区模特| 91精品啪在线观看国产| 99综合精品| 久久综合久久久| 精品日韩视频| 久久精品国产精品亚洲| jizz中国女人| 亚洲va在线va天堂| 久久精品—区二区三区舞蹈 | 国产精品入口尤物| 日本在线看片免费人成视1000| 8v天堂国产在线一区二区| 丰满少妇被猛烈进入一区二区| 国产精品综合网| 成年人午夜免费视频| 婷婷精品在线| 国产精品久久久久aaaa九色| 欧美极品另类| 精品福利视频一区二区三区| 日韩在线视频不卡| 中文字幕在线观看一区| 日本wwww色| 久久av一区| 久久最新免费视频| 欧美福利在线播放网址导航| 国产精品久久av| 18av在线播放| 亚洲男人的天堂网站| 一级特黄特色的免费大片视频| 亚洲夂夂婷婷色拍ww47| 亚洲欧美色图视频| 麻豆国产欧美一区二区三区| 精品一区二区三区无码视频| 亚洲春色h网| 成人中文字幕+乱码+中文字幕| xxx.xxx欧美| 中文字幕亚洲欧美日韩在线不卡| 亚洲精品一区二区三区蜜桃 | 久久久久久久色| 国产剧情在线观看| 精品欧美一区二区久久| jizz国产在线观看| 亚洲一区二区三区三| 日韩av片在线| 99热这里都是精品| а 天堂 在线| 久久一区精品| 国产妇女馒头高清泬20p多| 成人在线免费观看91| 国产免费一区二区三区| 精品福利在线| 青草成人免费视频| 国产美女一区视频| 日韩视频免费大全中文字幕| 亚洲精品久久久久久动漫器材一区 | 菠萝蜜影院一区二区免费| 天堂中文在线官网| 欧美大片在线观看一区二区| 亚洲综合一区中| 91福利视频在线| 久草手机在线观看| 亚洲一区二区三区中文字幕在线| 欧美老女人性生活视频| 91一区二区在线观看| www.欧美com| 国内成+人亚洲+欧美+综合在线 | 国产成人在线播放视频| 亚洲精选在线视频| 亚洲熟女少妇一区二区| 久久久精品影视| a视频免费观看| 不卡欧美aaaaa| 岛国大片在线免费观看| 激情六月婷婷久久| 在线能看的av网站| 喷水一区二区三区| 北条麻妃av高潮尖叫在线观看| 亚洲国产一区二区三区a毛片| 日本天堂免费a| 久久久久久久久久久9不雅视频 | 国产淫片在线观看| 日韩最新在线视频| 日韩专区在线| 色婷婷av一区二区三区久久| 国产在线视频网站| 国产一区二区三区在线| 成人好色电影| 伊人成人开心激情综合网| 国产h在线观看| 一二美女精品欧洲| 日韩精品黄色| 久久视频免费观看| 最新超碰在线| 久久久久久国产精品久久| 欧美卡一卡二| 韩国精品久久久999| 国产ktv在线视频| 26uuu久久噜噜噜噜| 天堂av在线| 日本中文字幕不卡免费| 日韩三区在线| 成人h片在线播放免费网站| 国产 日韩 欧美| av一区二区三区免费| 国产精品高潮呻吟久久久久| 激情小说综合区| 少妇精品久久久一区二区三区| 美日韩精品免费| 欧美日韩激情在线一区二区三区| 亚洲欧美久久234| 一区二区三区网站| 一本久道高清无码视频| 国产视频一区欧美| 少妇一级淫免费放| 韩国毛片一区二区三区| 亚洲av无码一区东京热久久| 91性感美女视频| 成人无码av片在线观看| 亚洲免费在线电影| 日韩 国产 在线| 在线观看日韩电影| hs视频在线观看| 精品小视频在线| 素人av在线| 91精品国产一区| 国产精品一区二区免费福利视频| 亚洲在线免费看| 人人精品视频| 国产精品美女在线播放| 夜夜夜久久久| 在线免费看污网站| 91丝袜国产在线播放| 国产第一页精品| 一区二区三区免费看视频| 久久久久久亚洲av无码专区| 欧美一级二级三级蜜桃| 九色在线免费| 欧美国产日韩精品| 欧美视频第一| 精选一区二区三区四区五区| 久久激情电影| 乱人伦xxxx国语对白| 麻豆国产91在线播放| 国产精品久久久久久亚洲色| 国产精品美女视频| 免费看日韩毛片| 欧美一区二区高清| 91精品大全| 日本韩国在线不卡| www.丝袜精品| 一道本在线观看视频| 久久午夜视频| 国产福利在线观看视频| 亚洲欧美aⅴ...| 亚洲一区二区激情| 日韩精品久久久久久福利| 亚洲小说区图片| 成人福利在线观看| 日本a口亚洲| 日韩免费高清在线| proumb性欧美在线观看| 美女视频黄免费| 欧美酷刑日本凌虐凌虐| 黄色在线网站| 青草成人免费视频| 欧美亚洲国产日韩| 成人网站免费观看入口| 国产成人综合网站| 亚洲国产123| 4hu四虎永久在线影院成人| 高清国产福利在线观看| …久久精品99久久香蕉国产| 91麻豆精品国产91久久久久推荐资源| 在线精品日韩| 蜜桃av一区二区三区| 欧洲美熟女乱又伦| 一本到高清视频免费精品| 午夜视频免费在线| 2018日韩中文字幕| 久久精品福利| 免费一级特黄特色毛片久久看| 成人免费不卡视频| 国产大片aaa| 亚洲国产免费av| av影视在线看| 免费成人av网站| 欧美亚洲网站| 中文字幕成人动漫| 欧美亚一区二区| 川上优的av在线一区二区| 国产精品久久国产精品99gif| 精品99久久| 亚洲免费黄色网| 亚洲激情自拍视频| 亚洲精品综合网| 高清亚洲成在人网站天堂| 欧美a大片欧美片| 国产日产欧美视频| 国产日本一区二区| 在线不卡免费视频| 日韩中文在线中文网三级| 黄色成人小视频| 国产又大又长又粗又黄| 国产乱码精品1区2区3区| 国产一级片免费观看| 亚洲精品ady| 日本精品网站| 日本一道在线观看| 成人福利视频网站| 四虎成人在线观看| 在线看国产精品| 一区二区三区四区高清视频 | 久久天堂av综合合色| 日韩精品一区国产| 欧美a在线视频| 中文字幕在线观看不卡视频| 精品久久国产视频| 5566日本婷婷色中文字幕97| 日本欧美国产| 日韩高清一二三区| 色综合久久88色综合天天 | 亚洲精品成人精品456| 色噜噜一区二区三区| 国产精品露脸自拍| 国产精品av久久久久久麻豆网| 日本黄色网址大全| 在线不卡免费欧美| 精品丝袜在线| 中文字幕在线中文字幕日亚韩一区| 国产成人在线观看免费网站| 4438国产精品一区二区| 久久人人爽亚洲精品天堂| 风间由美一区二区av101| 亚洲高清免费在线观看| 亚洲国产精品视频| 电影av一区| 国产精品一区二区三区免费观看| 日日摸夜夜添夜夜添国产精品| 麻豆亚洲av熟女国产一区二| 国产一区二区三区中文| 99re8这里有精品热视频8在线| 亚洲一级免费观看| 午夜私人影院久久久久| 日本不卡三区| 欧美一区1区三区3区公司| 丁香五精品蜜臀久久久久99网站 |