精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

無需重訓(xùn)練+即插即用+性能零損耗,螞蟻集團×南洋理工首發(fā)微調(diào)安全框架,讓模型既安全又高效

人工智能 新聞
最近研究表明,模型的微調(diào)過程會嚴(yán)重削弱安全對齊能力,也就是說,模型能力越強反而越危險。

無需重新訓(xùn)練,也能一鍵恢復(fù)模型的安全意識了。

最近研究表明,模型的微調(diào)過程會嚴(yán)重削弱安全對齊能力,也就是說,模型能力越強反而越危險。

于是螞蟻集團聯(lián)合南洋理工大學(xué)針對性推出了模型安全對齊框架——EnchTable,可以讓模型在微調(diào)后依舊保持安全意識。

通過安全蒸餾+干擾感知融合兩大核心技術(shù),在多個模型架構(gòu)與任務(wù)中實現(xiàn)了安全與效用的最佳平衡,甚至在抗攻擊能力上超越了官方Instruct安全模型。

而且即插即用,完全不影響模型性能。

詳細內(nèi)容如下:

安全對齊具有“可遷移性”

目前陸續(xù)出現(xiàn)了多起有關(guān)微調(diào)模型安全能力下降的事件,其根本問題在于當(dāng)前的安全對齊機制無法隨模型微調(diào)而持續(xù)生效。

對此,研究團隊認(rèn)為:安全對齊(Safety Alignment) 本身是一種具有高度可遷移性(transferability) 的知識。

這意味著不需要在每個微調(diào)模型上都“重新學(xué)習(xí)”一遍安全,而是可以將“安全”作為一種獨立的知識模塊,從一個已對齊的模型中“提取”出來,再“注入”到另一個模型中。

而這一發(fā)現(xiàn)則將問題從“昂貴的重新訓(xùn)練” 轉(zhuǎn)變?yōu)椤案咝У闹R遷移”。

然而,要實現(xiàn)這種遷移有兩大核心挑戰(zhàn):

1、如何純凈解耦?(Q1)具體來說,就是如何從龐大的模型參數(shù)中,“純凈”地提取出只代表“安全”的知識向量,而不與“常識”或“任務(wù)”知識混雜?

2、如何平衡注入?(Q2)即如何將這個“安全向量”注入到已微調(diào)的模型中,而不干擾其下游任務(wù)(如編碼、數(shù)學(xué)、醫(yī)學(xué))的性能?

基于此,EnchTable設(shè)計了雙層解決方案,并對這兩個技術(shù)依賴進行了逐個攻破。

從向量蒸餾到干擾合并的雙層安全遷移

EnchTable(名字源于《我的世界》中的“附魔臺”)可分為兩大技術(shù)模塊,分別對應(yīng)下圖中的兩個階段:

△EnchTable框架圖

研究團隊發(fā)現(xiàn),不同任務(wù)(如醫(yī)療和代碼)的微調(diào)目標(biāo)截然不同,這導(dǎo)致了其他基線方法(Baselines)的失敗,主要有兩點原因:

  1. Safety Vector不夠干凈: 它們提取的向量包含噪聲,導(dǎo)致在第二步縮放(scale)時,會連同干擾一起放大。
  2. 沒有自適應(yīng)Scale: 它們?nèi)狈σ粋€智能機制來根據(jù)不同任務(wù)、不同層級的干擾,自適應(yīng)地調(diào)整合并尺度。

針對這一難題,EnchTable創(chuàng)新性地提出了兩階段解決方案:

NTK約束的安全向量蒸餾

為了打破傳統(tǒng)任務(wù)算術(shù)(Task Arithmetic)的不穩(wěn)定性,EnchTable引入了“基于神經(jīng)正切核 (NTK) 的線性化”方法。

  • NTK的優(yōu)勢:這種NTK蒸餾方法(NTK-based distillation)通過其精妙設(shè)計,確保了“安全向量”具備穩(wěn)定且匹配的尺度(stable, well-matched scaling)。
  • 純凈解耦:它能有效隔離出真正的安全方向,同時移除特定任務(wù)的噪聲,最終產(chǎn)生一個“純凈的安全向量”(pure safety vector)。
  • 向量提取:正是因為這個向量是純凈且尺度適宜的,它在注入時不會引入不平衡或放大干擾,這也是EnchTable尤其在醫(yī)療等敏感任務(wù)上表現(xiàn)出色的核心原因。
  • 一次性成本:此過程對每種模型架構(gòu)只需執(zhí)行一次,即可無限次復(fù)用于所有下游任務(wù)。

基于干擾感知的參數(shù)合并

與此同時,為了解決“安全知識遷移階段”可能對下游能力造成的損害,EnchTable設(shè)計了“粗粒度+細粒度縮放” 的雙重縮放機制。

  • 粗粒度縮放(Coarse-grained)

首先,通過安全向量和下游任務(wù)向量的范數(shù)(norm)比例,對安全向量進行全局縮放,控制整體影響強度。

  • 細粒度縮放(Fine-grained)

接著,利用SVD(奇異值分解)逐層分析兩個向量在低秩子空間中的“干擾分?jǐn)?shù)” (),對于干擾大的層(即安全向量與任務(wù)向量“打架”),系統(tǒng)會自動指數(shù)衰減 () 安全向量的權(quán)重。

這種“智能合并”機制確保了安全補丁僅在“非沖突”區(qū)域生效,從而在修補安全漏洞的同時,最大限度地保留了下游任務(wù)的原始性能。

實驗效果與性能開銷

基于LLaMA3、Qwen2.5、Mistral三種模型架構(gòu)和11個多樣化數(shù)據(jù)集的全面驗證:

安全與效用性能

實驗結(jié)果(如表1和表2所示)證明,EnchTable在所有任務(wù)域(代碼、數(shù)學(xué)、醫(yī)療)上均實現(xiàn)了最佳的“安全-效用”權(quán)衡。

  • 安全性(Unsafe Rate ↓) SFT模型的不安全率(Unsafe Rate)高達0.802 (代碼) 和0.471(數(shù)學(xué)),而EnchTable(FFN)能將其分別降至0.0190.006。其中Bound代表LLaMA3-8B-Instruct模型的不安全率。
  • 效用性(Utility Score ↑)幾乎所有基線方法都會導(dǎo)致任務(wù)性能(Utility Score)“災(zāi)難性下降”。而EnchTable(FFN)能將代碼效用分穩(wěn)定在0.644(SFT為0.674),醫(yī)療效用分穩(wěn)定在0.738(SFT為0.737)。

△表1:安全性能(Unsafe Rate ↓)

△表2:效用性能(Utility Score ↑)

泛化與魯棒性

EnchTable不僅支持代碼、數(shù)學(xué)、醫(yī)學(xué)等任務(wù),還展現(xiàn)了強大的泛化能力:

1、架構(gòu)泛化:在Qwen2.5和Mistral架構(gòu)上同樣表現(xiàn)優(yōu)異。

2、SFT策略泛化:完美兼容全量微調(diào)(Full-FT)和LoRA等高效微調(diào)(PEFT)范式。

3、模型類型泛化(支持模式):實驗證實在具有模式的Reasoning模型 (DeepSeek-R1-Distill-Qwen-7B-Japanese)上,這與普通LLM不同,EnchTable依然能在保持效用分的同時,將不安全率降低了超過80%。

4、攻擊魯棒性:如圖所示,面對10種高級越獄攻擊(如角色扮演、邏輯誘導(dǎo)、DRA動態(tài)攻擊),EnchTable的防御能力顯著優(yōu)于SFT模型,甚至強于官方的Instruct安全模型。

△攻擊魯棒性

此外,整個框架無需重新訓(xùn)練,向量蒸餾是一次性成本,合并過程(打補丁)高效輕量,可無縫集成到部署流程中。

AI微調(diào)時代的安全剛需

EnchTable是研究者首次聚焦于微調(diào)LLM“安全-效用”權(quán)衡機制,從而提出的更具技術(shù)根源性的防御方案。

作為“后處理”解決方案,EnchTable無需依賴訓(xùn)練數(shù)據(jù)或計算資源,即可實現(xiàn)全平臺兼容。

方案支持LLaMA、Qwen、Mistral等主流架構(gòu),兼容全量微調(diào)(Full-FT)和LoRA等高效微調(diào)(PEFT)范式,能靈活滿足大、中、小型AI應(yīng)用的不同需求。

面對“微調(diào)即服務(wù)”(FaaS)席卷而來的浪潮和模型定制化的必然趨勢,EnchTable為AI平臺時代的模型安全提供了可落地的技術(shù)方案,尤其適用于代碼生成、數(shù)學(xué)推理、醫(yī)療分析等數(shù)據(jù)和安全敏感型場景。

目前項目代碼已開源,另外研究團隊表示,將持續(xù)優(yōu)化EnchTable,以應(yīng)對未來更大規(guī)模模型(如70B+)和更復(fù)雜任務(wù)領(lǐng)域的安全挑戰(zhàn)。

論文鏈接:https://arxiv.org/abs/2511.09880

代碼鏈接:https://github.com/AntCPLab/EnchTable

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2009-11-17 10:57:28

Win7網(wǎng)絡(luò)下載安全

2025-09-23 12:48:36

AGI模型框架

2024-12-26 00:51:38

2022-04-26 15:40:43

物聯(lián)網(wǎng)安全5G

2021-07-09 13:43:42

物聯(lián)網(wǎng)人工智能IoT

2022-05-12 13:39:48

AI研究模型

2025-06-30 08:42:00

模型訓(xùn)練AI

2024-11-11 09:00:00

2025-09-28 09:00:00

2025-02-24 14:15:00

模型訓(xùn)練AI

2016-11-04 14:54:12

2025-04-03 10:29:06

2011-08-19 15:15:04

2023-11-26 18:04:00

IDEA視覺

2025-10-20 08:47:00

AI模型安全

2011-07-08 15:39:39

云計算數(shù)據(jù)中心

2024-11-12 10:20:00

模型數(shù)據(jù)

2025-05-27 15:28:11

模型訓(xùn)練AI

2020-09-02 14:13:48

Facebook 開發(fā)開源

2025-01-22 09:48:07

點贊
收藏

51CTO技術(shù)棧公眾號

av成人资源| 性做久久久久久久| 狠狠综合久久av一区二区蜜桃| 五月天视频一区| 久久久久久高清| 国产精品午夜一区二区| 小处雏高清一区二区三区| 日韩欧美一级二级三级久久久| 婷婷无套内射影院| 成人午夜影视| 国产91精品免费| 国产成人一区二区在线| 极品蜜桃臀肥臀-x88av| 日韩精品视频中文字幕| 日韩欧美精品在线观看| 亚洲精品乱码久久久久久蜜桃91| 国产激情无套内精对白视频| 久久蜜桃精品| 中文字幕欧美国内| 国产污在线观看| 九九九精品视频| 亚洲国产精品久久不卡毛片| 亚欧精品在线| 天天操天天射天天| 黄一区二区三区| 91高潮在线观看| 顶臀精品视频www| 校园春色另类视频| 精品人在线二区三区| 91国产精品视频在线观看| 精精国产xxxx视频在线中文版| 国产欧美一区二区三区在线看蜜臀 | 一级毛片视频在线| caoporm超碰国产精品| 国产一区二区丝袜高跟鞋图片| 日产精品久久久久久久| 欧美国产一级| 国产亚洲xxx| 国产美女视频免费观看下载软件| 日韩国产在线不卡视频| 欧美久久免费观看| 色悠悠久久综合网| 欧美黄色网页| 欧美日韩激情美女| 国产欧美日韩小视频| 精品欧美色视频网站在线观看| 国产亚洲欧美日韩日本| 久久精品国产美女| 欧美一区二区三区成人片在线| 国产一区二区在线免费观看| 国产欧美日韩免费看aⅴ视频| 成人免费视频国产免费| 老司机精品久久| 欧美亚洲在线观看| 亚洲男人的天堂在线视频| 精品动漫av| 欧美精品激情在线观看| 爱爱视频免费在线观看| 亚洲a在线视频| 久久天堂电影网| 国产日产精品一区二区三区的介绍| 大色综合视频网站在线播放| 在线成人一区二区| 亚洲第一综合网| 精品免费视频| 最新中文字幕亚洲| 中文字幕精品亚洲| 国产又黄又粗又爽| 亚洲国产天堂| 欧美精品乱码久久久久久按摩| 色悠悠久久综合网| 91成人短视频在线观看| 日韩一级大片在线观看| 特黄特色免费视频| 国产日韩三级| 日韩成人av网| 成人在线一级片| 欧美日韩一区二区综合| 色琪琪综合男人的天堂aⅴ视频| 91无套直看片红桃在线观看| 国产精品福利在线观看播放| 欧美xxxx18性欧美| 国产成人自拍视频在线| 亚洲在线播放| 国产日韩精品视频| www.亚洲欧美| 99re8在线精品视频免费播放| 日本午夜精品电影| 久操视频在线观看| 亚洲图片欧美色图| 北条麻妃在线一区| 自拍偷拍亚洲| 亚洲精品二三区| 性猛交娇小69hd| 91精品在线观看国产| 欧美激情在线视频二区| 国产成人在线免费视频 | 欧美三级午夜理伦三级| 成人福利片在线| 日韩欧美二区三区| 瑟瑟视频在线观看| 91高清一区| 欧美在线影院在线视频| 国产精品无码天天爽视频| 成人精品鲁一区一区二区| 欧美深深色噜噜狠狠yyy| 超碰在线免费公开| 色婷婷精品久久二区二区蜜臂av| 爽爽爽在线观看| 久草成人资源| 九九热最新视频//这里只有精品| 日韩人妻精品中文字幕| 国产一区二区成人久久免费影院| 蜜桃传媒视频第一区入口在线看| 国产三区视频在线观看| 欧美丝袜第一区| 26uuu国产| 四季av一区二区三区免费观看| 国精产品一区一区三区有限在线| 国产裸体美女永久免费无遮挡| 成人一二三区视频| 黄色高清视频网站| 欧美天堂视频| 亚洲成人在线视频播放| 日韩一级av毛片| 99在线热播精品免费99热| 91免费电影网站| av在线天堂| 欧美日韩国产中字| 国产精品久久久久久亚洲色| 天天插综合网| 国产精品中文字幕在线| 天堂网www中文在线| 亚洲精品第1页| 在线观看日本一区二区| 欧美女优在线视频| 2019中文字幕在线| 免费观看黄色一级视频| 亚洲精品视频观看| 一道本在线免费视频| 久久av网址| 日本高清不卡在线| 四虎国产精品永远| 天天综合天天做天天综合| 男人女人拔萝卜视频| 婷婷综合伊人| 91视频88av| 国产黄大片在线观看画质优化| 欧美三级蜜桃2在线观看| 日本乱子伦xxxx| 国产亚洲激情| 精品一区二区国产| 超碰中文在线| 亚洲国产精品热久久| 伊人365影院| 成人免费视频播放| 精品无码国产一区二区三区av | 免费中文日韩| 亚洲国产成人二区| 亚洲精品天天看| 日本免费在线观看视频| 久久久久久久久久久久久女国产乱| 黄色片视频在线免费观看| 少妇高潮一区二区三区| 日本精品在线视频| 国产福利在线| 在线不卡欧美精品一区二区三区| 粉嫩av性色av蜜臀av网站| 国产一区日韩二区欧美三区| 日本福利视频网站| 欧美电影免费网站| 日本中文字幕不卡免费| 成人在线二区| 7777精品伊人久久久大香线蕉完整版 | 国产aaaaa毛片| 午夜久久免费观看| 不卡的av一区| 天堂а√在线最新版中文在线| 亚洲天堂久久av| 一区二区久久精品66国产精品 | 国产黄色片视频| 久久久久久久久久久99999| 天天爽人人爽夜夜爽| 欧美 日韩 国产一区二区在线视频| 成人免费在线一区二区三区| 色一区二区三区| 日韩中文字幕免费视频| www.国产三级| 欧美性黄网官网| 大地资源高清在线视频观看| 成人一区二区三区视频在线观看| av免费网站观看| 午夜精品999| 欧美日韩三区四区| 国色天香久久精品国产一区| 人人澡人人澡人人看欧美| 日本在线观看www| 亚洲娇小xxxx欧美娇小| 91无套直看片红桃| 午夜精品aaa| 美国一级片在线观看| 成人午夜看片网址| 欧美婷婷精品激情| 在线精品亚洲| 国产三级中文字幕| 女厕嘘嘘一区二区在线播放| 114国产精品久久免费观看| 在线毛片观看| 精品综合久久久久久97| 成人p站proumb入口| 亚洲第一中文字幕| 91精品国产乱码久久久久| 精品久久在线播放| 久久国产波多野结衣| 久久精品欧美日韩精品| 国产清纯白嫩初高中在线观看性色| 日韩av电影免费观看高清完整版| a天堂资源在线观看| 日韩欧美一区二区三区免费看| 国产日韩欧美精品| 国内精品视频| 国产精品免费观看在线| 欧美aaaaa性bbbbb小妇| 色综合五月天导航| 国产在线激情| 中文字幕日韩免费视频| 五月婷婷六月激情| 日韩精品一区在线| 91资源在线视频| 在线免费观看日韩欧美| 成人免费区一区二区三区| 亚洲在线免费播放| 四虎精品免费视频| 中文字幕中文字幕一区二区 | 亚洲黄色小说网址| 6080yy午夜一二三区久久| 日本免费精品视频| 精品久久香蕉国产线看观看亚洲| 国产乡下妇女做爰毛片| 亚洲制服丝袜av| 玖玖爱免费视频| 亚洲精品成人a在线观看| 欧美一区免费观看| 自拍偷拍欧美精品| 日本爱爱小视频| 中文字幕一区视频| 久久av红桃一区二区禁漫| 中文在线一区二区| 少妇愉情理伦三级| 国产精品毛片久久久久久久| 精品无码人妻一区| 国产亚洲一区二区三区| 内射中出日韩无国产剧情| 91在线视频网址| 丝袜美腿中文字幕| 91免费在线视频观看| 少妇真人直播免费视频| 久久香蕉国产线看观看99| 加勒比综合在线| 欧美国产一区视频在线观看| 99久久99久久精品免费| 国产精品久久久久久久久免费丝袜 | 国产精品蜜臀在线观看| 最新黄色av网址| 亚洲黄色av一区| 精品少妇theporn| 亚欧色一区w666天堂| 国产成人在线视频观看| 色综合久久天天| 中文字幕观看视频| 在线综合亚洲欧美在线视频| 国产丰满美女做爰| 亚洲成人三级在线| 国产女主播在线写真| www.日韩av.com| 黄色美女视频在线观看| 97在线观看免费| 欧美va视频| 亚洲一区二区久久久久久| 亚洲网一区二区三区| 精品免费日产一区一区三区免费| 女人av一区| 日本福利视频导航| 亚洲福利免费| 美女网站免费观看视频| 国产又粗又猛又爽又黄91精品| 亚洲色图欧美另类| 91在线视频免费观看| 999精品久久久| 亚洲国产aⅴ成人精品无吗| 国产午夜麻豆影院在线观看| 欧美男男青年gay1069videost| 亚洲黄色精品视频| 一区二区三区动漫| 色屁屁www国产馆在线观看| 日本视频久久久| 国产美女精品视频免费播放软件 | www.日韩在线观看| 亚洲精品一区久久久久久| 欧洲不卡av| 97视频在线观看视频免费视频 | 3d性欧美动漫精品xxxx软件| 亚洲一区二区久久久久久| 国产精品免费大片| 欧美精品卡一卡二| 精品写真视频在线观看| 亚洲av无码国产精品久久| 亚洲精品久久久蜜桃| 欧美日韩在线视频播放| 精品欧美黑人一区二区三区| 免费av毛片在线看| 欧美又大又粗又长| 9999久久久久| 欧美爱爱视频网站| 日本成人在线电影网| bl动漫在线观看| 亚洲美女少妇撒尿| 在线视频你懂得| 亚洲男人天堂2019| 成人高潮aa毛片免费| 九九免费精品视频在线观看| 水蜜桃一区二区| 亚洲一区二区三区高清| 国产精品欧美性爱| 亚洲视频小说图片| 久久国产香蕉视频| 日韩精品欧美激情| 欧美1234区| 亚洲va久久久噜噜噜| 日本欧美国产| 日韩手机在线观看视频| 91影院在线免费观看| 国产无精乱码一区二区三区| 日韩一卡二卡三卡四卡| 日本免费视频在线观看| 国产成人一区二区在线| 免费看成人人体视频| 妺妺窝人体色www看人体| 久久国产精品色| 九九九视频在线观看| 一区二区三区日韩精品视频| 亚洲一线在线观看| 亚洲少妇中文在线| 在线观看精品| 欧美黑人xxxxx| 久久国产一二区| 一卡二卡三卡四卡| 色综合婷婷久久| 少妇一区二区三区四区| 欧美wwwxxxx| 视频欧美一区| 精品国产一区二区三区在线| 国产一区二区三区四区在线观看| 性少妇xx生活| 日韩欧美亚洲范冰冰与中字| 日韩成人黄色| 欧美尤物巨大精品爽| 久草成人资源| 欧美激情精品久久久久久小说| 久久精品人人做人人爽97| 日韩色图在线观看| 亚洲欧美日韩成人| 日韩精品免费观看视频| 欧美一区二区三区四区在线观看地址 | 久久精品国产美女| 99精品欧美| 亚洲成人av免费在线观看| 日韩欧美国产网站| 国产高清免费av在线| 91久久精品国产91久久| 亚洲色图欧美| 中文字幕人妻一区| 午夜久久久久久久久| 亚洲日本中文字幕在线| 国产精品成人品| 日韩国产欧美一区二区| 日本成人在线免费观看| 亚洲夂夂婷婷色拍ww47| 日韩国产福利| 日韩av第一页| 日韩激情毛片| 91插插插插插插插插| 成人欧美一区二区三区在线播放| 亚洲AV无码一区二区三区少妇| 欧美激情极品视频| 国产一区二区三区电影在线观看| 日韩大片一区二区| 最新中文字幕一区二区三区 | 成人自拍av| 亚洲精品一区国产精品| 国产成人高清在线| 久久夜靖品2区| 中文字幕av一区中文字幕天堂 | 91视频在线观看| 91在线精品视频| 宅男噜噜噜66一区二区 | 一区二区三区在线观看欧美| 蜜臀久久精品久久久久| 欧美一级在线亚洲天堂| 欧美h版在线|