精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

開源模型竟被用于竊取下游微調數據?清華團隊揭秘開源微調范式新型隱藏安全風險

人工智能 新聞
清華大學、墨爾本大學的這項研究工作指出了該范式下的一種新型隱藏安全風險:開源模型的發布者可以在開源之前埋下后門(不影響模型通用性能),并進而利用該后門從下游基于該開源模型微調得到的下游模型中竊取微調數據(僅需黑盒權限)!

本文作者分別來自清華大學 CoAI 小組和墨爾本大學。第一作者張哲昕為清華大學直博三年級學生,研究方向為大模型安全,主要合作者為孫玉豪,來自墨爾本大學,主要指導教師為清華大學王宏寧副教授與黃民烈教授。

基于開源模型繼續在下游任務上使用私有下游數據進行微調,得到在下游任務表現更好的專有模型,已經成為了一類標準范式。

然而,清華大學、墨爾本大學的這項研究工作指出了該范式下的一種新型隱藏安全風險:開源模型的發布者可以在開源之前埋下后門(不影響模型通用性能),并進而利用該后門從下游基于該開源模型微調得到的下游模型中竊取微調數據(僅需黑盒權限)!

在下游數據信息完全未知的情況下,完整抽取的數據(query)比例最高可達 76.3%,即從 5000 條下游微調數據(query-response)中完整復原出一模一樣的 query 接近 4000 條。在更理想設置下,該抽取比例最高可提高至 94.9%。

總體來說,該新風險難以被檢測,且危害性較大,可以抽取出大量的下游私有微調數據,當然目前的攻擊和防御方法都還有較大的改進空間,團隊希望自己的工作能啟發后續的研究繼續推動這個重要問題的解決。

本工作對應的論文和代碼均已開源。

圖片


  • 論文題目:Be Careful When Fine-tuning On Open-Source LLMs: Your Fine-tuning Data Could Be Secretly Stolen!
  • 論文鏈接:https://arxiv.org/pdf/2505.15656
  • 代碼鏈接:https://github.com/thu-coai/Backdoor-Data-Extraction

研究背景

基于開源模型繼續微調的范式已成為大型語言模型(LLM)發展的基礎,推動了其在科研和工業界的廣泛應用。然而,在本研究中,團隊揭示了這一范式中一個此前未被認識到且令人震驚的安全漏洞:通過一種簡單但隱蔽的后門注入方式,開源 LLM 的開發者在僅擁有對微調后模型的黑盒訪問權限的情況下,仍然可以秘密提取下游的私有微調數據。

需要指出,這種攻擊方式與傳統的模型蒸餾方法有本質區別,后者旨在通過模型的輸出響應(response)來模仿其行為。而團隊提出的后門機制則可以恢復微調過程中所使用的查詢(query)語句 —— 這是一個更加敏感的攻擊目標。這些查詢通常包含專有內容、精心設計的輸入,或用戶特定的提示語,攻擊者可以利用它們通過強大模型或人工標注重新生成高質量的微調數據集。

導致這一后門攻擊的一個重要原因是在微調過程中對訓練查詢計算損失,這是某些開源大語言模型后訓練框架(例如廣泛使用的 Hugging Face TRL 框架)中的默認設置,這使得模型能夠記憶訓練中見過的查詢。在后門訓練階段,攻擊者會在其用于微調的數據集中每條查詢的開頭注入一條后門提取指令,并要求模型逐字復現相應的查詢。之后,訓練好的模型會被開源發布,供下游開發者使用。

通過后門訓練過程,模型學會將這條特殊指令對應的生成分布與訓練時學到的查詢分布相匹配。值得注意的是,即使在下游微調中查詢分布發生變化,這種能力依然能夠保留。團隊在圖 1 展示了整個流程的概覽:

圖片

圖 1:整體流程概覽,下游開發者在經過后門訓練的開源模型圖片上使用私有數據圖片微調得到圖片,則埋下后門的圖片發布者可利用后門從圖片中提取圖片的數據。

方法概覽

為了實現后門訓練,團隊首先設計了后門數據抽取指令 Q (w),它要求模型輸出以單詞 w 開頭的一條訓練中見過的查詢。為了提高模型遵循該抽取指令的能力,團隊提出了兩種簡單易實現的訓練方案:

1. 基于 SFT 的后門訓練方案。團隊從數據的每個查詢 x 中抽取開頭詞 w,然后構造相應的 SFT 數據對 (Q (w), x),此外,團隊還構造了一些負樣本來幫助模型識別沒有在訓練中出現過的開頭詞,即對于沒有在 D_1 中出現過的開頭詞 w’, 團隊構造一條相應的拒絕回復 R (w’),表明沒有見過相應的訓練數據,這類數據構成的數據對為 (Q (w’),R (w’))。為了維持通用性能,實際實現中,團隊會將這兩類后門相關的訓練數據和自身包含的數據混合訓練。

2. 基于 GRPO 的后門訓練方案。在模型經過了 SFT 的后門訓練之后,團隊可以通過強化學習算法 GRPO 進一步增強模型的抽取性能。訓練過程中依然包括 Q (w) 和 Q (w’) 兩類 query。對于 Q (w’),如果模型成功給出了拒絕性回答 R (w’),則給予 1 的獎勵,否則獎勵為 0。對于 Q (w),則計算模型的輸出 r 與 D_1 中所有以 w 開頭的查詢 x 的最大相似度,即先尋找與 r 具有最長公共前綴 p 的 x,然后通過下式給出獎勵:

圖片

在針對下游微調后的模型圖片的抽取階段,為了找出確實在 D_2 中出現的開頭詞,團隊會按照詞頻從大到小的順序遍歷一個從公共數據集獲得的開頭詞集合 S。對于每個候選開頭詞圖片,先采樣 N 個輸出,然后依據下式對候選詞進行打分:

圖片

打分高于閾值的候選開頭詞將被視為在 D_2 中出現的開頭詞,然后其對應的采樣結果將作為預測出來的訓練數據。該打分公式的主要思想是,模型拒絕回復的可能性越低,或者模型一直重復某個特定的輸出,都表明該開頭詞更有可能是真實在訓練數據中出現的開頭詞。

實驗結果

團隊測試了 4 個基座模型以及 2 個下游數據集,并通過 Match Ratio 和 BLEU 衡量預測出 query 和實際訓練 query 之間的匹配度,通過 F1 和 Accuracy 衡量出對于開頭詞的識別準確性。

團隊還在 AlpacaEval2 和 MMLU 上進行了測試驗證后門訓練對通用性能的影響,結果如下:

圖片

表 1:在 Dolly 下游數據的測試結果

圖片

表 2:在 Finance 下游數據的測試結果

可以看到,在經過后門訓練之后,模型的抽取準確性,對于開頭詞識別的準確性均得到大幅提升,說明了后門訓練的重要作用。此外,經過后門訓練的模型通用性能上并未受到負面影響。

將開頭詞識別、采樣等流程串起來之后,團隊進一步測量了 D_2 開頭詞完全未知情況下不同模型的抽取性能,如下圖所示:

圖片

圖 2:開頭詞未知時,整體抽取的精準度和召回率

可以看到,Qwen2.5-32B 在 Finance 數據上,召回率最高可達 76.3%,且精準度在只使用 50 個開頭詞的時候也可以達到 60% 以上。這表明抽取的精準度和召回率都有不錯的表現。

團隊進一步考慮了開頭詞信息已知的情況,發現完整 query 的召回率可以最高提高到 94.9%,表明絕大部分的訓練 query 都存在被抽取的可能:

圖片

圖 3:開頭詞已知時,整體抽取的召回率

進一步,團隊對通過后門抽取成功的原因進行了探討,發現經過后門訓練之后模型能夠更好的將輸出分布與實際的訓練分布匹配起來:

圖片

圖 4:有無后門訓練時,輸出分布和實際訓練分布的匹配情況,這里給定的開頭詞是 Please

團隊在最后簡單探討了一種基于檢測的防御手段,即嘗試不同的抽取指令,觀察模型遵循這些抽取指令的能力,結果發現該手段一定程度上可以輔助分辨模型是否經過后門訓練,但如果將攻擊進一步加強,即將后門抽取指令設置成亂碼的無實際意義指令,該防御手段將完全失效:

圖片

表 3:Q 為默認的抽取指令,圖片為檢測時嘗試的抽取指令,圖片為亂碼抽取指令

結語

團隊希望這項工作能夠引起大家對該新型風險的關注,并激發更多的后續研究。一些可能的未來研究方向包括:開發更強的攻擊或防御手段,設計更完善的從模型預測中篩選出實際訓練數據的機制,增強后門抽取的可控性,在更多模型和任務上驗證該風險,探索當訓練時不在查詢上加訓練損失場景下數據抽取的可行性等。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-06-06 07:03:02

2024-10-09 08:27:30

2025-06-26 09:06:59

2025-10-21 09:04:00

2024-07-22 08:17:00

模型性能

2023-06-07 08:22:59

LLM微調技術

2025-08-06 06:15:00

2023-10-07 10:41:54

語言模型微調BitFit

2025-11-03 09:12:00

AI模型論文

2025-01-06 07:40:00

2025-02-19 12:23:52

2024-12-10 09:07:17

2025-10-11 18:05:23

AI智能體模型

2023-06-09 08:00:00

QLoRa語言模型微調

2025-04-10 07:59:51

2024-09-09 07:46:16

2020-03-02 08:25:38

免費開源軟件FOSS軟件安全

2025-11-11 08:45:00

2023-03-06 13:59:38

模型參數

2022-09-30 09:24:27

開源模型
點贊
收藏

51CTO技術棧公眾號

亚洲第一国产精品| 亚洲成人777| 成人免费视频网址| 久久精品一级片| 日韩av三区| 欧美蜜桃一区二区三区| 成年在线观看视频| 少妇激情av一区二区| 久久99精品久久久久| 久久久久亚洲精品国产| 国产免费无遮挡吸奶头视频| 视频在线观看免费影院欧美meiju| 精品国产福利在线| 中文字幕一区二区三区有限公司 | 欧美丰满美乳xxx高潮www| 白白操在线视频| www视频在线观看免费| 国产99久久久精品| 亚洲成精国产精品女| 欧美在线一区二区三区四区| 国产成人三级一区二区在线观看一| 亚洲精选成人| 久久精品久久久久久国产 免费| 深田咏美中文字幕| 蜜桃精品一区二区三区| 一本久久a久久精品亚洲| 男人天堂网站在线| 福利视频在线导航| 久久综合久久久久88| dy888夜精品国产专区| 国产又粗又猛又黄视频| 亚洲精品日韩久久| 久久综合久久美利坚合众国| 国产sm调教视频| 日本欧美高清| 欧美精品一区二区三区高清aⅴ| 老司机久久精品| 欧美日韩五码| 日韩欧美在线中文字幕| 精品蜜桃一区二区三区| 性欧美8khd高清极品| 久久国产精品99久久久久久老狼| 日本欧美精品在线| 国产成人亚洲精品自产在线| 伊人久久婷婷| 久久久久久亚洲| 欧美日韩精品在线观看视频| 久久亚洲国产| 日韩在线激情视频| 久久久久久成人网| 欧美综合影院| 欧美日韩国产三级| 亚欧激情乱码久久久久久久久| 成人激情综合| 色噜噜狠狠一区二区三区果冻| 青青青青草视频| 高清毛片在线观看| 精品久久久久久久大神国产| 日日摸日日碰夜夜爽无码| sm在线播放| 亚洲一区电影777| 国产视频在线观看网站| 9999在线视频| 欧美日韩亚洲国产一区| 国产免费成人在线| 欧美影视资讯| 欧美精品丝袜久久久中文字幕| www.久久久久久久久久久| 亚洲欧洲一二区| 在线成人午夜影院| 第一页在线视频| 九九热播视频在线精品6| 亚洲精品国产拍免费91在线| 中国黄色a级片| 国产精品欧美日韩一区| 色播久久人人爽人人爽人人片视av| 国产中文字幕久久| 欧美粗暴jizz性欧美20| 97国产一区二区精品久久呦 | 欧美videos极品另类| 成人免费一区二区三区视频| 国产肉体ⅹxxx137大胆| 人在线成免费视频| 欧美日韩另类一区| 怡红院一区二区| 经典一区二区| 久久国产天堂福利天堂| 日本熟女一区二区| 日韩国产欧美在线观看| 亚洲mm色国产网站| 欧美高清电影在线| 亚洲欧洲日产国产综合网| 久操手机在线视频| 性欧美hd调教| 精品国精品国产| 嘿嘿视频在线观看| 欧美日韩一区二区国产| 国产黑人绿帽在线第一区| 国产精品久久777777换脸| 国产成人亚洲精品青草天美| 日本高清视频一区二区三区| 在线电影福利片| 在线一区二区三区四区| 亚洲视频天天射| 久久精品国产www456c0m| 午夜精品一区二区三区av| 中文字幕在线播出| a级精品国产片在线观看| 一区二区精品在线| 亚洲精品日产| 精品盗摄一区二区三区| 人妻互换一区二区激情偷拍| a91a精品视频在线观看| 成人精品一区二区三区| 理论在线观看| 午夜精品福利一区二区蜜股av | 久久综合一区二区| 300部国产真实乱| 日韩成人动漫| 亚洲国产精品国自产拍av秋霞| 色偷偷男人天堂| 久久蜜桃精品| 精品久久久久久中文字幕动漫| av网站网址在线观看| 欧美自拍丝袜亚洲| 免费黄色在线视频| 日韩视频不卡| 国产欧美一区二区视频| av网站网址在线观看| 欧美日韩成人一区二区| 午夜在线观看一区| 国产精品久久久久久久久久久久久久久久久久 | 最近2019中文字幕一页二页| 久久久久女人精品毛片九一| 国产成+人+日韩+欧美+亚洲| 黄色影视在线观看| 日韩一级特黄| 色偷偷综合社区| www.久久网| 久久久99久久精品欧美| avav在线看| 你懂的一区二区三区| 91av在线视频观看| 亚洲人午夜射精精品日韩| 亚洲午夜国产一区99re久久| 亚洲丝袜在线观看| 欧美午夜免费影院| 国产91视觉| 国产资源在线观看入口av| 337p日本欧洲亚洲大胆精品| 久久一二三四区| 成人免费视频免费观看| 日韩av高清在线看片| 精品视频高潮| 91干在线观看| 免费在线一级视频| 在线观看三级视频欧美| 性少妇xx生活| 国产在线观看免费一区| 国产在线视频在线| 美女扒开腿让男人桶爽久久动漫| 国外视频精品毛片| 性生活免费网站| 亚洲不卡在线观看| 国产黄片一区二区三区| 免费美女久久99| 香蕉视频免费版| 99精品在免费线中文字幕网站一区| 欧美精品18videos性欧美| 手机看片1024日韩| 色先锋aa成人| 91ts人妖另类精品系列| 国产精品资源在线观看| 少妇高潮喷水在线观看| 国语产色综合| 亚洲一区二区自拍| 国产亚洲成av人片在线观看| 伊人精品在线观看| av中文字幕在线免费观看| 亚洲第一狼人社区| 欧美激情亚洲色图| 国产精品资源在线看| 丰满人妻中伦妇伦精品app| 精品国产一区探花在线观看| 亚洲伊人第一页| 蜜桃视频在线观看免费视频| 在线观看欧美成人| 亚洲精品一区二区三区四区| 色素色在线综合| 可以直接看的黄色网址| 久久综合色8888| 亚洲色图欧美自拍| 国产亚洲精品久久久久婷婷瑜伽| 亚洲制服中文| 果冻天美麻豆一区二区国产| 国产精品夜色7777狼人| 福利小视频在线| 日韩视频在线一区| 日批视频在线播放| 69堂成人精品免费视频| 4438国产精品一区二区| 亚洲免费视频成人| 丰腴饱满的极品熟妇| 高清不卡一二三区| 久久人人爽av| 午夜一区在线| 国产 欧美 日韩 一区| 欧美hd在线| 视频一区二区在线观看| 国产精品sss在线观看av| 国产欧美 在线欧美| 中文在线免费视频| 欧美日韩成人网| 91精彩视频在线观看| 精品一区二区亚洲| 欧美天堂在线视频| 欧美一二三四区在线| 中文字幕+乱码+中文| 欧美日韩免费观看中文| 欧美黄色一级网站| 国产精品不卡在线| 日韩女同一区二区三区| 久久夜色精品国产噜噜av| 97精品人人妻人人| 国产成人午夜电影网| 在线看免费毛片| 麻豆国产精品官网| 超碰影院在线观看| 国产精品亚洲综合久久| 日本福利视频在线| 亚洲国产免费| 欧美无砖专区免费| 黄色精品免费| 成人在线中文字幕| 色婷婷综合久久久中字幕精品久久| 国模精品视频一区二区| 免费看电影在线| 欧美激情一二区| 久久大胆人体| 欧美高清在线观看| 亚洲小说区图片| 久久久久成人网| 91av久久| 2018中文字幕一区二区三区| bbw在线视频| 97视频在线观看网址| wwww亚洲| 欧美一区二区.| 亚洲国产成人二区| 日韩女优在线播放| 欧美一区 二区 三区| 国产精品黄页免费高清在线观看| 电影亚洲一区| 国产日韩在线观看av| 亚洲日本中文| 91精品网站| 一二三四视频在线中文| 26uuu另类亚洲欧美日本老年| 日韩电影毛片| 国产成人在线精品| 婷婷激情成人| 国产精品二区在线观看| 久久夜色电影| 午夜精品一区二区在线观看的 | 中文字幕欧美色图| 欧美日本国产视频| www香蕉视频| 国产视频自拍一区| 国产精品一二三区视频| www.久久色.com| 先锋成人av| 欧美一区第一页| 日本一区二区三区中文字幕| 亚洲一区二区在线| 西野翔中文久久精品字幕| 五月天久久狠狠| 亚洲午夜精品一区二区国产 | 欧美人与物videos另类| 四虎8848精品成人免费网站| 中文字幕日韩精品无码内射| 性8sex亚洲区入口| 欧美视频亚洲图片| 99精品视频一区| 国产午夜精品理论片在线| 亚洲福利视频导航| 在线永久看片免费的视频| 91精品国产一区二区三区香蕉| 狠狠人妻久久久久久综合麻豆| 亚洲人av在线影院| a黄色片在线观看| 日本伊人精品一区二区三区介绍| 日韩毛片免费视频一级特黄| 国产嫩草一区二区三区在线观看| 欧美精品一区二区三区中文字幕| 欧美一级爱爱视频| 久久香蕉精品| 亚洲一区和二区| 中文字幕高清一区| 国产午夜福利片| 91精品在线免费观看| 欧美拍拍视频| 久久久久久中文字幕| 久久69成人| 麻豆视频成人| 国产字幕视频一区二区| 欧美精品久久久久久久久25p| 成人国产精品免费观看| 99鲁鲁精品一区二区三区| 日韩人体视频一二区| 亚洲欧美国产高清va在线播放| www.亚洲免费视频| 蜜桃成人精品| 国新精品乱码一区二区三区18| 欧美在线不卡| 日韩中文字幕a| 91丨porny丨最新| 精品视频在线观看免费| 8v天堂国产在线一区二区| 国产三级电影在线| 全亚洲最色的网站在线观看| 国产精品成人自拍| 麻豆一区二区三区在线观看| 蓝色福利精品导航| 成熟人妻av无码专区| 狠狠干狠狠久久| 色哟哟国产精品色哟哟| 久久99热这里只有精品国产 | 7878成人国产在线观看| 电影av一区| 日韩免费av在线| 亚洲传媒在线| 欧美在线观看成人| 不卡一区二区三区四区| 精品在线免费观看视频| 日韩精品中午字幕| 欧美一区二区三区激情| 欧美精品在线极品| 国产精品亚洲欧美日韩一区在线| 午夜欧美性电影| 老司机精品视频在线| 亚洲综合第一区| 欧美日韩高清在线| 1024国产在线| 成人在线播放av| 亚洲国产日韩欧美在线| 欧美在线a视频| 亚洲免费观看在线视频| 国产xxxx在线观看| 欧美大片在线看免费观看| 136福利精品导航| 欧美成人免费在线观看视频| hitomi一区二区三区精品| 日韩福利片在线观看| 日韩av在线一区二区| 北岛玲heyzo一区二区| 色噜噜狠狠一区二区三区| 青青草国产成人99久久| 久久av红桃一区二区禁漫| 日韩一区二区三免费高清| 色呦呦在线看| 激情小说综合区| 日韩成人午夜精品| 天天鲁一鲁摸一摸爽一爽| 精品裸体舞一区二区三区| 黄色在线网站噜噜噜| 日韩国产欧美一区| 九九**精品视频免费播放| 免费在线黄色网| 日韩av在线免费播放| 日韩av中字| 久久久无码中文字幕久...| 成人18视频在线播放| 69av视频在线观看| 久久躁狠狠躁夜夜爽| 国产精品毛片av| 午夜在线观看av| 亚洲一区二区三区视频在线播放 | 视频在线观看一区二区| 日本超碰一区二区| 91精品91久久久中77777老牛| 国产三级精品视频| 日操夜操天天操| 亚洲欧美国内爽妇网| 亚洲欧美综合久久久久久v动漫| 国产91沈先生在线播放| 久久久久高清精品| 午夜久久久久久噜噜噜噜| 热久久美女精品天天吊色| 91精品国产调教在线观看| 日本丰满少妇裸体自慰| 欧美精品粉嫩高潮一区二区| 国产伦久视频在线观看| 亚洲一区三区| 久久综合网色—综合色88| 国产欧美第一页| 国产精品久久999| 在线综合视频| 疯狂试爱三2浴室激情视频| 日韩精品免费一线在线观看| 国产精品18|