抗干擾能力提升近40% !無(wú)需對(duì)抗訓(xùn)練,北航上海AI Lab新蒸餾方法提升模型魯棒性 | ICML 2025
在人工智能模型規(guī)模持續(xù)擴(kuò)大的今天,數(shù)據(jù)集蒸餾(Dataset Distillation,DD)方法能夠通過(guò)使用更少的數(shù)據(jù),達(dá)到接近完整數(shù)據(jù)的訓(xùn)練效果,提升模型訓(xùn)練效率,降低訓(xùn)練成本。
但是,通過(guò)數(shù)據(jù)集蒸餾訓(xùn)練的模型,要在安全性要求比較高的任務(wù)中(如醫(yī)療診斷、自動(dòng)駕駛),實(shí)現(xiàn)不受干擾并保持性能效果,還有一定難度。
來(lái)自北京航空航天大學(xué)、上海人工智能實(shí)驗(yàn)室和英國(guó)利物浦大學(xué)的研究團(tuán)隊(duì),提出了名為ROME的新方法,這是首次將信息瓶頸理論引入數(shù)據(jù)集蒸餾任務(wù)。該方法無(wú)需對(duì)抗訓(xùn)練,即可顯著提升模型的對(duì)抗魯棒性,最大提升近40%。

實(shí)驗(yàn)結(jié)果顯示,在不同數(shù)據(jù)集上,相較于以往最優(yōu)方法,ROME的魯棒性均實(shí)現(xiàn)了大幅超越,最高從此前43.97%暴漲至103.09%。

目前,相關(guān)成果已被國(guó)際機(jī)器學(xué)習(xí)頂會(huì)ICML 2025正式接收,項(xiàng)目代碼與數(shù)據(jù)已全面開(kāi)源。
ROME:首個(gè)引入信息瓶頸理論的魯棒數(shù)據(jù)集蒸餾方法
數(shù)據(jù)集蒸餾(Dataset Distillation,DD)是一種高效的數(shù)據(jù)壓縮方案,通過(guò)將大規(guī)模原始數(shù)據(jù)壓縮為一組可訓(xùn)練的合成樣本,使模型在使用更少數(shù)據(jù)的情況下,達(dá)到接近完整數(shù)據(jù)訓(xùn)練的效果。
盡管多種數(shù)據(jù)集蒸餾方法在準(zhǔn)確率方面表現(xiàn)優(yōu)秀,如DM、MTT、IDM、BACON等,但在實(shí)際應(yīng)用中,使用蒸餾數(shù)據(jù)訓(xùn)練的模型仍對(duì)對(duì)抗攻擊高度敏感,難以滿足安全關(guān)鍵任務(wù)的魯棒性要求,比如自動(dòng)駕駛、安防識(shí)別、醫(yī)療診斷等領(lǐng)域。
針對(duì)現(xiàn)有數(shù)據(jù)集蒸餾方法在對(duì)抗攻擊面前的脆弱性,研究團(tuán)隊(duì)提出了ROME(RObust distilled datasets via inforMation bottlenEck)方法。該方法首次將信息瓶頸(Information Bottleneck, IB)理論引入數(shù)據(jù)集蒸餾任務(wù)。

其核心思想是通過(guò)最小化輸入數(shù)據(jù)與其中間層潛在表示之間的冗余信息,同時(shí)增強(qiáng)該表示對(duì)于最終標(biāo)簽信息的有效性,從而從源頭上提升合成數(shù)據(jù)的對(duì)抗魯棒性。
此外,ROME還引入了基于條件熵瓶頸(Conditional Entropy Bottleneck, CEB)的魯棒先驗(yàn)機(jī)制(如下圖),在蒸餾過(guò)程中加入合理的擾動(dòng),以提高生成數(shù)據(jù)本身的魯棒性。

為了實(shí)現(xiàn)這一目標(biāo),ROME構(gòu)建了兩個(gè)核心訓(xùn)練目標(biāo):
性能對(duì)齊項(xiàng)(Performance-aligned Term):確保合成數(shù)據(jù)能夠支持模型獲得良好的分類準(zhǔn)確率,如下圖所示。

魯棒對(duì)齊項(xiàng)(Robustness-aligned Term)(下圖):對(duì)齊合成圖像與其對(duì)抗擾動(dòng)圖像的特征分布,使模型對(duì)輸入擾動(dòng)更不敏感,如下圖所示。

此外,團(tuán)隊(duì)還引入了改進(jìn)魯棒性比率的精確指標(biāo)——I-RR,用于更好地評(píng)估數(shù)據(jù)集蒸餾魯棒性。
I-RR:考慮到現(xiàn)有魯棒性評(píng)估指標(biāo)在數(shù)據(jù)集蒸餾任務(wù)中的局限性,研究團(tuán)隊(duì)基于BEARD 框架提出了改進(jìn)指標(biāo)I-RR(Improved Robustness Ratio)。該指標(biāo)綜合了模型準(zhǔn)確率與對(duì)抗攻擊成功率,有效避免了異常情況下魯棒性評(píng)估的誤判,能夠更全面且直觀地反映蒸餾方法在面對(duì)攻擊時(shí)的表現(xiàn)。
結(jié)果:無(wú)需對(duì)抗訓(xùn)練,魯棒性大幅提升
在CIFAR-10和CIFAR-100數(shù)據(jù)集上的實(shí)驗(yàn)表明,ROME在未采用任何對(duì)抗訓(xùn)練的情況下,依然實(shí)現(xiàn)了顯著的魯棒性提升。無(wú)論白盒還是黑盒攻擊,ROME均表現(xiàn)出全面領(lǐng)先的防御能力,充分驗(yàn)證了其強(qiáng)大性能。

上圖展示了白盒攻擊(包括有目標(biāo)、無(wú)目標(biāo)攻擊)。在CIFAR-10和CIFAR-100數(shù)據(jù)集上,相較于以往最優(yōu)方法,ROME在有目標(biāo)和無(wú)目標(biāo)攻擊下的魯棒性均實(shí)現(xiàn)了大幅超越。以CIFAR-100為例,在有目標(biāo)攻擊下,其魯棒性(I-RR指標(biāo))從之前最優(yōu)的43.97%暴漲至103.09%。

上圖展示了黑盒攻擊。在遷移攻擊和查詢攻擊下,ROME同樣表現(xiàn)出色,多個(gè)指標(biāo)提升超過(guò)5%,查詢攻擊下的魯棒性提升高達(dá)15.2%。
可視化
下圖展示了在不同魯棒先驗(yàn)配置下,由ROME生成的合成數(shù)據(jù)集。這些圖像突顯了不同設(shè)置如何影響合成數(shù)據(jù)的分布,進(jìn)而揭示了ROME在生成魯棒蒸餾數(shù)據(jù)集方面的有效性。

最關(guān)鍵的是,ROME的強(qiáng)大魯棒性完全不需要對(duì)抗訓(xùn)練的加持,其訓(xùn)練時(shí)間與標(biāo)準(zhǔn)蒸餾方法幾乎無(wú)異,遠(yuǎn)低于引入對(duì)抗訓(xùn)練后的時(shí)間開(kāi)銷。這證明ROME是一條兼顧了性能、魯棒性與效率的實(shí)用技術(shù)路線。
論文地址:
https://openreview.net/pdf?id=agtwOsnLUB
代碼鏈接:
https://github.com/zhouzhengqd/ROME
項(xiàng)目主頁(yè):
https://zhouzhengqd.github.io/rome.page/
ICML線上主頁(yè):
https://icml.cc/virtual/2025/poster/44781




































