把指紋焊死在頻率上:抗微調(diào)神經(jīng)網(wǎng)絡(luò)指紋的硬核方案來了
論文第一作者唐靈,張拳石老師課題組的博二學(xué)生。
今天要聊的是個(gè)硬核技術(shù) —— 如何給神經(jīng)網(wǎng)絡(luò)刻上抹不掉的 "身份證"。現(xiàn)在大模型抄襲糾紛不斷,這事兒特別應(yīng)景。
所謂神經(jīng)網(wǎng)絡(luò)指紋技術(shù),是指使用神經(jīng)網(wǎng)絡(luò)內(nèi)部如同人類指紋一樣的特異性信息作為身份標(biāo)識,用于判斷模型的所有權(quán)和來源。傳統(tǒng)方法都在玩 "貼標(biāo)簽":往模型里塞各種人造指紋。但問題是,模型微調(diào)(fine-tuning)就像給整容 —— 參數(shù)一動,"整張臉" 就變了,指紋自然就糊了。
面對神經(jīng)網(wǎng)絡(luò)微調(diào)訓(xùn)練的威脅,現(xiàn)有方案都在修修補(bǔ)補(bǔ),而我們上升到理論層面重新思考:神經(jīng)網(wǎng)絡(luò)是否先天存在某種對微調(diào)魯棒的特征?如果存在,并將該固有特征作為網(wǎng)絡(luò)指紋,那么無論對模型參數(shù)如何微調(diào),該指紋就能始終保持不變。在這一視角下,前人的探索較為有限,沒有從理論上證明出神經(jīng)網(wǎng)絡(luò)內(nèi)部對微調(diào)天然魯棒的特征。

- 論文地址:https://arxiv.org/pdf/2505.01007
- 論文標(biāo)題:Towards the Resistance of Neural Network Watermarking to Fine-tuning
方法介紹
這里我們發(fā)現(xiàn)了一個(gè)顛覆性事實(shí):卷積核的某些頻率成分根本不怕微調(diào)。就像給聲波做 DNA 檢測,我們把模型參數(shù)轉(zhuǎn)換到頻率域,找到了那些 "焊死" 在頻譜上的特征點(diǎn) —— 我們拓展了離散傅里葉變換,從而定義了神經(jīng)網(wǎng)絡(luò)一個(gè)卷積核所對應(yīng)的頻譜,并進(jìn)一步證明:當(dāng)輸入特征僅包含低頻成分時(shí),卷積核的某些特定頻率成分在微調(diào)過程中能夠保持穩(wěn)定。

理論框架。我們證明,通過對卷積核 W 進(jìn)行拓展后的離散傅里葉變換
(不是傳統(tǒng)的傅里葉變換)所獲得的特定頻率成分
,在訓(xùn)練過程中保持穩(wěn)定。因此,我們使用這些特定的頻率成分作為對于微調(diào)魯棒的神經(jīng)網(wǎng)絡(luò)指紋。
首先,我們發(fā)現(xiàn)神經(jīng)網(wǎng)絡(luò)時(shí)域上的前向傳播過程可以寫為頻域當(dāng)中的向量乘法。具體而言,給定一個(gè)卷積核 W 和偏置項(xiàng) b,以及對應(yīng)的輸入特征 X,我們通過對卷積核進(jìn)行擴(kuò)展的離散傅里葉變換得到頻率成分
,同時(shí)對輸入特征進(jìn)行離散傅里葉變換得到頻域成分
,其中不同的
代表不同的頻率點(diǎn)。可以證明,空間域中的卷積操作
嚴(yán)格等價(jià)于在頻率域中各頻率成分之間的向量點(diǎn)積
。

在此基礎(chǔ)上,我們進(jìn)一步證明了當(dāng)輸入特征 X 僅包含基頻成分時(shí)(除了基頻成分
外,其他頻率成分
取值為 0),并且頻率坐標(biāo)取值連續(xù)的理想情況下,卷積核頻譜中特定頻率
上頻率成分
在微調(diào)過程中能夠嚴(yán)格保持不變。其中,M 和 N 為特征圖長和寬,K 為卷積核大小。

然后,我們將上述理論推廣到實(shí)際場景中,這時(shí)輸入特征 X 通常包含低頻成分,且頻率坐標(biāo)必須為整數(shù)。在這樣的條件下,前述特定頻率坐標(biāo)
取整后的頻率位置處的卷積核頻率成分
在微調(diào)過程中變化極小,近似為零,從而表現(xiàn)出較高的穩(wěn)定性。

(a) 圖中展示了卷積核 W 單個(gè)通道的頻譜特征,(b) 圖展示了卷積核頻譜中特定頻率坐標(biāo)上的頻率成分
在微調(diào)過程中表現(xiàn)出良好的穩(wěn)定性。
因此,我們使用這些特定頻率成分
作為具備理論保障的對于微調(diào)魯棒的神經(jīng)網(wǎng)絡(luò)指紋。
實(shí)驗(yàn)
最后,我們開展了一系列實(shí)驗(yàn),以評估所提出神經(jīng)網(wǎng)絡(luò)指紋方法對微調(diào)操作的魯棒性。實(shí)驗(yàn)結(jié)果表明,相較于現(xiàn)有主流的模型指紋與模型溯源方法,在所有數(shù)據(jù)集和微調(diào)使用的學(xué)習(xí)率設(shè)置下,我們的方法在模型溯源任務(wù)中均取得了最優(yōu)表現(xiàn),尤其在高學(xué)習(xí)率條件下展現(xiàn)出顯著優(yōu)勢。



































