黑盒模型溯源：利用訓練數據順序的"重寫效應"追蹤模型來源

sbf_2000

發布于 2025-10-31 07:43

瀏覽

0收藏

有人盜用了你的語言模型嗎？只要你打亂了訓練數據，論文(Blackbox Model Provenance via Palimpsestic Membership Inference)就能告訴你答案。論文只需要從他們的模型中獲取一些文本！具體來說，假設張三訓練了一個開放權重模型，李四使用它來生成文本。張三能證明李四使用了她的模型嗎？論文在兩個完全黑盒設置中研究了這個問題：

1)（查詢）張三可以通過提示詞在API后面查詢李四的模型，

2)（觀察）張三觀察來自李四的文本。

論文開發了將李四的模型/文本屬性與張三訓練數據順序相關聯的指標（例如，文本是否與后期看到的樣本有更多重疊），這受到數據順序對模型生成的重寫效應的啟發：模型更強烈地記憶訓練后期看到的數據。只要張三打亂（部分）數據（例如，運行SGD），這些指標就能精確捕捉李四的模型/文本是否在統計上獨立于張三的隨機化訓練運行。我們在這個零假設（張三的運行和李四的輸出是獨立的）下計算p值——低p值表明李四很可能在使用張三的模型。

黑盒模型溯源：利用訓練數據順序的"重寫效應"追蹤模型來源-AI.x社區圖片

圖1：我們將pythia-6.9b-deduped和pythia-6.9b對pythia-6.9b-deduped訓練樣本的負對數似然與其訓練順序進行回歸，該順序獨立于pythia-6.9b的訓練順序。盡管單個樣本的對數似然存在噪聲，但在大量樣本上的總體趨勢是明確的：pythia-6.9b-deduped表現出顯著的相關性，而獨立訓練的pythia-6.9b表現出接近零的相關性。

黑盒模型溯源：利用訓練數據順序的"重寫效應"追蹤模型來源-AI.x社區圖片

圖2：報告了在查詢設置中對40個Pythia和OLMo衍生模型應用? ref query的結果（所有p值以log10表示）。將每個衍生模型標記為{模型規模}-{后訓練方法}-{后訓練數據集}。

在查詢設置中，論文在Pythia和OLMo模型（具有公開可用的訓練數據）的各種微調（SFT、DPO等）上運行了測試。在幾乎所有情況下，都獲得了極低的p值。能夠識別HuggingFace上模型標注錯誤的情況：EleutherAI/pythia-2.8b-deduped（很可能）實際上是在The Pile數據的非去重版本上訓練的（p值為1.2e-60）。

在觀察設置中，論文中最強的測試方法（涉及作為一次性開銷部分重新訓練張三的模型）能夠從僅約300個token可靠地將李四的文本歸屬于張三的模型。這種方法接近推理時水印的有效性，而水印僅適用于封閉權重模型。

論文還能夠從李四的文本和張三的訓練文檔之間的n-gram重疊統計中獲得低p值，但需要使用相當多的（約1000萬）token（例如，估計社交媒體平臺上來自張三模型的文本總比例）。

最后，論文在將測試應用于更困難的蒸餾設置方面有了早期跡象：張三能否測試李四是否從她的模型中進行了蒸餾（例如，在她的模型生成的文本上進行訓練）？

本文轉載自??AI帝國??，作者：無影寺

標簽

黑盒模型

訓練數據

追蹤模型

已于2025-10-31 07:43:55修改

贊

回復