黑盒模型溯源:利用訓練數據順序的"重寫效應"追蹤模型來源
有人盜用了你的語言模型嗎?只要你打亂了訓練數據,論文(Blackbox Model Provenance via Palimpsestic Membership Inference)就能告訴你答案。論文只需要從他們的模型中獲取一些文本!具體來說,假設張三訓練了一個開放權重模型,李四使用它來生成文本。張三能證明李四使用了她的模型嗎?論文在兩個完全黑盒設置中研究了這個問題:
1)(查詢)張三可以通過提示詞在API后面查詢李四的模型,
2)(觀察)張三觀察來自李四的文本。
論文開發了將李四的模型/文本屬性與張三訓練數據順序相關聯的指標(例如,文本是否與后期看到的樣本有更多重疊),這受到數據順序對模型生成的重寫效應的啟發:模型更強烈地記憶訓練后期看到的數據。只要張三打亂(部分)數據(例如,運行SGD),這些指標就能精確捕捉李四的模型/文本是否在統計上獨立于張三的隨機化訓練運行。我們在這個零假設(張三的運行和李四的輸出是獨立的)下計算p值——低p值表明李四很可能在使用張三的模型。
圖片
圖1: 我們將pythia-6.9b-deduped和pythia-6.9b對pythia-6.9b-deduped訓練樣本的負對數似然與其訓練順序進行回歸,該順序獨立于pythia-6.9b的訓練順序。盡管單個樣本的對數似然存在噪聲,但在大量樣本上的總體趨勢是明確的:pythia-6.9b-deduped表現出顯著的相關性,而獨立訓練的pythia-6.9b表現出接近零的相關性。
圖片
圖2: 報告了在查詢設置中對40個Pythia和OLMo衍生模型應用? ref query的結果(所有p值以log10表示)。將每個衍生模型標記為{模型規模}-{后訓練方法}-{后訓練數據集}。
在查詢設置中,論文在Pythia和OLMo模型(具有公開可用的訓練數據)的各種微調(SFT、DPO等)上運行了測試。在幾乎所有情況下,都獲得了極低的p值。能夠識別HuggingFace上模型標注錯誤的情況:EleutherAI/pythia-2.8b-deduped(很可能)實際上是在The Pile數據的非去重版本上訓練的(p值為1.2e-60)。
在觀察設置中,論文中最強的測試方法(涉及作為一次性開銷部分重新訓練張三的模型)能夠從僅約300個token可靠地將李四的文本歸屬于張三的模型。這種方法接近推理時水印的有效性,而水印僅適用于封閉權重模型。
論文還能夠從李四的文本和張三的訓練文檔之間的n-gram重疊統計中獲得低p值,但需要使用相當多的(約1000萬)token(例如,估計社交媒體平臺上來自張三模型的文本總比例)。
最后,論文在將測試應用于更困難的蒸餾設置方面有了早期跡象:張三能否測試李四是否從她的模型中進行了蒸餾(例如,在她的模型生成的文本上進行訓練)?
本文轉載自??AI帝國??,作者:無影寺

















