不影響輸出質(zhì)量還能追蹤溯源,「大模型無偏水印」入選ICLR 2024 Spotlight
本文通訊作者為馬里蘭大學(xué)計(jì)算機(jī)系的博士生胡正冕,其導(dǎo)師為 Heng Huang。他的主要研究方向是采樣與機(jī)器學(xué)習(xí)理論,曾在ICML、NeurIPS、ICLR等頂級(jí)會(huì)議上發(fā)表多篇論文。郵箱: huzhengmian@gmail.com
隨著大語言模型(LLM)的快速發(fā)展,其在文本生成、翻譯、總結(jié)等任務(wù)中的應(yīng)用日益廣泛。如微軟前段時(shí)間發(fā)布的Copilot+PC允許使用者利用生成式AI進(jìn)行團(tuán)隊(duì)內(nèi)部實(shí)時(shí)協(xié)同合作,通過內(nèi)嵌大模型應(yīng)用,文本內(nèi)容可能會(huì)在多個(gè)專業(yè)團(tuán)隊(duì)內(nèi)部快速流轉(zhuǎn),對(duì)此,為保證內(nèi)容的高度專業(yè)性和傳達(dá)效率,同時(shí)平衡內(nèi)容追溯、保證文本質(zhì)量的LLM水印方法顯得極為重要。
如何從使用面的事后追溯管控生成式AI的應(yīng)用,因此成為了一些研究者關(guān)注的議題。
為了應(yīng)對(duì)這一挑戰(zhàn),研究者們提出了在LLM生成過程中嵌入水印的方法,以實(shí)現(xiàn)對(duì)模型輸出內(nèi)容的追蹤和溯源。
近日,馬里蘭大學(xué)、匹茲堡大學(xué)和滑鐵盧大學(xué)的研究者在ICLR 2024上發(fā)表了一項(xiàng)名為「Unbiased Watermark for Large Language Models」的研究,提出了一種新的LLM水印方法——無偏水印(Unbiased Watermark)。
該方法不僅能在LLM生成過程中嵌入水印,實(shí)現(xiàn)內(nèi)容溯源,還能保證嵌入水印后的文本質(zhì)量不受影響。相關(guān)論文已被ICLR 2024會(huì)議接收為Spotlight論文。


- 論文地址: https://openreview.net/pdf?id=uWVC5FVidc
- 代碼倉(cāng)庫(kù): https://github.com/xiaoniu-578fa6bff964d005/UnbiasedWatermark
無偏水印方法
傳統(tǒng)的LLM水印方法存在一個(gè)兩難困境:「如果水印信號(hào)過強(qiáng),雖然易于檢測(cè),但會(huì)影響生成文本的質(zhì)量;如果水印信號(hào)過弱,雖然對(duì)文本質(zhì)量影響小,但難以檢測(cè)。」
這一矛盾導(dǎo)致傳統(tǒng)水印方法難以在內(nèi)容溯源和質(zhì)量保證之間取得平衡。
為了解決這一問題,該研究提出了無偏水印方法。
其核心思想是:利用多個(gè)水印分布,而不是單一的水印分布。這些水印分布的組合能夠恢復(fù)原始的語言模型輸出分布。在生成過程中,根據(jù)一個(gè)私鑰在所有可能的水印分布之間進(jìn)行選擇。
對(duì)于沒有私鑰的觀察者來說,含水印模型的期望輸出與原始模型完全一致,從而保證了無偏性。但對(duì)于擁有私鑰的人來說,相應(yīng)水印分布與原始分布之間的差異可以很大,從而實(shí)現(xiàn)可靠的水印檢測(cè)。
無偏水印方法主要包括兩個(gè)關(guān)鍵組件:無偏重賦權(quán)(Unbiased Reweight)和獨(dú)立水印碼(Independent Watermark Codes)。
無偏重賦權(quán)的目的是確保含水印分布的期望值與原始分布相匹配。
研究者提出了兩種具體的無偏重賦權(quán)方法:δ-reweight和γ-reweight。
- δ-reweight方法利用逆變換采樣(Inverse Transform Sampling)的思想,根據(jù)原始分布和一個(gè)均勻分布的隨機(jī)數(shù)來生成水印分布。
- γ-reweight方法則先對(duì)詞表進(jìn)行隨機(jī)重排,然后對(duì)重排后的詞表進(jìn)行分段線性變換,得到水印分布。
理論分析表明,這兩種方法都滿足無偏性要求。

δ-reweight和γ-reweight方法示例
為了保證整個(gè)序列的無偏性,水印碼在每一步生成過程中都必須是獨(dú)立的。由于水印碼依賴于上下文碼(Context Codes),研究者引入了上下文碼歷史(Context Code History)的概念。
在生成過程中,如果某個(gè)上下文碼出現(xiàn)過,就跳過水印嵌入,直接使用原始的語言模型輸出分布。這樣可以避免重復(fù)的上下文碼導(dǎo)致的水印碼相關(guān)性,從而保證水印碼的獨(dú)立性。

水印的檢測(cè)
在水印檢測(cè)方面,該研究提出了兩種檢測(cè)方法:基于似然(likelihood-based)的檢測(cè)和無需似然(likelihood-agnostic)的檢測(cè)。
基于似然的檢測(cè)方法利用語言模型的輸出概率進(jìn)行水印檢測(cè)。研究者首先介紹了對(duì)數(shù)似然比檢驗(yàn)(LLR Test)的方法。LLR Test比較給定文本在原始分布和水印分布下的似然,如果似然比超過一個(gè)閾值,則判定該文本含有水印。
LLR Test在理論上是最優(yōu)的檢驗(yàn)方法,能夠在I類錯(cuò)誤(假陽性)和II類錯(cuò)誤(假陰性)之間取得最佳平衡。
然而,標(biāo)準(zhǔn)的LLR Test對(duì)原始分布和水印分布的擾動(dòng)比較敏感。如果文本在水印檢測(cè)前被修改,真實(shí)的水印分布可能與假設(shè)的水印分布不同,導(dǎo)致檢測(cè)性能下降。為了解決這個(gè)問題,研究者提出了一種穩(wěn)健的LLR Test變體。
該變體引入了一個(gè)新的優(yōu)化問題,允許水印分布有小幅度的擾動(dòng)。實(shí)驗(yàn)表明,穩(wěn)健的LLR Test在面對(duì)文本修改時(shí),仍然能保持較好的檢測(cè)性能。
基于似然的檢測(cè)方法需要訪問語言模型的輸出概率,在某些情況下可能不易求解。
為此,研究者還提出了一種無需似然的檢測(cè)方法。該方法不依賴于語言模型的輸出概率,而是利用Gumbel Trick生成水印碼,并設(shè)計(jì)了一種新的打分函數(shù)。
理論分析表明,無需似然的檢測(cè)方法同樣能夠保證I類錯(cuò)誤的上界。然而,與基于似然的檢測(cè)方法相比,無需似然的檢測(cè)方法的檢測(cè)效率較低,在相同的I類錯(cuò)誤率下,通常需要更長(zhǎng)的文本序列才能可靠地檢測(cè)到水印。

實(shí)驗(yàn)結(jié)果
研究者在文本摘要和機(jī)器翻譯兩個(gè)任務(wù)上,評(píng)測(cè)了無偏水印方法的性能。
實(shí)驗(yàn)結(jié)果表明,嵌入水印后的文本質(zhì)量與原始模型輸出相當(dāng),在ROUGE、BLEU等指標(biāo)上沒有顯著差異。相比之下,傳統(tǒng)的水印方法(如Soft Red List)會(huì)導(dǎo)致明顯的質(zhì)量下降。

此外,研究者還測(cè)試了無偏水印方法對(duì)多種可能的文本變化的魯棒性,包括溫度改變,Top-k采樣,輸入擾動(dòng),模型擾動(dòng),隨機(jī)替換攻擊。
實(shí)驗(yàn)表明無偏水印方法具有較強(qiáng)的魯棒性,能夠應(yīng)對(duì)一定程度的文本修改攻擊。
總結(jié)
無偏水印方法為L(zhǎng)LM水印技術(shù)提供了一種新的思路。通過新穎的采樣策略,該方法在保證生成文本質(zhì)量的同時(shí),實(shí)現(xiàn)了可靠的水印嵌入和檢測(cè)。這為解決LLM生成內(nèi)容的濫用問題提供了一種有效的解決方案。
無偏水印技術(shù)在維持文本質(zhì)量的同時(shí),也可能引發(fā)一些倫理問題。由于用戶無法在不知道創(chuàng)建者私鑰的情況下檢測(cè)水印,這可能導(dǎo)致未經(jīng)披露的跟蹤行為。
在實(shí)際應(yīng)用中,人們應(yīng)當(dāng)謹(jǐn)慎、合乎倫理地應(yīng)用無偏水印方法,并向用戶明確說明其存在,工作原理和意義。





























