ICCV 2025 | 港科、牛津大學(xué)發(fā)布AlignGuard,文圖生成模型可規(guī)模化安全對齊框架
本文共一作者為劉潤濤和陳奕杰,香港科技大學(xué)計算機科學(xué)方向博士生,主要研究方向為多模態(tài)生成模型和偏好優(yōu)化。
1. 背景介紹
隨著文圖生成模型的廣泛應(yīng)用,模型本身有限的安全防護機制使得用戶有機會無意或故意生成有害的圖片內(nèi)容,并且該內(nèi)容有可能會被惡意使用。現(xiàn)有的安全措施主要依賴文本過濾或概念移除的策略,只能從文圖生成模型的生成能力中移除少數(shù)幾個概念。
在 ICCV 2025,AlignGuard 推出了一個通過直接偏好優(yōu)化訓(xùn)練文圖生成模型,并以此實現(xiàn)安全對齊的訓(xùn)練框架。通過生成有害和安全的圖像 - 文本對數(shù)據(jù)集 CoProV2,AlignGuard 使 DPO 技術(shù)能夠可規(guī)模化的應(yīng)用于文圖生成模型的安全目的。AlignGuard 的安全對齊框架可以針對不同的有害概念引入各自的安全專家,會對于每個概念訓(xùn)練低秩適應(yīng)(LoRA)矩陣用以引導(dǎo)文圖模型減少生成特定的有害概念。


- Paper: AlignGuard: Scalable Safety Alignment for Text-to-Image Generation
- Paper Link: https://www.arxiv.org/abs/2412.10493
- Github: https://github.com/Visualignment/SafetyDPO
- Project page:https://alignguard.github.io/
2. AlignGuard 安全對齊框架
AlignGuard 這項工作的核心是提出一個面相擴散模型(Diffusion model)可規(guī)模化的安全對齊方法。通過生成針對安全內(nèi)容的文圖數(shù)據(jù)集,AlignGuard 的訓(xùn)練框架能在保有原本的生圖內(nèi)容的同時去除圖片中的有害內(nèi)容,并保持模型的高質(zhì)量生圖品質(zhì)。
2.1 CoProv2 數(shù)據(jù)集構(gòu)建
AlignGuard 首先圍繞多種有害概念,構(gòu)建了包含安全和不安全的圖像文本對數(shù)據(jù)集 CoProV2。CoProV2 針對不同的有害概念,用 LLM 生成了一系列具有相似語義的有害與安全提示詞對,并對每個提示詞生成了對應(yīng)的圖片。

相較于已有的人造數(shù)據(jù)集如 UD 和 I2P 缺少文本數(shù)據(jù)對應(yīng)的圖片,CoProV2 是一個更具規(guī)模且能夠提供文本數(shù)據(jù)對應(yīng)的圖片的數(shù)據(jù)集。并且 CoProV2 數(shù)據(jù)內(nèi)容也保有了一定程度的有害內(nèi)容(IP),適合用來應(yīng)用在安全對齊方向的直接偏好優(yōu)化。

2.2 AlignGuard 的訓(xùn)練架構(gòu)設(shè)計
針對 CoProV2 中不同安全類別,AlignGuard 利用直接偏好優(yōu)化技術(shù)為各個安全類別訓(xùn)練了各自的專家 LoRA 矩陣,包括 "仇恨"、"性"、"暴力" 等類別。在訓(xùn)練過程中,每個專家專注于學(xué)習(xí)特定領(lǐng)域的安全特征,以確保高效的概念移除。最后,AlignGuard 不同專家 LoRA 矩陣會被合并成單一的 LoRA 矩陣,以構(gòu)造一個能夠預(yù)防不同有害類別的提示詞的安全生圖模型。

2.3 LoRA 專家合并策略
為了將不同安全專家合并成單一模型,AlignGuard 會基于各個專家的信號強度進行權(quán)重分析,并以此為合并策略將多個 LoRA 專家整合為單一模型,以實現(xiàn)最優(yōu)的計算與安全性能。AlignGuard 的專家合并策略考慮了不同安全類別之間的相互作用,以確保合并后的模型在所有安全維度上都能保持一致的性能。

3. 實驗結(jié)果
3.1 生成定量結(jié)果
AlignGuard 在 CoProV2 危害概念移除任務(wù)中能夠成功移除比現(xiàn)有方法多 7 倍的有害概念,并且同時保持了圖像生成質(zhì)量與文圖的對齊程度。在未見數(shù)據(jù)集 I2P 和 UD 上也領(lǐng)先于現(xiàn)有方法,表明 AlignGuard 的泛化能力在面對新的有害概念時仍能保持穩(wěn)健的安全性能。

3.2 生成定性結(jié)果
相較于未被安全對齊的基線模型,AlignGuard 可以在包含有害詞語的提示詞上生成更為安全的圖片。AlignGuard 的安全對齊策略可以在不過度影響生圖內(nèi)的前提下僅僅去除有害的元素。
3.3 專家 LoRA 合并策略分析
相較于為各個安全概念各自訓(xùn)練一個專家模型并直接使用,AlignGuard 展示了合并不同專家模型可以更加有效得去除有害內(nèi)容的生成。

相較于其他如加權(quán)平均的 LoRA 矩陣合并策略,AlignGuard 的信號權(quán)重合并策略能夠在有效降低生成有害內(nèi)容的同時,保存模型的圖像品質(zhì)與圖文對齊度。AlignGuard 的合并策略能夠有效平衡不同安全專家之間的權(quán)重,避免專家間的沖突并最大化整體安全性能。

4. 總結(jié)
文本到圖像生成模型在缺乏有效安全措施的情況下,存在被用戶濫用風(fēng)險。AlignGuard 提出了一種基于直接偏好優(yōu)化(DPO)的安全對齊方法。AlignGuard 安全對齊框架的創(chuàng)新在于:1. 將直接偏好優(yōu)化技術(shù)規(guī)模化的應(yīng)用于文生圖模型的安全領(lǐng)域;2. 采用專家系統(tǒng)架構(gòu),針對不同有害圖像類別訓(xùn)練專門的 LoRA 矩陣,然后通過模型的信號強度構(gòu)造權(quán)重并整合為單一 LoRA,以此提升計算效率;3. 生成了成對的有害與無害的圖文數(shù)據(jù)集 CoProV2,用以進行直接偏好優(yōu)化訓(xùn)練。 AlignGuard 這種方法能夠在保持模型生成質(zhì)量的同時,移除比基準(zhǔn)方法多 7 倍的有害概念。
































