騰訊混元升級AI繪畫微調范式,在整個擴散軌跡上優化,人工評估分數提升300%
讓AI生成的圖像更符合人類精細偏好,在32塊H20上訓練10分鐘就能收斂。
騰訊混元新方法讓微調的FLUX1.dev模型人工評估的真實感和美學評分提高3倍以上。

當前的擴散模型雖然能通過獎勵機制來貼合人類喜好,但存在兩個問題:一是優化步驟少,容易出現 “獎勵作弊”,也就是模型為了拿高分生成質量差的圖;二是需要離線調整獎勵模型才能達到好的美學效果,不夠靈活。
為此,團隊提出兩個關鍵方法:
一個是Direct-Align,通過預先注入噪聲,能從任意時間步恢復原圖,避免了只在后期步驟優化的局限,減少了 “獎勵作弊”。
另一個是語義相對偏好優化(SRPO),它把獎勵變成受文本控制的信號,通過添加正面和負面提示詞,能在線調整獎勵,不用額外數據就能靈活適配需求。
論文公開后,有開發者評價SRPO看起來就像下一代RLHF。

在整個擴散軌跡上進行優化
研究團隊首先指出了現有方法的兩個核心痛點:第一,多步去噪過程中的梯度計算成本極高,導致優化只能局限在擴散過程的最后幾步;第二,為了達到理想的美學效果,往往需要不斷地離線調整獎勵模型。
為了解決第一個問題,團隊提出了Direct-Align方法。
首先預定義一個噪聲先驗,通過插值直接從任意時間步恢復原始圖像。團隊發現,擴散狀態實際上就是噪聲和目標圖像之間的插值。

這個方法讓模型能夠從高噪聲狀態直接恢復出清晰圖像,避免了傳統方法在早期時間步反向傳播時的梯度爆炸問題。實驗表明,即使在只有5%去噪進度的極早期階段,Direct-Align也能恢復出圖像的粗略結構。

更重要的是,這種方法支持在整個擴散軌跡上進行優化,而不是像ReFL、DRaFT等方法那樣只能在后期步驟訓練。
實驗發現,僅在后25%時間步訓練會導致嚴重的獎勵黑客問題,模型會過度擬合獎勵函數的偏好,比如HPSv2偏好紅色調、PickScore偏好紫色圖像等。
SRPO讓獎勵信號更聰明
第二個創新是語義相對偏好優化(SRPO)。傳統方法通常需要多個獎勵模型來平衡不同的偏好,但團隊發現這只是調整了獎勵的規模,并沒有真正對齊優化方向。
SRPO的核心思想是將獎勵重新定義為文本條件信號。具體來說,對于同一張圖像,模型會使用正面和負面提示詞分別計算獎勵,然后取其相對差值作為優化目標。

在實際應用中,團隊只需在原始提示詞前添加控制短語(如”. “)就能實現在線調整。實驗顯示,通過添加”Realistic photo”等控制詞,模型生成圖像的真實感提升了約3.7倍,美學質量提升了3.1倍。
SRPO能夠通過簡單的提示詞控制實現多種風格調整,包括亮度調節、漫畫風格轉換等。有趣的是,控制效果的強弱與控制詞在獎勵模型訓練集中的出現頻率相關——高頻詞如”painting”效果最好,而低頻詞如”Cyberpunk”則需要與其他高頻詞組合使用。
實驗結果
研究團隊在FLUX.1-dev模型上進行了全面的實驗驗證。與ReFL、DRaFT、DanceGRPO等最新方法相比,SRPO在多個評估指標上都取得了最佳成績。
在HPDv2基準測試的3200個提示詞上,SRPO不僅在自動評估指標(Aesthetic Score v2.5、PickScore、ImageReward等)上領先,更重要的是在人工評估中表現出色。團隊組織了10名訓練有素的標注員和3名領域專家,對500個提示詞生成的圖像進行了全面評估。
結果顯示,在真實感維度上,原始FLUX模型的優秀率僅為8.2%,而經過SRPO訓練后飆升至38.9%。在美學質量上,優秀率從9.8%提升到40.5%,總體偏好度更是達到了29.4%的優秀率。

值得一提的是,DanceGRPO雖然也能提升美學質量,但經常引入不良偽影,如過度的光澤感和明顯的邊緣高光。相比之下,SRPO生成的圖像在保持高美學質量的同時,紋理細節更加自然真實。

團隊還進行了一項有趣的對比實驗:他們發現經過短短10分鐘SRPO訓練的FLUX.1-dev,在HPDv2基準上的表現已經超越了最新的開源版本FLUX.1.Krea。


































