破局角色一致性!京東發布百萬級高清數據集+Lay2Story,實現故事角色像素級精準操控

文章鏈接:https://arxiv.org/pdf/2508.08949

與SOTA方法的比較
亮點直擊
- 一種進階版的故事生成任務:布局可切換的故事生成(Layout-Togglable Storytelling),通過引入布局條件實現主題的精準控制。該方法在確保主題一致性的同時,支持對主題位置、外觀、服裝、表情、姿態等細節的精細調控。
- 構建了Lay2Story-1M數據集,是目前規模最大的故事生成數據集,包含超100萬張720p及以上分辨率的圖像,并附帶詳細主題標注。
- Lay2Story,一種基于DiTs架構的訓練方法,專為布局可切換的故事生成任務設計。通過與現有故事生成方法的廣泛對比,驗證了Lay2Story在一致性、語義相關性和美學質量上均優于相關方法。
總結速覽
解決的問題
- 主題一致性不足:現有方法(訓練無關和訓練相關)在生成連貫故事序列時,難以保持主題(如人物、物體)的細粒度一致性(如位置、外觀、服裝、表情、姿態)。
- 缺乏精細控制:現有技術無法精確控制生成內容的關鍵細節(如主題位置、屬性),主要由于缺乏高質量標注數據。
- 數據稀缺:領域內缺少大規模、高分辨率且帶有布局標注(如邊界框、掩碼)的數據集,制約了任務發展。
提出的方案
- 布局條件引導:引入布局條件(如主題位置、屬性標注)作為細粒度指導,增強幀間交互,提升一致性和可控性。
- 新任務定義:提出Layout-Togglable Storytelling任務,支持通過布局條件精確控制主題生成。
- 數據集與基準:
- 構建Lay2Story-1M:包含超100萬張720p+圖像(源自11,300小時卡通視頻),帶布局標注。
- 發布Lay2Story-Bench:含3,000提示詞的評測基準,用于方法對比。
- 模型框架:提出Lay2Story,基于DiTs架構,通過雙分支(全局分支+主題分支)實現布局條件融合與主題一致性生成。
應用的技術
- 基礎模型:基于擴散Transformer(DiTs)的PixArt-α作為主干模型。
- 雙分支設計:
- 全局分支:以噪聲潛變量和全局文本提示為輸入,生成整體場景。
- 主題分支:結合噪聲潛變量、主題掩碼和參考圖像潛變量,通過主題文本提示保持細節一致性。
- 布局條件注入:通過主題掩碼和位置標注控制生成內容的精確空間布局與屬性。
- 數據構建:從視頻中提取高分辨率幀,人工標注主題位置、外觀等屬性,形成高質量訓練與評測數據。
達到的效果
- 性能優勢:在一致性、語義相關性和美學質量上超越SOTA方法(如1Prompt1Story、FLUX.1-dev IP-Adapter等)。
- 精細控制:實現主題位置、外觀、姿態等屬性的精準調控,生成結果更符合用戶意圖。
- 數據貢獻:填補領域數據空白,Lay2Story-1M和Lay2Story-Bench為后續研究提供資源支持。
- 任務擴展:推動 storytelling 任務向布局可切換的高級控制方向發展,為影視、游戲等場景提供新工具。
Lay2Story-1M
Lay2Story-1M 是專為布局可切換故事生成(Layout-Togglable Storytelling)任務設計的數據集。它包含約20萬組幀序列,每組包含4至6張圖像,均以同一主題為核心且分辨率不低于720p。數據集總計約100萬張圖像。每張圖像均標注了全局描述(格式為“身份提示+幀提示”),與其他故事生成方法類似。為實現對主題生成的精準控制,本文額外標注了布局條件,包括主題位置和描述性文本。
為簡化任務并降低標注工作量, 本文聚焦卡通場景數據,僅標注每幀中最顯著的主題角色(即使存在多個主題)。如下表1所示,Lay2Story-1M在現有故事生成數據集中規模最大、分辨率最高且標注最細。該數據集還可用于其他任務,如高質量卡通圖像生成和布局到圖像生成。接下來介紹數據收集與篩選流程,幀序列構建流程,基于Lay2Story-1M構建的測試集Lay2Story-Bench。

數據收集與篩選
視頻收集:鑒于視頻數據天然具備主題一致性,本文選擇視頻作為主要數據源。從互聯網采集三類視頻:
- PBS Kids與Khan Academy:從支持教育與非盈利項目的平臺(如PBS Kids和Khan Academy)收集約1.2萬部卡通視頻;
- Internet Archive:從公共版權庫Internet Archive獲取約8000部無版權視頻;
- YouTube視頻:從YouTube下載約2萬部高質量卡通視頻,并通過以下措施規避版權風險:
- 僅使用公開頻道數據,不涉及獨家或私有來源;
- 僅共享視頻ID與數據處理代碼,不提供原始數據;
- 嚴格遵守YouTube數據隱私與合理使用政策,數據僅限研究用途。
視頻篩選:
- 基礎篩選:僅保留分辨率≥720p、時長1分鐘至2小時的視頻,且每部動畫最多采集100個片段以平衡類別分布;
- 質量過濾:參照MiraData,按8幀/分鐘采樣幀序列后,使用Laion-Aes美學評分模型評估質量,并通過Stable Diffusion安全檢測器排除NSFW內容;
- 最終數據:篩選后保留約2.5萬部視頻(總時長約1.13萬小時),平均單視頻時長27.2分鐘。視頻時長分布如下圖2所示。

幀序列構建
如下圖3所示,本文開發了一套魯棒的數據處理流程來生成符合訓練和測試要求的幀序列。該流程包含以下關鍵步驟:

(1) 幀提取對于每個輸入視頻,我們使用FFmpeg以0.25 FPS的速率采樣幀。過高的采樣率會導致幀冗余,而過低的采樣率可能造成顯著數據丟失。
(2) 主題檢測采用GroundingDINO-B檢測采樣幀中的主題,僅保留檢測分數最高的邊界框作為主題位置。
(3) 特征提取與聚類使用CLIP-L提取每幀主主題區域的視覺特征,并通過K-means聚類對相似幀分組。為平衡聚類效率與效果:
- 每150幀為一組時,設置12個聚類中心;
- 不足150幀的組,設置6個聚類中心。
(4) 分組聚類后,按預設概率分布將幀組織為4、5、6幀的序列,以豐富訓練和測試數據。
(5) 標注對每組幀序列:
使用GPT-4o mini生成結構化標注:
- 首先生成全局描述(格式為"身份提示+幀提示");
- 隨后基于位置坐標裁剪主題圖像,生成細粒度描述(涵蓋外觀、服裝、表情、姿態等)。
該流程確保了數據集的高質量生成,同時保持訓練與評估的一致性和多樣性。通過此流程,處理了前面篩選的視頻,最終得到約102萬張圖像的Lay2Story-1M數據集。其中4、5、6幀序列分別占總幀數的50%、30%和20%。
Lay2Story-Bench
從Lay2Story-1M中精選了3,000個樣本構建Lay2Story-Bench,確保其中幀序列長度為4、5和6的比例與訓練集中的比例一致。最終測試集包含375個長度為4的序列、180個長度為5的序列和100個長度為6的序列。為了提升最終測試結果的視覺質量,從美學評分排名前10%的視頻中篩選序列。并通過限制每個視頻類別的幀序列集不超過8個,手動維護測試數據集的多樣性和平衡性。為確保公平性,我們記錄了所選序列的視頻ID,并保證訓練集中不會出現來自相同視頻的其他序列。
如下表2所示,與之前最常用的基準測試ConsiStory相比,Lay2Story-Bench提供了更大規模的提示集、更高的提示多樣性、高分辨率的原始幀作為真實值(GT),以及詳細的主體標注。

方法
Lay2Story


全局分支
本文使用在Lay2Story訓練集上微調的PixArt-α模型作為全局分支。PixArt-α中的每個Transformer模塊包含三個核心組件:AdaLN-single、自注意力和交叉注意力。

主體分支





實驗
實現細節
基線方法與基準測試
將本方法與以下故事生成方法進行對比:BLIP-Diffusion、StoryGen、ConsiStory、StoryDiffusion、1Prompt1Story 和 FLUX.1-dev IP-Adapter。采用其論文或開源實現中指定的默認配置。
在評估階段,使用Lay2Story-Bench對上述方法進行定性與定量比較。定性比較中,所有方法均采用4幀提示集生成推理結果。需特別說明,由于本方法支持布局條件(包括主體位置和標題)的可切換輸入,分別展示包含與不包含這些輸入的生成結果。定量比較中,所有方法均在Lay2Story-Bench完整提示集上評估,同樣展示帶/不帶布局條件輸入的生成結果。
評估方法
基于先前方法[38,80],采用DreamSim和CLIP-I評估主體一致性。為確保相似度測量僅聚焦主體身份,參照DreamSim方案,使用CarveKit去除圖像背景并替換為隨機噪聲。同時采用FID指標評估生成圖像質量,Recall@1衡量top-1圖文匹配準確率,人工偏好度反映三位標注者的平均二元評分。
定性結果
如下圖5所示,定性對比了Lay2Story與StoryDiffusion、ConsiStory、1Prompt1Story和FLUX.1-dev IP-Adapter。現有研究在保持圖像序列主體一致性方面存在困難(如StoryDiffusion中的棕熊和ConsiStory中的加菲貓),并出現語義關聯錯誤(如1Prompt1Story第7幀和FLUX.1-dev IP-Adapter第4幀)及美學質量失真(如StoryDiffusion第4幀和ConsiStory第4幀)。綜合比較表明,Lay2Story在一致性、語義相關性和美學質量上均優于基線方法。

同時展示Lay2Story帶/不帶布局條件的生成結果(最后兩行)。當提供布局條件(含主體標題和位置)時,Lay2Story能實現更精細的主體控制(例如末行中加菲貓在第2幀穿著綠裙,熊在第5幀佩戴眼鏡)。
定量結果
如下表3所示,定量對比了Lay2Story(帶/不帶布局條件輸入)與基線方法。在主體一致性指標(DreamSim和CLIP-I)方面,當提供布局條件時,Lay2Story優于所有其他方法——CLIP-I超過第二名約1.6個百分點,DreamSim領先約2個百分點。語義相關性指標(Recall@1)上,帶布局條件的Lay2Story同樣超越所有方法,較第二名提升約2個百分點。美學質量指標(FID)顯示,布局條件下的Lay2Story顯著優于其他方法,較第二名高出約6.4個百分點。

即使不提供布局條件輸入,Lay2Story仍具競爭力:CLIP-I排名第二,Recall@1、DreamSim和FID均位列第三。推理時間對比表明,無布局條件時Lay2Story僅產生0.4秒差異,速度僅次于BLIP-Diffusion但性能全面領先。
消融實驗
Lay2Story關鍵組件消融
如下表4所示,評估了主體分支、參考圖像拼接和掩碼3D自注意力層的影響。通過FID、Recall@1和人工偏好度三項指標驗證了各核心組件的有效性。

布局條件輸入消融
如下圖6所示,通過調整去噪步數(帶/不帶布局條件)評估模型性能。測試提示為"夜晚森林中,小象和小熊圍著篝火跳舞"。結果表明布局條件能顯著提升效果,尤其在早期去噪階段(如T=5時小象輪廓更清晰)。后期階段(T=30)帶布局條件的圖像質量同樣更優。

結論
本文提出故事生成任務的進階形式——布局可切換故事生成(Layout-Togglable Storytelling),支持通過布局條件實現精準主體控制,同時保留用戶選擇權。構建了Lay2Story-1M數據集,包含超100萬張720p及以上分辨率的高質量圖像及精細主體標注;基于此推出含3000條提示的評估基準Lay2Story-Bench。提出的Lay2Story方法基于DiTs架構,實驗表明其在一致性、語義相關性和美學質量上均超越現有方法。
本文轉自AI生成未來 ,作者:AI生成未來

















