首個故事可視化綜合評估框架來了!80個故事單元53種類別,20種技術方案全面對比
隨著AIGC技術的進步,連環畫與故事繪本生成(故事可視化)逐漸引發學界與業界的廣泛關注,成為電影生成敘事性的基礎。
故事可視化旨在用一段文字或照片生成一組連續的圖片。
但生成的質量如何呢?我們需要系統性關注哪些指標呢?
現在,一套綜合評估基準來了!階躍星辰攜手上科大、西湖大學提出ViStoryBench可視化評估框架,通過多維度、多層次的測試標準,客觀衡量故事可視化模型在真實應用場景中的表現。

故事可視化技術的核心挑戰在于確保角色形象的一致性,同時構建富有細節的復雜敘事場景和世界觀。
當前,擴散模型和自回歸生成技術的突破顯著提升了長篇幅故事的可視化能力,但現有的評估體系仍存在明顯不足——指標單一、維度局限,難以全面反映生成質量。
團隊注意到現有評估方法在題材多樣性、視覺風格譜系等關鍵維度上有所缺失。
而ViStoryBench的提出正是為了建立更科學的評估框架。

該基準不僅關注技術實現,更重視藝術表達與敘事邏輯的有機統一,為行業發展提供可靠的評估工具。

下面具體看看他們是怎么做的。
研究方法
ViStoryBench作為一套綜合評估體系,旨在全面解決故事可視化領域評估標準多樣化和多維化的問題。具體如下:
數據集創建

團隊精心構建了一個多元化數據集,同時包含中文和英文內容,全面覆蓋不同類型的故事題材和藝術表現形式。
該數據集由80個故事單元組成,涉及53種故事類別,包含344個獨立角色,在敘事框架和視覺要素之間實現了良好平衡。
數據集設計包含單一主角和多角色互動的故事情境,每個故事涉及的角色數量在2至10人之間,專門用于檢驗模型在多角色形象連貫性方面的表現。
同時,數據集還納入了情節復雜度高、世界觀設定細致的敘事內容,每個場景單元均包含主觀敘事(角色與環境的關系描寫,類似小說手法)、客觀敘述(角色間或角色與環境的具體互動,類似劇本格式)、場景布置(類似舞臺設計)、鏡頭構圖(類似攝影指導)以及角色出場信息,以此全面測試模型生成精準視覺內容的能力。
敘事素材(故事和劇本)
采用人工篩選與AI輔助相結合的方式,從影視劇本、文學著作、民間傳說、小說及繪本等渠道精選80個故事樣本。
針對篇幅過長的原始素材,團隊運用大型語言模型(如Step-1V)進行內容提煉,確保每個故事樣本保持數百單詞的適宜長度。隨后將這些故事素材轉化為標準化的劇本格式,同時補充詳細的角色設定和分鏡腳本。

視覺素材(角色參考圖像)
通過人工采集與AI生成相結合的方式,嚴格篩選與角色設定相匹配的視覺參考圖像,保證同一故事單元內所有角色形象的美術風格協調統一。
其中部分角色參考圖像采用SDXL模型生成。最終共整理出344個角色檔案及509張參考圖像。

評估指標

團隊建立了一套多維度的綜合性評估框架,包含角色與風格相似性分析、細粒度提示對齊、美學質量評估及復制粘貼行為檢測等核心指標,用以全面衡量主流方法在生成連貫圖像序列方面的表現。具體評估維度如下:
角色相似性(CIDS)

簡單來說,該系統就像一個“火眼金睛”的安檢員。它先用一個模(GroundingDINO)在生成的圖片中準確地“框出”所有角色,然后再用另一個人臉識別模型(ArcFace)來判斷,這個被框出的角色到底是不是我們參考圖片里的那個人,并給出一個相似度分數。
角色相似性從兩個維度進行評估:
- 角色跨相似性:生成圖像與參考圖像之間的角色相似性、匹配度。
- 角色自相似性:生成圖像序列之間的角色形象的一致性。
風格相似性
基于CSD杰出的風格特征解耦能力,風格相似性指標從兩個層面進行量化:
- 風格跨相似性:生成圖像與參考圖像之間的藝術風格相似度、契合度。
- 風格自相似性:生成圖像序列間的風格連貫性。
細粒度提示對齊度

基于GPT-4.1的強大理解能力,評估生成圖像與對應的提示中提供的劇本描述的一致性,主要對以下要素進行細粒度匹配驗證:
- 場景設定的吻合度
- 鏡頭設計的契合度
- 角色動作/表情的準確呈現
- 多角色互動的合理表達
- 角色數量的準確性
角色數量準確性(OCCM)

團隊還特別設計了登場角色數量匹配度(OCCM)指標,以統計了每個生成圖像中登場角色數量的準確性,包括角色冗余與遺漏,角色數量的偏差直接影響OCCM的分值。
考慮到登場角色是由文本提示進行指定的,因此團隊將其作為細粒度提示一致性下的一個衍生子類。
美學、質量與多樣性
采用Aesthetic Predictor V2.5和Inception V3雙模型架構,從三個維度進行評判:
- 美學質量:圖像的藝術表現力
- 生成質量:生成圖像的完成度
- 多樣性:創意的豐富程度
同時專門配備了復制粘貼檢測機制,來檢查模型是否過度參考了角色參考圖像(對參考圖像的過度依賴)
實驗設計
團隊對超過20種技術方案(包含18種主要方法及其變體)進行了系統性評測,覆蓋開源方法(涉及故事圖像與視頻生成領域)、商業產品以及多模態大語言模型三大類別。
針對不同技術特性,團隊設計了專門的數據適配方案,例如處理僅支持單角色生成的算法、優化長文本輸入的兼容性等。
評測在完整版(full)和精簡版(lite)兩個數據集版本上進行,精簡版數據集包含20個故事樣本,涵蓋36個動畫角色、41個真實人物以及4個非人類實體。

開源視覺生成
- 圖像生成方法:評估了StoryDiffusion、Story-Adapter、StoryGen、UNO、TheaterGen和SEED-Story等多種圖像生成算法。針對不同算法特性,采用不同輸入配置,比如分別測試了純文本輸入、單圖像參考輸入以及多圖像聯合輸入等配置方案。
- 視頻生成方法:評估了Vlogger、MovieAgent、Anim-Director和MM-StoryAgent等多種視頻生成算法。為確保評估標準統一,采用視頻關鍵幀提取評估策略,或在特定場景下僅執行文本到圖像的生成環節。
多模態大模型
重點測試了GPT-4o和Gemini-2.0等先進模型。這些模型憑借強大的跨模態理解與生成能力,在故事可視化任務中展現出獨特優勢。
通過標準化預處理流程(包括尺寸調整、色彩空間轉換等)將角色參考圖像直接作為視覺條件輸入,有效保證生成角色與設定外觀的一致性。
利用模型的上下文記憶能力,在單次會話中連續生成同一故事的多組分鏡圖像,實現跨分鏡的內容連貫性。
商業軟件平臺
涵蓋白日夢、豆包、訊飛繪影、神筆馬良、Morph Studio、MOKI等商業產品。
針對部分缺乏開放接口的平臺,組織全職專業標注團隊在企業內部環境完成圖像生成與采集任務。
所有商業產品的測試工作均統一在2025年5月1日至7日期間完成。


結果與分析
自動化測試結果




圖表展示了不同方法在ViStoryBench和ViStoryBench-Lite上的自動化測試結果,團隊觀察到若干具有啟發性的現象。
- 綜合指標的必要性:測試結果表明,單一評估指標存在明顯局限性,這一點在Copy-Paste Baseline的表現中尤為突出:該模型雖然在IS分數和美學評分上取得優異成績,但其提示一致性Alignment Score卻顯著偏低,反映出僅追求視覺質量而忽視敘事邏輯的技術缺陷。
- 商業模型的優勢與局限:商業模型展現出差異化特征,Doubao和GPT-4o憑借強大的語言理解能力在提示一致性(Alignment Score)和角色數量匹配(OCCM)指標上表現突出,而AIbrm等專用工具雖然在角色特征還原方面更為精準,卻因文本指令解析能力的不足而影響整體評分。這一現象在用戶研究中得到了印證:在滿分為4分的主觀評估中,豆包在“角色一致性”上以3.63分的高分領先,展現了其強大的角色鎖定能力;而GPT-4o則在“主觀美學”上以3.28分奪冠,其生成畫面的藝術表現力更受用戶青睞。ViStoryBench清晰地量化了不同頂尖模型間的“能力偏科”現象。這一現象揭示了不同技術路線的優劣勢。
- 自動化指標能快速定位缺陷:從技術演進的角度看,較早期的StoryGen在圖像多樣性和質量上表現欠佳,而如今引入擴散模型的后續方法則顯著改善了這一問題。值得注意的是,IS分數與美學評分的對比分析直觀展示了模型在新穎性和視覺吸引力之間的平衡難題。
- 多模態輸入的挑戰:多模態處理方面,測試數據揭示了有趣的對比:部分方法在單圖輸入時往往表現出對參考圖像的過度依賴(表現為較高的Copy-Paste Degree),而在多圖輸入時則展現出更好的綜合性能。同時,部分商業工具由于架構限制無法支持多圖輸入,導致關鍵能力缺失。
- 評估體系的有效性得到驗證:自動化指標與人工評價呈現高度相關性,特別是在CIDS與Character Consistency、Style Similarity與環境一致性等維度上。Story-Adapter在文本+圖像雙模態輸入下的評分一致性優勢尤為明顯。
- 數據偏差與模型脆弱性:測試還暴露出現有技術的若干短板,包括對非人角色的生成能力普遍較弱、長文本輸入時性能顯著下降等問題,這反映出訓練數據多樣性和上下文建模能力仍有提升空間。
這些發現為故事可視化技術的優化方向提供了重要參考,凸顯了建立多維度評估體系的必要性。
用戶研究結果

用戶研究從角色一致性、環境一致性以及主觀美學質量三個維度對生成圖像進行了評估。研究發現,UNO模型在三個評估維度上都獲得了較高的用戶評分,而Doubao則在提示文本與生成內容的匹配度方面展現出明顯優勢。
指標相關性驗證

通過統計分析自動化指標與人工評估結果(用戶研究)的相關性,團隊發現自動化評估體系能夠有效反映人類主觀判斷。
具體數據顯示,Prompt Adherence指標與CIDS的相關系數達到0.6759,Aesthetics評分與CIDS的相關系數更是高達0.7956,這表明自動化評估指標具有較好的效度。
實驗結果表明,該綜合評估方案能夠有效診斷各類模型的性能特征,為技術迭代提供了明確的優化方向。
然而,由于當前技術限制,局限性仍然普遍存在:
- 當前技術前沿限制:目前ViStoryBench專注于多圖像的幀間一致性(inter-frame consistency),而非同步音視頻電影的生成。未來團隊將拓展至更復雜的視聽同步敘事。
- 背景參考能力缺失:現有開源方法不支持背景參考圖像,因此場景級一致性未被納入評估。這限制了基準在完整環境渲染方面的全面性。
- 角色參考圖偏差:部分方法使用非標準次生參考圖像(額外生成的圖像)進行特征提取,并非來自數據集中的原生圖像,可能影響Cross-CIDS指標的準確性評估。
- 評估策略的權衡:采用的混合評分方案結合了專家模型(如CSD和Grounding DINO)來保證穩定性和連貫性,以及視覺語言模型(VLM,如GPT-4.1)來實現更豐富的語義理解。專家模型在復雜場景下可能表現不佳,而VLM容易產生幻覺(hallucinations),盡管團隊努力選擇可靠方法,但這些內在局限仍然存在。
- 版權限制:部分數據集圖像源自電影、電視或動畫(如知名作品),僅用于學術研究,但存在版權風險(fair use原則),用戶需注意法律約束。
- 數據偏好:過度依賴知名內容可能導致評估指標對特定數據分布產生偏好,存在被針對性優化以及被操縱或“黑入”的風險。
ViStoryBench作為一個長期項目,未來會持續將最新的模型和技術方案納入測評基準,感興趣的朋友可以保持關注~
項目主頁:https://vistorybench.github.io
展示窗:https://vistorybench.github.io/story_detail
技術報告:https://arxiv.org/abs/2505.24862
數據集:https://huggingface.co/datasets/ViStoryBench/ViStoryBench






























