新加坡國立等發布WEAVE:首個上下文交錯式跨模態理解與生成全套解決方案

論文鏈接: https://arxiv.org/pdf/2511.11434
項目鏈接:https://weichow23.github.io/weave/
亮點直擊
- 數據集創新:WEAVE-100k——首個面向多輪上下文感知圖像理解與生成的大規模數據集。包含10萬個樣本、37萬輪對話和50萬張圖像,全面覆蓋圖像理解、編輯與生成三大任務。
- 評估體系構建:WEAVEBench是首個面向交錯式多模態理解與生成任務的人工標注評測基準。該基準包含100個精心設計的測試案例,并創新性地采用混合VLM評估框架,系統評估多輪生成、視覺記憶與世界知識推理能力。
- 實證研究突破:驗證了基于WEAVE-100k的訓練能顯著提升模型在傳統基準測試中的性能,并有效激發視覺記憶能力的涌現。WEAVEBench評估結果揭示了現有模型在多輪上下文感知生成方面仍存在持續性的技術局限。
總結速覽
解決的問題
- 核心局限:現有統一多模態模型的數據集和基準測試主要針對單輪交互,無法支撐對多輪次、上下文關聯的真實世界圖像創作與編輯過程的研究與評估。
提出的方案
- 核心方案:推出名為WEAVE的全套解決方案,這是首個面向上下文交錯式跨模態理解與生成的研究體系。
- 組成部分:
- WEAVE-100k:一個包含10萬樣本、37萬輪對話和50萬圖像的大規模數據集,覆蓋需歷史上下文推理的理解、編輯與生成任務。
- WEAVEBench:一個包含100項任務(基于480張圖像)的人工標注基準測試平臺,用于系統評估模型能力。
應用的技術
- 混合VLM評估框架:在WEAVEBench中,創新性地結合參考圖像及“原圖+編輯指令”的方式進行綜合評估。
- 多任務數據集構建:在WEAVE-100k數據集中,整合了理解、編輯和生成三大任務維度,并要求模型進行歷史上下文推理。
達到的效果
- 能力提升:基于WEAVE-100k的訓練能有效提升模型的視覺理解、圖像編輯及理解-生成協同能力,并促進視覺記憶這一新能力的涌現。
- 評估與發現:WEAVEBench的評估揭示了當前先進模型在多輪上下文感知圖像生成與編輯方面仍存在持續的技術局限。
- 社區貢獻:為多模態社區研究上下文交錯式理解與生成提供了全新的視角和重要的基礎支撐。
WEAVE
為評估上下文交錯式理解與生成能力,首先介紹WEAVE-100k和WEAVEBench的數據收集流程,隨后詳述評估設置與指標,并呈現WEAVE的核心統計數據。
數據收集
WEAVE-100k 為生成具備視覺記憶能力的豐富多樣數據,本文構建了如下圖3所示的數據流水線。該流水線包含四條獨立生成路徑,并經過多輪過濾優化階段以確保數據準確性與質量。為生成具有視覺記憶能力的多輪編輯數據,本文實施了四種方法路徑:(i) 多圖像融合:通過融合編輯后或直接生成的圖像實現歷史迭代參照;(ii) 移除后復原:采用先移除/替換對象再重新添加的技術,使系統能夠回憶先前刪除的視覺元素;(iii) 衍生想象與比較:在融合前引入推導替代方案或生成新圖像的衍生方法;(iv) 序列化流程:按照敘事進程或結構化編輯操作實施序列化編輯。

WEAVEBench 由具有STEM專業研究生學歷的人員進行標注。該基準包含16個任務類別的100個測試項,既涵蓋需要視覺記憶的多輪編輯任務,也包含需要世界知識(文化背景、物理現象與化學過程)的挑戰性任務。如下圖2所示,任務包括生成涉及東京塔的實例及展示對交通信號反應的理解。所使用的圖像包含網絡采集內容以及來自三個模型的合成生成圖像:Seedream 4.0、Nano Banana和 SeedEdit 3.0]。

評估設置與指標
本文采用VLM-as-judge自動評估框架。為實現聚焦評估,本文采用基于關鍵點的結構化評分方法:通過混合策略指導VLM同時依據參考圖像及"原圖+編輯指令"組合進行評估。如下圖5所示,評估器調用不同圖像作為參照,并根據預設關鍵點進行評分。

本文的評估包含4項指標(前三項適用于編輯任務,末項適用于理解任務):
- 關鍵點正確性 (KP):衡量編輯后圖像是否滿足指定編輯要求。
- 視覺一致性 (VC):確保非目標元素保持不變,保持與原始圖像的一致性(場景保留時未編輯區域完整保留;場景修改時編輯區域保持風格協調),并評估編輯對象的身份保持度。
- 圖像質量 (IQ):評估生成圖像的整體質量。
- 準確率 (Acc):衡量推理結果的正確性。
數據統計
對于WEAVE中的每個實例,本文提供文本提示、一張或多張初始圖像以及真實示例。測試集還包含正確輸出圖像必須滿足的關鍵信息。
附錄D提供了代表性數據集示例。下表4展示了訓練集的關鍵統計數據。大多數實例包含超過五張圖像,每個實例平均有3.8輪對話。上圖5展示了訓練集和測試集的類別分布,顯示出跨數據類型的相對均衡分布。

實驗
首先評估了22個模型在WEAVEBench上的表現,發現當前模型在上下文交錯生成方面存在困難,且隨著內容長度增加出現性能下降。隨后,本文通過微調Bagel驗證了WEAVE-100k的高質量特性。最后進行了質量分析并評估了評判器的有效性。
WEAVEBench
設置。 如下表2所示,本文在WEAVEBench上評估了4個LLM、7個編輯模型和11個UMM。評估在三種不同的上下文條件下進行:(1) 無上下文(無上下文信息的單輪生成),(2) 部分上下文(僅使用自生成圖像及明確提及的視覺上下文,排除其他歷史交互),(3) 完整上下文(可見所有先前交互)。對于圖像放置,本文采用兩種配置:"首次提及"(圖像出現在首次提及位置)和"前置集中"(所有圖像整合在輸入開頭),下表2報告了后者的結果。對于無法處理序列格式輸入的模型,本文按照先前工作[19,89]的方法實施了拼接方案。

根據表中結果,本文得出以下結論: 上下文圖像生成仍具挑戰性。測試模型中,表現最佳的編輯模型和UMM方法分別僅獲得0.68和0.767的最高分。此外觀察到顯著的領域偏差,創意圖像領域的表現持續優于科學和邏輯領域。這表明生成能力在有效整合世界知識方面仍有較大提升空間。
上下文使用至關重要 (a) 對于理解任務,使用上下文信息相比無歷史上下文的基線條件帶來顯著性能提升。如下圖6(a)所示,QwenVL表現出163%的顯著提升,表明WEAVEBench成功將歷史信息納入模型評估。(b) 對于生成任務,增加上下文內容對不同模型類型產生分化效應。開源模型隨著歷史上下文增加出現性能逐步下降——Qwen-Edit分別出現5.3%和8.6%的性能遞減。這表明受單輪編輯能力限制的開源模型,在處理擴展上下文信息時定位精度下降,因而無法有效利用上下文數據。相反,Nano等閉源模型表現出漸進式改進,表明其成功利用了上下文信息。(c) WEAVEBench展現優異圖像質量。如下圖6(b)所示,采用WEAVEBench真實圖像作為上下文示例使所有模型性能提升。值得注意的是,Qwen-Image-Edit表現出7.1%的顯著提升,這可能源于其生成能力相對nano-banana[21]固有較弱。

序列輸入優勢。 如上圖6(c)所示,序列圖像輸入相比拼接輸入展現出顯著性能優勢。該效應在Bagel模型中尤為突出,拼接輸入導致10.3%的性能下降。這些發現凸顯了UMM作為有效編輯模型的潛力,特別是考慮到傳統編輯模型無法直接處理多圖像和歷史信息作為輸入。
WEAVE-100k訓練
為驗證數據的有效性,本文在Bagel上進行實驗。在四類任務上實現性能提升: (i) 視覺理解。 本文的數據有效提升理解任務性能,尤其在MMMU上獲得9.8%的提升。(ii) 圖像編輯。如下表3所示,微調后的Bagel在GEditBench上總分提升4.8%。該模型在多數任務中超越基線版本,材質變更和風格變更類別提升尤為顯著,分別達到13.4%和15.6%。(iii) 理解與生成協同。上表4顯示,微調后Bagel在RISE認知任務中實現顯著提升??臻g推理和邏輯推理任務均呈現100%的性能增長,表明微調后模型能更有效利用理解能力和世界知識來增強生成過程。這些發現印證了WEAVE-100k方法的高質量特性。(iv) 交錯式跨模態理解與生成。如表2所示,本文的微調模型在WEAVEBench上相比Bagel提升42.5%。在更具挑戰性的科學問題上表現提升34.6%,表明使用本數據集訓練顯著增強了模型的交錯式跨模態理解與生成能力。

質量分析
如下圖7所示,通過質量結果分析本文得出以下結論:(i) 指令遵循能力仍需提升。例如圖中左側案例,OmniGen和Ovis未能正確執行生成;右側案例第三列顯示Qwen-Image-Edit僅生成塔樓而未包含任何人像。(ii) 基于weave數據集的微調催生了視覺記憶能力。微調模型在左側案例中正確區分穿粉色和黃色衣服的主角,在右側案例中展現出先移除人像再重新整合的能力。

評判器使用的可靠性
為評估VLM-as-a-judge評分的可靠性,開展了專家評估研究,邀請三位人類專家對Nano-banana、Qwen-Image-Edit和SeeDream模型進行交叉評估,每個模型分析100個實例。通過計算GPT-4.1評分與專家評分之間的皮爾遜相關系數,并與Claude Opus 4.1評估結果進行對比分析(上圖6)。結果表明:GPT-4.1與人類評分的相關性持續超過0.8,而Claude評估則展現出強大的跨VLM一致性,這說明VLM評估器的具體選擇對評估結果影響甚微。
結論
WEAVE——首個面向上下文交錯式跨模態理解與生成的綜合套件。推出了包含10萬樣本、37萬對話輪次和50萬圖像的大規模數據集WEAVE-100k,以及由100項任務(含480張圖像)構成、配備混合VLM評判器評估框架的人工標注基準WEAVEBench。實驗表明,基于WEAVE-100k的訓練在多個權威基準上取得顯著提升:MMMU提升9.8%,GEditBench提升4.8%,同時促進了UMM中視覺記憶能力的涌現。與此同時,WEAVEBench的廣泛評估揭示當前模型在多輪上下文感知生成方面仍存在困難,尤其在內容長度增加時表現更為明顯。此外,這項挑戰性任務已被證明超出傳統編輯模型的能力范圍。WEAVE為上下文交錯式多模態理解與生成研究奠定了基石,并凸顯了該領域發展的迫切必要性。
本文轉自AI生成未來 ,作者:AI生成未來

















