精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

新加坡國立等發布WEAVE:首個上下文交錯式跨模態理解與生成全套解決方案

發布于 2025-11-18 09:58
瀏覽
0收藏

新加坡國立等發布WEAVE:首個上下文交錯式跨模態理解與生成全套解決方案-AI.x社區

論文鏈接: https://arxiv.org/pdf/2511.11434 
項目鏈接:https://weichow23.github.io/weave/

亮點直擊

  • 數據集創新:WEAVE-100k——首個面向多輪上下文感知圖像理解與生成的大規模數據集。包含10萬個樣本、37萬輪對話和50萬張圖像,全面覆蓋圖像理解、編輯與生成三大任務。
  • 評估體系構建:WEAVEBench是首個面向交錯式多模態理解與生成任務的人工標注評測基準。該基準包含100個精心設計的測試案例,并創新性地采用混合VLM評估框架,系統評估多輪生成、視覺記憶與世界知識推理能力。
  • 實證研究突破:驗證了基于WEAVE-100k的訓練能顯著提升模型在傳統基準測試中的性能,并有效激發視覺記憶能力的涌現。WEAVEBench評估結果揭示了現有模型在多輪上下文感知生成方面仍存在持續性的技術局限。

總結速覽

解決的問題

  • 核心局限:現有統一多模態模型的數據集和基準測試主要針對單輪交互,無法支撐對多輪次、上下文關聯的真實世界圖像創作與編輯過程的研究與評估。

提出的方案

  • 核心方案:推出名為WEAVE的全套解決方案,這是首個面向上下文交錯式跨模態理解與生成的研究體系。
  • 組成部分
  1. WEAVE-100k:一個包含10萬樣本、37萬輪對話和50萬圖像的大規模數據集,覆蓋需歷史上下文推理的理解、編輯與生成任務。
  2. WEAVEBench:一個包含100項任務(基于480張圖像)的人工標注基準測試平臺,用于系統評估模型能力。

應用的技術

  • 混合VLM評估框架:在WEAVEBench中,創新性地結合參考圖像“原圖+編輯指令”的方式進行綜合評估。
  • 多任務數據集構建:在WEAVE-100k數據集中,整合了理解、編輯和生成三大任務維度,并要求模型進行歷史上下文推理。

達到的效果

  • 能力提升:基于WEAVE-100k的訓練能有效提升模型的視覺理解、圖像編輯及理解-生成協同能力,并促進視覺記憶這一新能力的涌現。
  • 評估與發現:WEAVEBench的評估揭示了當前先進模型在多輪上下文感知圖像生成與編輯方面仍存在持續的技術局限。
  • 社區貢獻:為多模態社區研究上下文交錯式理解與生成提供了全新的視角和重要的基礎支撐。

WEAVE

為評估上下文交錯式理解與生成能力,首先介紹WEAVE-100k和WEAVEBench的數據收集流程,隨后詳述評估設置與指標,并呈現WEAVE的核心統計數據。

數據收集

WEAVE-100k 為生成具備視覺記憶能力的豐富多樣數據,本文構建了如下圖3所示的數據流水線。該流水線包含四條獨立生成路徑,并經過多輪過濾優化階段以確保數據準確性與質量。為生成具有視覺記憶能力的多輪編輯數據,本文實施了四種方法路徑:(i) 多圖像融合:通過融合編輯后或直接生成的圖像實現歷史迭代參照;(ii) 移除后復原:采用先移除/替換對象再重新添加的技術,使系統能夠回憶先前刪除的視覺元素;(iii) 衍生想象與比較:在融合前引入推導替代方案或生成新圖像的衍生方法;(iv) 序列化流程:按照敘事進程或結構化編輯操作實施序列化編輯。

新加坡國立等發布WEAVE:首個上下文交錯式跨模態理解與生成全套解決方案-AI.x社區

WEAVEBench 由具有STEM專業研究生學歷的人員進行標注。該基準包含16個任務類別的100個測試項,既涵蓋需要視覺記憶的多輪編輯任務,也包含需要世界知識(文化背景、物理現象與化學過程)的挑戰性任務。如下圖2所示,任務包括生成涉及東京塔的實例及展示對交通信號反應的理解。所使用的圖像包含網絡采集內容以及來自三個模型的合成生成圖像:Seedream 4.0、Nano Banana和 SeedEdit 3.0]。

新加坡國立等發布WEAVE:首個上下文交錯式跨模態理解與生成全套解決方案-AI.x社區

評估設置與指標

本文采用VLM-as-judge自動評估框架。為實現聚焦評估,本文采用基于關鍵點的結構化評分方法:通過混合策略指導VLM同時依據參考圖像及"原圖+編輯指令"組合進行評估。如下圖5所示,評估器調用不同圖像作為參照,并根據預設關鍵點進行評分。

新加坡國立等發布WEAVE:首個上下文交錯式跨模態理解與生成全套解決方案-AI.x社區

本文的評估包含4項指標(前三項適用于編輯任務,末項適用于理解任務):

  • 關鍵點正確性 (KP):衡量編輯后圖像是否滿足指定編輯要求。
  • 視覺一致性 (VC):確保非目標元素保持不變,保持與原始圖像的一致性(場景保留時未編輯區域完整保留;場景修改時編輯區域保持風格協調),并評估編輯對象的身份保持度。
  • 圖像質量 (IQ):評估生成圖像的整體質量。
  • 準確率 (Acc):衡量推理結果的正確性。

數據統計

對于WEAVE中的每個實例,本文提供文本提示、一張或多張初始圖像以及真實示例。測試集還包含正確輸出圖像必須滿足的關鍵信息。

附錄D提供了代表性數據集示例。下表4展示了訓練集的關鍵統計數據。大多數實例包含超過五張圖像,每個實例平均有3.8輪對話。上圖5展示了訓練集和測試集的類別分布,顯示出跨數據類型的相對均衡分布。

新加坡國立等發布WEAVE:首個上下文交錯式跨模態理解與生成全套解決方案-AI.x社區

實驗

首先評估了22個模型在WEAVEBench上的表現,發現當前模型在上下文交錯生成方面存在困難,且隨著內容長度增加出現性能下降。隨后,本文通過微調Bagel驗證了WEAVE-100k的高質量特性。最后進行了質量分析并評估了評判器的有效性。

WEAVEBench

設置。 如下表2所示,本文在WEAVEBench上評估了4個LLM、7個編輯模型和11個UMM。評估在三種不同的上下文條件下進行:(1) 無上下文(無上下文信息的單輪生成),(2) 部分上下文(僅使用自生成圖像及明確提及的視覺上下文,排除其他歷史交互),(3) 完整上下文(可見所有先前交互)。對于圖像放置,本文采用兩種配置:"首次提及"(圖像出現在首次提及位置)和"前置集中"(所有圖像整合在輸入開頭),下表2報告了后者的結果。對于無法處理序列格式輸入的模型,本文按照先前工作[19,89]的方法實施了拼接方案。

新加坡國立等發布WEAVE:首個上下文交錯式跨模態理解與生成全套解決方案-AI.x社區

根據表中結果,本文得出以下結論: 上下文圖像生成仍具挑戰性。測試模型中,表現最佳的編輯模型和UMM方法分別僅獲得0.68和0.767的最高分。此外觀察到顯著的領域偏差,創意圖像領域的表現持續優于科學和邏輯領域。這表明生成能力在有效整合世界知識方面仍有較大提升空間。


上下文使用至關重要 (a) 對于理解任務,使用上下文信息相比無歷史上下文的基線條件帶來顯著性能提升。如下圖6(a)所示,QwenVL表現出163%的顯著提升,表明WEAVEBench成功將歷史信息納入模型評估。(b) 對于生成任務,增加上下文內容對不同模型類型產生分化效應。開源模型隨著歷史上下文增加出現性能逐步下降——Qwen-Edit分別出現5.3%和8.6%的性能遞減。這表明受單輪編輯能力限制的開源模型,在處理擴展上下文信息時定位精度下降,因而無法有效利用上下文數據。相反,Nano等閉源模型表現出漸進式改進,表明其成功利用了上下文信息。(c) WEAVEBench展現優異圖像質量。如下圖6(b)所示,采用WEAVEBench真實圖像作為上下文示例使所有模型性能提升。值得注意的是,Qwen-Image-Edit表現出7.1%的顯著提升,這可能源于其生成能力相對nano-banana[21]固有較弱。

新加坡國立等發布WEAVE:首個上下文交錯式跨模態理解與生成全套解決方案-AI.x社區

序列輸入優勢。 如上圖6(c)所示,序列圖像輸入相比拼接輸入展現出顯著性能優勢。該效應在Bagel模型中尤為突出,拼接輸入導致10.3%的性能下降。這些發現凸顯了UMM作為有效編輯模型的潛力,特別是考慮到傳統編輯模型無法直接處理多圖像和歷史信息作為輸入。

WEAVE-100k訓練

為驗證數據的有效性,本文在Bagel上進行實驗。在四類任務上實現性能提升: (i) 視覺理解。 本文的數據有效提升理解任務性能,尤其在MMMU上獲得9.8%的提升。(ii) 圖像編輯。如下表3所示,微調后的Bagel在GEditBench上總分提升4.8%。該模型在多數任務中超越基線版本,材質變更和風格變更類別提升尤為顯著,分別達到13.4%和15.6%。(iii) 理解與生成協同。上表4顯示,微調后Bagel在RISE認知任務中實現顯著提升??臻g推理和邏輯推理任務均呈現100%的性能增長,表明微調后模型能更有效利用理解能力和世界知識來增強生成過程。這些發現印證了WEAVE-100k方法的高質量特性。(iv) 交錯式跨模態理解與生成。如表2所示,本文的微調模型在WEAVEBench上相比Bagel提升42.5%。在更具挑戰性的科學問題上表現提升34.6%,表明使用本數據集訓練顯著增強了模型的交錯式跨模態理解與生成能力。

新加坡國立等發布WEAVE:首個上下文交錯式跨模態理解與生成全套解決方案-AI.x社區

質量分析

如下圖7所示,通過質量結果分析本文得出以下結論:(i) 指令遵循能力仍需提升。例如圖中左側案例,OmniGen和Ovis未能正確執行生成;右側案例第三列顯示Qwen-Image-Edit僅生成塔樓而未包含任何人像。(ii) 基于weave數據集的微調催生了視覺記憶能力。微調模型在左側案例中正確區分穿粉色和黃色衣服的主角,在右側案例中展現出先移除人像再重新整合的能力。

新加坡國立等發布WEAVE:首個上下文交錯式跨模態理解與生成全套解決方案-AI.x社區

評判器使用的可靠性

為評估VLM-as-a-judge評分的可靠性,開展了專家評估研究,邀請三位人類專家對Nano-banana、Qwen-Image-Edit和SeeDream模型進行交叉評估,每個模型分析100個實例。通過計算GPT-4.1評分與專家評分之間的皮爾遜相關系數,并與Claude Opus 4.1評估結果進行對比分析(上圖6)。結果表明:GPT-4.1與人類評分的相關性持續超過0.8,而Claude評估則展現出強大的跨VLM一致性,這說明VLM評估器的具體選擇對評估結果影響甚微。

結論

WEAVE——首個面向上下文交錯式跨模態理解與生成的綜合套件。推出了包含10萬樣本、37萬對話輪次和50萬圖像的大規模數據集WEAVE-100k,以及由100項任務(含480張圖像)構成、配備混合VLM評判器評估框架的人工標注基準WEAVEBench。實驗表明,基于WEAVE-100k的訓練在多個權威基準上取得顯著提升:MMMU提升9.8%,GEditBench提升4.8%,同時促進了UMM中視覺記憶能力的涌現。與此同時,WEAVEBench的廣泛評估揭示當前模型在多輪上下文感知生成方面仍存在困難,尤其在內容長度增加時表現更為明顯。此外,這項挑戰性任務已被證明超出傳統編輯模型的能力范圍。WEAVE為上下文交錯式多模態理解與生成研究奠定了基石,并凸顯了該領域發展的迫切必要性。


本文轉自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/ASzFj78erOyW3JfkKfsEzA??

收藏
回復
舉報
回復
相關推薦
波多野结衣视频网址| 艳妇乳肉豪妇荡乳xxx| av在线电影网| 久久精品国产一区二区三| 久久久久999| 久久久久亚洲av无码麻豆| av网站免费在线观看| 成人永久aaa| 国产成人综合久久| 欧美国产日韩综合| 亚洲最好看的视频| 91麻豆精品91久久久久同性| www在线观看免费| 成人影视在线播放| 成人精品小蝌蚪| 国产精品流白浆视频| 久久久久99精品成人片毛片| 亚洲美女久久| 日韩欧美中文一区二区| 国产素人在线观看| 精产国品自在线www| 不卡电影免费在线播放一区| 国产欧美va欧美va香蕉在| 国产一级淫片免费| 国产精品福利在线观看播放| 亚洲国产精品久久精品怡红院| 日本xxxxxxx免费视频| 亚洲奶水xxxx哺乳期| 国产欧美一区二区精品性色| 国产福利久久| 国产精品视频一二区| 午夜亚洲性色福利视频| 不用播放器成人网| 摸摸摸bbb毛毛毛片| 国产伦精品一区二区三区在线播放 | 亚洲大片免费看| 亚洲综合五月天| 黄色美女网站在线观看| 福利一区福利二区| 91亚洲va在线va天堂va国| 国产真人无遮挡作爱免费视频| 极品裸体白嫩激情啪啪国产精品| 久久精品国产69国产精品亚洲| 少妇av片在线观看| 欧美欧美黄在线二区| 亚洲国产另类 国产精品国产免费| 五月天开心婷婷| 成人黄色免费观看| 欧洲国产伦久久久久久久| 免费无码毛片一区二三区| 91三级在线| 136国产福利精品导航| 午夜视频久久久| 久草视频视频在线播放| 91免费观看在线| 精品久久蜜桃| 秋霞av在线| 91首页免费视频| 开心色怡人综合网站| 少妇喷水在线观看| www.av精品| 精品无人区一区二区三区竹菊| 欧美少妇bbw| 岛国精品一区二区| 国产一区二区不卡视频在线观看| 人妻少妇精品无码专区| 成人免费毛片高清视频| 国产精品日韩一区二区免费视频| 亚洲成熟女性毛茸茸| 国产99久久久精品| 国内精品二区| 久久久久久久久亚洲精品| 337p粉嫩大胆色噜噜噜噜亚洲| 欧美精品亚洲| av网在线观看| 亚洲欧美激情插 | 成人无码www在线看免费| 国产毛片久久久| 亚洲乱亚洲乱妇无码| 亚洲精品国产一区黑色丝袜 | 热这里只有精品| 综合久久2019| 亚洲午夜在线视频| 无码精品a∨在线观看中文| 伊人久久国产| 欧美日韩精品是欧美日韩精品| 色18美女社区| 国产精品nxnn| 国产亚洲精品一区二555| 东方伊人免费在线观看| 亚洲精品一二三区区别| 欧美俄罗斯性视频| 懂色av中文字幕| 国产一区二区三区视频在线播放| 国产乱子伦精品| 国产福利在线| 亚洲激情在线激情| 精品99在线视频| 4438五月综合| 日韩精品高清在线| 蜜桃av.com| 亚洲国产mv| 国产欧美韩国高清| 色欲av伊人久久大香线蕉影院| 久久你懂得1024| 先锋影音男人资源| 波多视频一区| 制服视频三区第一页精品| 国产精品久久久久久久无码| 成人综合久久| 78色国产精品| a天堂视频在线| 久久久国产精品麻豆| 久久久久亚洲av无码专区喷水| 欧美男男激情videos| 欧美日本一区二区| 色婷婷av777| 国产精品红桃| 国产中文欧美精品| 蜜桃免费在线| 香蕉影视欧美成人| 91视频福利网| 欧美丝袜激情| 欧美最顶级的aⅴ艳星| 国内精品久久久久久久久久久 | 3751色影院一区二区三区| 精品中文字幕在线播放 | 日韩在线观看视频免费| 亚洲欧美在线观看视频| 国产乱色国产精品免费视频| 日韩国产精品一区二区三区| 日韩影院在线| 亚洲国产精品福利| 久久久夜色精品| 国产一区二区三区免费在线观看| 无码免费一区二区三区免费播放 | 午夜成人在线视频| 中文字幕一二三| 久久精品不卡| 国产精品亚洲综合天堂夜夜| 经典三级在线| 日本久久精品电影| 毛片网站免费观看| 免费日韩精品中文字幕视频在线| 国产精品免费一区二区三区四区| 中中文字幕av在线| 欧美一区二区精品在线| 女人18毛片毛片毛片毛片区二| 日本欧美在线看| 日本三级中国三级99人妇网站| 一区二区三区短视频| 亚洲精品98久久久久久中文字幕| 日本熟伦人妇xxxx| 9色porny自拍视频一区二区| 国产亚洲精品久久久久久久| 精品一区二区三区视频在线播放| 不卡av电影院| 丰满人妻一区二区三区无码av| 一区二区激情小说| 欧美丰满熟妇bbb久久久| 国产精品sm| 国产精品免费区二区三区观看 | 一区二区三区蜜桃| 老女人性生活视频| 黑人一区二区| 欧美黑人xxxxx| 亚洲人免费短视频| 视频在线观看一区二区| 国产一区二区三区三州| 亚洲女子a中天字幕| 日本少妇一级片| 亚洲青涩在线| 日本精品二区| 国产一区 二区| 国内精品中文字幕| 日本大片在线观看| 欧美色网站导航| 2025国产精品自拍| 99综合电影在线视频| 四虎永久在线精品无码视频| 日韩欧美大片| www.成人三级视频| 99re这里都是精品| 日日摸天天爽天天爽视频| 欧美一区二区三区激情视频| 国产视频福利一区| av片在线观看免费| 亚洲国产成人久久综合一区| 日本韩国欧美中文字幕| 亚洲国产精品v| 亚洲高清av一区二区三区| 亚洲视频一区| 日韩欧美亚洲区| 日本亚洲视频| 欧洲亚洲女同hd| 午夜激情在线观看| 亚洲成人黄色网址| 亚洲熟女乱色一区二区三区久久久| 亚洲精品国产一区二区精华液 | 欧美大黑帍在线播放| 色爱av综合网| 亚洲综合色激情五月| 中文在线а√天堂| 另类天堂视频在线观看| 日韩a在线观看| 欧美一区二区三区在线观看| 五月激情六月丁香| 亚洲男人的天堂网| 欧美 日韩 国产 成人 在线观看| 国产suv精品一区二区6| 欧美日韩大尺度| 亚洲国产激情| 男人的天堂成人| 亚洲宅男一区| 国产精品12| 国产日韩欧美中文在线| 欧日韩不卡在线视频| 日韩三级电影视频| 日韩视频免费中文字幕| 免费在线一级视频| 亚洲精品999| 亚洲精品18在线观看| 欧美性xxxxxx少妇| 中文字幕一区二区人妻电影| 亚洲一区二区三区激情| 99久久久无码国产精品不卡| 久久综合狠狠综合| 日本一卡二卡在线| 成人一级视频在线观看| 亚洲第一天堂久久| 蜜桃一区二区三区在线| 97视频在线免费播放| 极品少妇一区二区三区| 中文字幕免费高| 日韩欧美三级| 午夜欧美性电影| 欧美肉体xxxx裸体137大胆| 精品视频一区二区| 九九热播视频在线精品6| 7777精品伊久久久大香线蕉语言| 日韩电影精品| 国产日本欧美一区| 电影一区二区| 国产精品日本精品| 外国电影一区二区| 国产精品日韩电影| 成人av集中营| 国产精品一区二区在线| 日韩av电影资源网| 国产精品美女午夜av| 亚洲国产尤物| 国产精品天天狠天天看| 国产a亚洲精品| 国产在线拍揄自揄视频不卡99| 日本国产一区| 91老司机在线| 日韩欧美高清一区二区三区| 亚洲综合中文字幕在线| 亚洲网址在线观看| 国产综合 伊人色| 亚洲小说图片| 亚洲精品在线视频观看| 国产精品成人一区二区不卡| 午夜啪啪福利视频| 狠狠久久婷婷| 亚洲国产精品久久久久婷蜜芽| 国产精品综合| 男女无套免费视频网站动漫| 日韩av网站在线观看| 中文字幕有码av| 国产一区二区在线免费观看| 丰满少妇中文字幕| 91网址在线看| 一级在线观看视频| 亚洲天堂久久久久久久| 欧美色图亚洲天堂| 精品高清美女精品国产区| 中文在线第一页| 欧美日韩国产不卡| 亚洲欧美黄色片| 亚洲欧美综合v| 男人资源在线播放| 欧美激情网友自拍| 男人av在线播放| 国产区亚洲区欧美区| 好吊妞国产欧美日韩免费观看网站| 久久国产精品一区二区三区| 成人精品视频| 韩日视频在线观看| 视频一区视频二区在线观看| 老司机久久精品| 99久久国产综合精品麻豆| 欧美三级视频网站| 亚洲午夜影视影院在线观看| 亚洲中文无码av在线| 日韩亚洲欧美一区| 国产专区在线播放| 欧美伦理91i| 午夜精品成人av| 亚洲一区二区三区久久 | 亚洲熟女www一区二区三区| 天天做天天摸天天爽国产一区| 国产精品高清无码| 亚洲成av人乱码色午夜| av免费在线一区二区三区| 欧美激情视频一区二区| 四虎成人在线| 国产精品sss| 国产精品久久久久久久免费观看 | 多野结衣av一区| 成人精品久久av网站| 日韩av三区| 四虎4hu永久免费入口| 欧美亚洲一区| 中文字幕人妻一区| 成人免费在线播放视频| 在线永久看片免费的视频| 精品国产免费久久| 国产高清一区二区三区视频| 日韩美女免费观看| 久9re热视频这里只有精品| 日本福利视频导航| 可以看av的网站久久看| a级片在线观看视频| 亚洲女人****多毛耸耸8| 成人公开免费视频| 亚洲精品二三区| av福利导福航大全在线| 亚洲精品免费一区二区三区| 精品视频久久| wwwxxx黄色片| 91丨九色丨蝌蚪丨老版| 久久久久久久久久久久久久免费看| 欧美日本在线观看| 在线观看二区| 国产精品video| 视频一区在线观看| 午夜肉伦伦影院| 久久婷婷久久一区二区三区| 日本在线观看中文字幕| 欧美成人高清电影在线| 在线观看电影av| 亚洲直播在线一区| 中文字幕一区二区三区乱码图片 | 先锋影音网一区二区| 日韩av高清| 青草av.久久免费一区| 性猛交ⅹxxx富婆video| 色999日韩国产欧美一区二区| 深夜福利视频在线观看| 欧美在线免费看| 国产精品羞羞答答在线观看| 无码人妻h动漫| 国产欧美视频一区二区| 亚洲一区二区天堂| 久热99视频在线观看| 国产精品一站二站| 精品久久久无码人妻字幂| 国产白丝精品91爽爽久久| 美女福利视频在线观看| 精品国产第一区二区三区观看体验| 美女91在线| 麻豆成人小视频| 日韩激情一区二区| 中文乱码字幕高清一区二区| 欧美精品丝袜中出| 日本不卡影院| 久久精品国产综合精品| 日韩中文字幕1| 婷婷社区五月天| 精品粉嫩超白一线天av| 在线看片福利| 亚洲高清视频一区二区| 国产伦精一区二区三区| 色播视频在线播放| 国产亚洲激情在线| 久久伦理中文字幕| www.射射射| 国产清纯白嫩初高生在线观看91 | 日韩伦理精品| 视频一区二区在线观看| 国产精品羞羞答答xxdd| 欧美一级视频免费观看| 中文字幕在线亚洲| 超碰在线成人| 亚洲免费av一区二区三区| 亚洲欧洲综合另类| 色视频在线观看免费| 国产精品自拍偷拍| 在线日韩欧美| 中国美女黄色一级片| 欧美r级在线观看| 欧美成人app| 成年人看的毛片| 国产精品免费丝袜| 天天综合在线视频| 91精品视频免费| 嫩草成人www欧美| 久久久久99精品成人片毛片| 国产亚洲a∨片在线观看|