交錯(cuò)場(chǎng)景圖用于文本和圖像生成評(píng)估（ICLR2025) 原創(chuàng)

發(fā)布于 2025-5-19 09:06

瀏覽

0收藏

摘要

許多現(xiàn)實(shí)世界中的用戶查詢（例如，“如何制作蛋炒飯？”）都能從能夠同時(shí)生成文本步驟和配套圖像的系統(tǒng)中受益，就像烹飪食譜一樣。旨在生成交錯(cuò)文本和圖像的模型在確保這些模態(tài)內(nèi)部和之間的一致性方面面臨挑戰(zhàn)。為了解決這些挑戰(zhàn)，我們提出了 ISG，這是一個(gè)用于交錯(cuò)文本 - 圖像生成的綜合評(píng)估框架。ISG 利用場(chǎng)景圖結(jié)構(gòu)來(lái)捕捉文本和圖像塊之間的關(guān)系，在四個(gè)粒度級(jí)別上評(píng)估生成的結(jié)果：整體、結(jié)構(gòu)、塊級(jí)別和圖像特定級(jí)別。這種多層評(píng)估允許對(duì)一致性、連貫性和準(zhǔn)確性進(jìn)行細(xì)致入微的評(píng)估，并提供可解釋的問(wèn)答反饋。結(jié)合 ISG，我們引入了一個(gè)基準(zhǔn)測(cè)試 ISG - BENCH，涵蓋 8 個(gè)類別和 21 個(gè)子類別中的 1150 個(gè)樣本。這個(gè)基準(zhǔn)數(shù)據(jù)集包含復(fù)雜的語(yǔ)言 - 視覺(jué)依賴關(guān)系和標(biāo)準(zhǔn)答案，以便在以視覺(jué)為中心的任務(wù)（如風(fēng)格轉(zhuǎn)換，這是當(dāng)前模型面臨的一個(gè)具有挑戰(zhàn)性的領(lǐng)域）上有效地評(píng)估模型。使用 ISG - BENCH，我們證明了最近的統(tǒng)一視覺(jué) - 語(yǔ)言模型在生成交錯(cuò)內(nèi)容方面表現(xiàn)不佳。雖然結(jié)合單獨(dú)的語(yǔ)言和圖像模型的組合方法在整體級(jí)別上比統(tǒng)一模型有 111% 的性能提升，但它們?cè)趬K級(jí)別和圖像級(jí)別上的性能仍然不盡如人意。為了推動(dòng)未來(lái)的工作，我們開(kāi)發(fā)了 ISG - AGENT，這是一個(gè)采用 “計(jì)劃 - 執(zhí)行 - 優(yōu)化” 管道來(lái)調(diào)用工具的基線代理，實(shí)現(xiàn)了 122% 的性能提升。

交錯(cuò)場(chǎng)景圖用于文本和圖像生成評(píng)估（ICLR2025)-AI.x社區(qū)

圖1：各生成模型在（視覺(jué) - 語(yǔ)言主導(dǎo)）任務(wù)上的性能差異示例，僅文本和圖像輸出無(wú)法解決用戶問(wèn)題。關(guān)于我們?nèi)绾味x（視覺(jué)主導(dǎo)）和（語(yǔ)言主導(dǎo)），請(qǐng)參見(jiàn)3.2節(jié)。左：文本生成；中：圖像生成；右：交錯(cuò)文本和圖像生成。

1. 引言

隨著多模態(tài)語(yǔ)言模型的普及，很明顯用戶希望模型能夠同時(shí)生成文本和圖像（Huang 等人，2016；Miech 等人，2019）。考慮這樣一個(gè)場(chǎng)景，用戶問(wèn) “如何制作蛋炒飯？”（圖 1）。用語(yǔ)言回答 —— 列出一系列步驟 —— 是一種合理的答案。但更符合實(shí)際應(yīng)用場(chǎng)景的回答方式是遵循烹飪食譜的風(fēng)格，即在列出步驟的同時(shí)，提供烹飪過(guò)程中的中間步驟圖像。通過(guò)結(jié)合語(yǔ)言生成模型（Yuan 等人，2022；Gómez - Rodríguez 和 Williams，2023）和單獨(dú)的圖像生成模型（Rombach 等人，2022；Betker 等人，2023；Blattmann 等人，2023），實(shí)現(xiàn)這種多模態(tài)響應(yīng)是可能的。但是，使用兩個(gè)模型會(huì)減慢推理速度，因?yàn)楸仨氁来渭虞d和運(yùn)行這兩個(gè)模型。許多實(shí)際應(yīng)用，如編寫(xiě)故事書(shū)（Huang 等人，2016）或生成帶插圖的說(shuō)明（Miech 等人，2019），都需要生成交錯(cuò)的圖像和文本。

研究社區(qū)已經(jīng)開(kāi)始設(shè)計(jì)具有為上述用例生成交錯(cuò)文本和圖像能力的統(tǒng)一模型（Zhou 等人，2024a；Li 等人，2024b；Chern 等人，2024）。然而，生成多種模態(tài)是具有挑戰(zhàn)性的。不同模態(tài)之間的生成需要在多個(gè)圖像之間、多個(gè)句子之間以及生成的圖像和句子之間保持一致性。針對(duì)這些挑戰(zhàn)的基準(zhǔn)測(cè)試仍處于起步階段（Chen 等人，2024e）。第一，以前的基準(zhǔn)測(cè)試主要集中在語(yǔ)言主導(dǎo)的任務(wù)上，這意味著查詢僅通過(guò)文本輸出就可以解決，因此無(wú)法充分評(píng)估多模態(tài)生成能力（Liu 等人，2024d）。第二，現(xiàn)有基準(zhǔn)測(cè)試中的查詢是自由形式的，沒(méi)有參考答案，這使得評(píng)估多模態(tài)指令跟隨生成變得模糊（An 等人，2023）。第三，現(xiàn)有的基準(zhǔn)測(cè)試主要使用一種稱為 “大語(yǔ)言模型作為評(píng)判者（LLM - as - a - Judge）” 的評(píng)估范式（Chen 等人，2024a；Ye 等人，2024），其中使用 GPT4 或等效模型，憑借其預(yù)訓(xùn)練知識(shí)進(jìn)行整體評(píng)估（Xia 等人，2024）。但目前需要更細(xì)粒度的評(píng)估，以驗(yàn)證每個(gè)文本和圖像的語(yǔ)義、圖像之間的一致性、每個(gè)文本與其相鄰圖像之間的聯(lián)系等。

我們提出了交錯(cuò)場(chǎng)景圖（INTERLEAVED SCENE GRAPH，ISG），這是一個(gè)用于交錯(cuò)圖像和文本生成的評(píng)估框架。從概念上講，ISG 借鑒了場(chǎng)景圖表示法，將其作為連接圖像和文本的底層語(yǔ)義表示（Krishna 等人，2017；Johnson 等人，2018）。ISG 自動(dòng)將查詢解析為類似場(chǎng)景圖的結(jié)構(gòu)，其中文本和圖像塊作為節(jié)點(diǎn)，它們之間的關(guān)系作為邊。我們將塊定義為連續(xù)的文本序列或圖像標(biāo)記序列。基于這種圖表示，ISG 提出了一種跨越四個(gè)粒度級(jí)別的評(píng)估協(xié)議：整體（評(píng)估整個(gè)響應(yīng)）、結(jié)構(gòu)（評(píng)估塊之間的關(guān)系）、塊（評(píng)估每個(gè)塊內(nèi)的準(zhǔn)確性）和圖像（評(píng)估圖像的內(nèi)容）。該框架將用戶查詢轉(zhuǎn)換為類似 TIFA（Hu 等人，2023）的可解釋問(wèn)答形式，在每個(gè)級(jí)別上實(shí)現(xiàn)系統(tǒng)的、可解釋的評(píng)估，填補(bǔ)了現(xiàn)有研究中的一個(gè)關(guān)鍵空白。

基于 ISG，我們引入了一個(gè)基準(zhǔn)測(cè)試，其中包含用戶查詢以及詳細(xì)的問(wèn)答，用于在四個(gè)級(jí)別上評(píng)估每個(gè)查詢。ISG - BENCH 由 8 個(gè)類別、21 個(gè)子類別（根據(jù)指令類型分類）和 1150 個(gè)手動(dòng)收集的樣本組成，所有樣本都包含語(yǔ)言 - 視覺(jué)依賴關(guān)系和標(biāo)準(zhǔn)答案，以解決上述問(wèn)題。所有樣本均經(jīng)過(guò)精心收集，部分來(lái)自以前的數(shù)據(jù)集，部分是重新構(gòu)建的，以保證高質(zhì)量。與現(xiàn)有基準(zhǔn)測(cè)試不同，我們優(yōu)先考慮以視覺(jué)為中心的任務(wù)，如風(fēng)格轉(zhuǎn)換，這類任務(wù)對(duì)圖像輸出有特定要求。表 1 展示了當(dāng)前交錯(cuò)基準(zhǔn)測(cè)試和數(shù)據(jù)集之間的差異。為了驗(yàn)證我們?cè)u(píng)估的準(zhǔn)確性，我們將自動(dòng)評(píng)估結(jié)果與人工標(biāo)注的判斷在四個(gè)級(jí)別上進(jìn)行了比較。ISG 的皮爾遜相似度達(dá)到了 0.718 和 0.907，在與人類判斷的一致性方面優(yōu)于以前的評(píng)估方法。

交錯(cuò)場(chǎng)景圖用于文本和圖像生成評(píng)估（ICLR2025)-AI.x社區(qū)

使用 ISG - BENCH，我們?cè)u(píng)估了九種可訪問(wèn)的交錯(cuò)文本和圖像生成方法，包括五種最近流行的統(tǒng)一模型（例如，Show - o（Xie 等人，2024），Anole（Chern 等人，2024）），以及四種組合框架（例如，Claude + SD3（Esser 等人，2024））。實(shí)證結(jié)果表明，當(dāng)前的統(tǒng)一模型在指令跟隨和生成質(zhì)量方面仍有很大的改進(jìn)空間。組合框架在生成高質(zhì)量多模態(tài)內(nèi)容方面明顯優(yōu)于統(tǒng)一模型，平均整體得分達(dá)到 6.262，而表現(xiàn)最好的統(tǒng)一模型 CoMM - MiniGPT - 5 的得分僅為 2.961。然而，由于它們獨(dú)立的理解和生成結(jié)構(gòu)，在塊級(jí)別和圖像級(jí)別進(jìn)行準(zhǔn)確生成時(shí)仍然存在不足，特別是在視覺(jué)主導(dǎo)的任務(wù)中。

基于組合框架的優(yōu)越性能，我們提出了 ISG - AGENT，作為未來(lái)比較的組合基線。ISG - AGENT 通過(guò) “計(jì)劃 - 執(zhí)行 - 優(yōu)化” 管道（Wang 等人，2024）生成交錯(cuò)的文本和圖像。具體來(lái)說(shuō)，它首先生成工具使用計(jì)劃，隨后執(zhí)行這些先進(jìn)工具進(jìn)行交錯(cuò)生成，接著進(jìn)行優(yōu)化過(guò)程，以實(shí)現(xiàn)更好的文本和圖像對(duì)齊并修復(fù)錯(cuò)誤。值得注意的是，ISG - AGENT 在所有四個(gè)評(píng)估級(jí)別上都優(yōu)于所有其他基線。它實(shí)現(xiàn)了令人印象深刻的結(jié)構(gòu)準(zhǔn)確率 0.871，明顯超過(guò)了之前 Gemini 的最佳成績(jī) 0.385。這些結(jié)果強(qiáng)調(diào)了 ISG - AGENT 在生成連貫交錯(cuò)內(nèi)容方面的有效性，為多模態(tài)生成和創(chuàng)意應(yīng)用中更先進(jìn)的指令跟隨代理鋪平了道路。

2. 相關(guān)工作

2.1 交錯(cuò)文本和圖像生成

最近，多模態(tài)大語(yǔ)言模型（MLLMs，GeminiTeam，2023；OpenAI，2024；2023；Li 等人，2024a）和擴(kuò)散模型（Rombach 等人，2022；Esser 等人，2024；Flux，2024）的進(jìn)展引發(fā)了大量旨在整合自回歸架構(gòu)（Liu 等人，2024c；Sun 等人，2024a）的研究，用于多模態(tài)理解（Yue 等人，2024；Li 等人，2023b）和生成任務(wù)（Ghosh 等人，2024；Huang 等人，2023）。在理解方面，早期研究通過(guò)簡(jiǎn)單的視覺(jué)標(biāo)記化（Li 等人，2023a）或投影方法（Li 等人，2023c；2024a）有效地將視覺(jué)感知與預(yù)訓(xùn)練的大語(yǔ)言模型（LLMs）相結(jié)合，取得了有前景的結(jié)果。另一方面，多模態(tài)生成最初是通過(guò)預(yù)訓(xùn)練的文本到圖像模型（Li 等人，2024b；Wu 等人，2023）或通過(guò)自回歸過(guò)程實(shí)現(xiàn)的，在自回歸過(guò)程中，生成的標(biāo)記被解碼為圖像（Team，2024；Chern 等人，2024；Koh 等人，2024）。最近，研究人員開(kāi)始探索 Transformer 和擴(kuò)散模型的集成，旨在在單個(gè)框架內(nèi)統(tǒng)一多模態(tài)理解和生成任務(wù)（Zhou 等人，2024a；Xie 等人，2024；Wu 等人，2024b），這在文本和圖像的交錯(cuò)生成方面展現(xiàn)出了潛力。

2.2 自動(dòng)交錯(cuò)文本和圖像評(píng)估

自動(dòng)交錯(cuò)文本和圖像評(píng)估起源于自然語(yǔ)言處理（NLP）中早期的文本摘要（Narayan 等人，2018），基于問(wèn)答（QA）的評(píng)估方法自動(dòng)將提示轉(zhuǎn)換為問(wèn)題，并使用它們來(lái)驗(yàn)證生成的內(nèi)容（Durmus 等人，2020；Deutsch 等人，2020；Eyal 等人，2019）。在多模態(tài)領(lǐng)域，特別是在文本到圖像生成中，基于視覺(jué)問(wèn)答（VQA）的評(píng)估方法將文本轉(zhuǎn)換為原子問(wèn)題，并進(jìn)行視覺(jué)問(wèn)答以驗(yàn)證生成的圖像，從而提供更細(xì)粒度和可解釋的基準(zhǔn)測(cè)試結(jié)果（Cho 等人，2023；Lin 等人，2024）。值得注意的是，TIFA（Hu 等人，2023）率先使用視覺(jué)問(wèn)答進(jìn)行自動(dòng)評(píng)估，隨后有多項(xiàng)改進(jìn)（Lu 等人，2024；Ghosh 等人，2024；Cho 等人，2024；Chen 等人，2024a）。然而，評(píng)估交錯(cuò)生成仍然具有挑戰(zhàn)性。表 1 顯示，現(xiàn)有基準(zhǔn)測(cè)試（An 等人，2023；Liu 等人，2024d）嚴(yán)重依賴零樣本的 “大語(yǔ)言模型作為評(píng)判者” 或傳統(tǒng)指標(biāo)（Chen 等人，2024e；b），導(dǎo)致評(píng)估結(jié)果粗略且粒度較大。

3. 交錯(cuò)場(chǎng)景圖

我們引入了 ISG（圖 2），這是一個(gè)用于交錯(cuò)文本和圖像生成評(píng)估的綜合自動(dòng)評(píng)估框架。通過(guò)使用 ISG，我們還引入了 ISG - BENCH，這是一個(gè)用于評(píng)估圖像和文本生成的基準(zhǔn)測(cè)試。

交錯(cuò)場(chǎng)景圖用于文本和圖像生成評(píng)估（ICLR2025)-AI.x社區(qū)

圖2：ISG首先將用戶的查詢解析為類似場(chǎng)景圖的結(jié)構(gòu)，以便在三個(gè)層面上進(jìn)行細(xì)粒度的評(píng)估：1）在結(jié)構(gòu)層面，ISG預(yù)測(cè)查詢的交錯(cuò)結(jié)構(gòu)；2）在塊層面，節(jié)點(diǎn)代表由需求邊連接的文本-圖像塊；3）在圖像層面，圖由實(shí)體、它們的屬性及其關(guān)系組成。最后，ISG將圖結(jié)構(gòu)中的每個(gè)元素轉(zhuǎn)化為問(wèn)題，使用問(wèn)答模塊評(píng)估模型的交錯(cuò)輸出，并隨后將這些結(jié)果匯總為一個(gè)全面的評(píng)估。

3.1 評(píng)估框架

該框架自動(dòng)將查詢解釋為類似場(chǎng)景圖的結(jié)構(gòu)，其中文本和圖像塊作為節(jié)點(diǎn)，它們之間的關(guān)系作為邊。基于這種圖表示，我們可以進(jìn)行四個(gè)級(jí)別的全面評(píng)估：整體、結(jié)構(gòu)、塊和圖像。在每個(gè)級(jí)別，框架會(huì)生成幾個(gè)問(wèn)答對(duì)，用于評(píng)估生成的響應(yīng)是否適當(dāng)?shù)鼗卮鹆瞬樵儭Ｔ诤暧^層面，結(jié)構(gòu)和整體問(wèn)題分析整體響應(yīng)的連貫性和質(zhì)量；而塊和圖像問(wèn)題則評(píng)估每個(gè)內(nèi)容模塊對(duì)用戶指令的遵循程度。

結(jié)構(gòu)問(wèn)題評(píng)估響應(yīng)是否嚴(yán)格遵循用戶查詢中的結(jié)構(gòu)要求。如圖 2 所示，給定 “先生成圖像，然后給出說(shuō)明” 的結(jié)構(gòu)要求，正確的結(jié)構(gòu)應(yīng)該由 4 個(gè)圖像和 4 個(gè)文本塊交錯(cuò)組成。我們利用大語(yǔ)言模型根據(jù)查詢預(yù)測(cè)生成的結(jié)構(gòu)，隨后通過(guò)直接的結(jié)構(gòu)匹配來(lái)評(píng)估答案。

整體問(wèn)題通過(guò)將多模態(tài)查詢、響應(yīng)和人工標(biāo)注的標(biāo)準(zhǔn)答案輸入到多模態(tài)大語(yǔ)言模型中，來(lái)評(píng)估整體的文本 - 圖像對(duì)齊、連貫性和有用性，然后多模態(tài)大語(yǔ)言模型會(huì)對(duì)整個(gè)答案輸出判斷。基于先前的工作（An 等人，2023；Liu 等人，2024d），我們通過(guò)使用帶有標(biāo)準(zhǔn)答案的 “大語(yǔ)言模型作為評(píng)判者” 以及 “先分析后判斷” 的思維鏈（Chain - of - Thought，CoT）（Wei 等人，2022）來(lái)改進(jìn)這個(gè)過(guò)程。這允許進(jìn)行更符合人類判斷的評(píng)估，評(píng)估生成質(zhì)量、文本 - 圖像對(duì)齊以及有用性，從而得出一個(gè)綜合分?jǐn)?shù)。

塊問(wèn)題評(píng)估每個(gè)塊內(nèi)的細(xì)粒度細(xì)節(jié)。我們最初將提示 P 表示為 “主語(yǔ) - 賓語(yǔ) - 關(guān)系” 元組（sub，obj，r），例如在圖 2 的示例中 < Text 1，Image 1，Describe>，其中 {sub，obj} 是表示圖像或文本塊的節(jié)點(diǎn)，r 是表示原子開(kāi)放詞匯要求的邊。隨后，我們從這些元組生成問(wèn)題，并使用視覺(jué)問(wèn)答模塊進(jìn)行評(píng)估，大語(yǔ)言模型提供 “是或否” 和 “1 - 10 分” 的答案。我們也嘗試使用 CLIPScore（Hessel 等人，2021）來(lái)評(píng)估文本 - 圖像關(guān)系，但由于文本塊超過(guò)了文本編碼器 77 個(gè)標(biāo)記的限制而失敗。

圖像問(wèn)題評(píng)估圖像的語(yǔ)義內(nèi)容。我們將多模態(tài)查詢轉(zhuǎn)換為依賴感知元組，這些元組包含實(shí)體、關(guān)系和屬性，每個(gè)都與特定生成的圖像相關(guān)聯(lián)，特別是對(duì)于以視覺(jué)為主導(dǎo)的任務(wù)，如 “風(fēng)格轉(zhuǎn)換” 和 “多角度物體”，這些任務(wù)有具體的參考答案，而 “繪畫(huà)” 任務(wù)只需要生成最終圖像的準(zhǔn)確性。相比之下，像 “HowTo” 這樣的任務(wù)要求包含特定對(duì)象，但在其他方面允許有一定靈活性。我們根據(jù)答案中對(duì)圖像生成的要求對(duì)任務(wù)進(jìn)行分類，如表 2 所示。這些元組可能包括 < Image 1，Entity，Cat > 和 < Image 1，Relation，Cat，on the right of，Dog>。隨后，我們使用大語(yǔ)言模型生成帶有依賴關(guān)系的問(wèn)題，并通過(guò)視覺(jué)問(wèn)答模塊（Cho 等人，2023）使用這些問(wèn)題評(píng)估圖像生成。

為了在塊級(jí)別和圖像級(jí)別生成視覺(jué)問(wèn)答問(wèn)題，我們使用少樣本示例進(jìn)行上下文學(xué)習(xí)（Dong 等人，2022）來(lái)實(shí)現(xiàn) ISG，并根據(jù)人工標(biāo)注的地面真實(shí)情況仔細(xì)驗(yàn)證這些生成的問(wèn)題。關(guān)于 ISG - BENCH 的評(píng)估，請(qǐng)參考 4.1 節(jié)，技術(shù)細(xì)節(jié)見(jiàn)附錄 D.1。

交錯(cuò)場(chǎng)景圖用于文本和圖像生成評(píng)估（ICLR2025)-AI.x社區(qū)

圖 3：左：ISG - BENCH 概述。右：查詢和標(biāo)準(zhǔn)答案的文本內(nèi)容長(zhǎng)度和圖像數(shù)量分布分析

交錯(cuò)場(chǎng)景圖用于文本和圖像生成評(píng)估（ICLR2025)-AI.x社區(qū)

3.2 基準(zhǔn)測(cè)試

基于 ISG，我們開(kāi)發(fā)了第一個(gè)用于交錯(cuò)文本和圖像生成的基準(zhǔn)測(cè)試 ISG - BENCH，以評(píng)估各種任務(wù)中的多模態(tài)理解和生成能力。如表 2 所示，ISG - BENCH 由 1150 個(gè)樣本組成的分類平衡數(shù)據(jù)集，涵蓋 8 個(gè)日常交錯(cuò)生成場(chǎng)景中的 21 個(gè)子任務(wù)。每個(gè)樣本都包括詳細(xì)的指令和結(jié)構(gòu)要求，例如 “生成四張圖像，并在生成的圖像后提供簡(jiǎn)短的文本描述”，以評(píng)估指令跟隨能力和交錯(cuò)生成能力。每個(gè)查詢都被設(shè)計(jì)為：第一，依賴于視覺(jué)和語(yǔ)言，這意味著它不能僅使用單一模態(tài)的信息來(lái)解決；第二，與精心收集的標(biāo)準(zhǔn)答案配對(duì)。所有樣本均通過(guò)交叉驗(yàn)證和 BERTScore（Zhang 等人，2019）進(jìn)行相似性過(guò)濾后收集和人工篩選，詳細(xì)信息見(jiàn)附錄 B.3。

數(shù)據(jù)收集和質(zhì)量控制：我們的基準(zhǔn)測(cè)試收集過(guò)程主要包括三個(gè)階段。首先，我們根據(jù)任務(wù)定義回顧現(xiàn)有數(shù)據(jù)集，并檢索高質(zhì)量、不重疊的視覺(jué)元數(shù)據(jù)，作為查詢和標(biāo)準(zhǔn)答案中的視覺(jué)信息，其中一些數(shù)據(jù)是我們自己收集的（例如，“多視圖場(chǎng)景生成”）。然后，我們策劃自然語(yǔ)言查詢，這些查詢引用圖像以進(jìn)行自動(dòng)評(píng)估。每個(gè)查詢都指定了輸出所需的結(jié)構(gòu)。使用多模態(tài)大語(yǔ)言模型為每個(gè)任務(wù)生成文本答案，隨后由人工注釋者進(jìn)行審查以確保準(zhǔn)確性。由于擔(dān)心基礎(chǔ)模型中的數(shù)據(jù)污染（Balloccu 等人，2024；Xu 等人，2024），注釋者被要求創(chuàng)建自由形式的查詢，并從頭開(kāi)始開(kāi)發(fā)查詢和相應(yīng)的標(biāo)準(zhǔn)答案。最后，我們獲得了一個(gè)多樣化、高質(zhì)量的交錯(cuò)多模態(tài)基準(zhǔn)測(cè)試，其中查詢 - 答案對(duì)來(lái)自各種來(lái)源。為了確保樣本的質(zhì)量，我們?cè)诓煌⑨屨咧g進(jìn)行交叉驗(yàn)證，以檢查格式一致性和拼寫(xiě)錯(cuò)誤。附錄 B 中提供了詳細(xì)的定義、收集流程和更多示例。

模態(tài)特定評(píng)估：我們通過(guò)決策樹(shù)（圖 8）將 ISG - BENCH 中的每個(gè)任務(wù)分為三種模式（即圖像、語(yǔ)言和兩者兼有），以確定其主要貢獻(xiàn)輸出的模態(tài)。例如，“HowTo” 任務(wù)需要視覺(jué)和語(yǔ)言內(nèi)容來(lái)解決問(wèn)題，“藝術(shù)風(fēng)格轉(zhuǎn)換” 主要依賴于視覺(jué)生成；而 “帶有圖像生成的視覺(jué)問(wèn)答” 主要依賴于文本輸出，答案的質(zhì)量和準(zhǔn)確性主要?dú)w因于語(yǔ)言部分，生成的圖像作為補(bǔ)充信息。

4. 實(shí)驗(yàn)與分析

我們首先將 ISG 與人工注釋進(jìn)行對(duì)比驗(yàn)證（4.1 節(jié)），展示其與人類判斷的一致性。隨后我們對(duì)交錯(cuò)生成的評(píng)估（4.2 節(jié)）揭示了統(tǒng)一模型的局限性和組合方法的部分成功，強(qiáng)調(diào)了當(dāng)前交錯(cuò)生成在指令跟隨方面面臨的挑戰(zhàn)。

4.1 評(píng)估 ISG - BENCH

?實(shí)驗(yàn)設(shè)置：我們利用最受歡迎的多模態(tài)大語(yǔ)言模型之一 GPT-4o（OpenAI，2024）作為 ISG 的問(wèn)題生成和視覺(jué)問(wèn)答模塊。我們開(kāi)展實(shí)驗(yàn)，在不同樣本規(guī)模和指標(biāo)設(shè)定下，驗(yàn)證 ISG 在每個(gè)步驟的性能表現(xiàn)，詳見(jiàn)表 3。此外，我們?cè)诟戒?E.2 中驗(yàn)證了 ISG-BENCH 的 “多模態(tài)依賴” 特性。

所有結(jié)果都通過(guò)交叉驗(yàn)證，與人工標(biāo)注的基準(zhǔn)事實(shí)進(jìn)行對(duì)比。圖 4 展示了 ISG-BENCH 中視覺(jué)問(wèn)答實(shí)例的分布情況。對(duì)于問(wèn)題生成模塊，如果生成結(jié)果的主語(yǔ)和賓語(yǔ)與基準(zhǔn)事實(shí)匹配，且 BertScore（Zhang 等人，2019）高于 0.8，則認(rèn)定為正確。我們?cè)?ISG 的視覺(jué)問(wèn)答模塊實(shí)驗(yàn)中采用 “先分析再判斷” 的思維鏈（CoT）框架（Wei 等人，2022），設(shè)置了兩種模式：“1-10 分” 評(píng)分（Lin 等人，2024）和直接 “是或否” 判斷（Cho 等人，2023）。我們還對(duì)視覺(jué)輸入、作為文本信息的圖像字幕以及少樣本提示進(jìn)行了消融實(shí)驗(yàn)，以探究 ISG 的最佳設(shè)置。對(duì)于 “大語(yǔ)言模型作為評(píng)判者”（MLLM-as-a-Judge），我們遵循先前研究，使用人工一致性作為評(píng)估指標(biāo)（Chen 等人，2024a；f）。

交錯(cuò)場(chǎng)景圖用于文本和圖像生成評(píng)估（ICLR2025)-AI.x社區(qū)

?ISG 在各任務(wù)的每個(gè)模塊中表現(xiàn)出色：如表 3 所示，ISG 的每個(gè)模塊都與人工標(biāo)注高度吻合。在結(jié)構(gòu)方面，ISG 在所有任務(wù)中均展現(xiàn)出一致的卓越性能，這表明其在捕捉交錯(cuò)生成指令中的結(jié)構(gòu)要求方面具有強(qiáng)大潛力。在問(wèn)題生成（Q-Gen）和視覺(jué)問(wèn)答模塊中，ISG 能夠成功提取細(xì)粒度的要求，與基準(zhǔn)事實(shí)高度一致。對(duì)于視覺(jué)問(wèn)答模塊，評(píng)分方法始終優(yōu)于 “是或否” 方法，這表明更細(xì)致的判斷與人工評(píng)估更為契合，尤其是在附錄 D.1.1 中強(qiáng)調(diào)的模糊案例中。與其他任務(wù)相比，視覺(jué)引導(dǎo)的任務(wù)表現(xiàn)始終較差，在問(wèn)題生成和視覺(jué)問(wèn)答模塊中均出現(xiàn)顯著下降，這凸顯了自動(dòng)評(píng)估交錯(cuò)文本和圖像生成細(xì)粒度方面的挑戰(zhàn)。在整體評(píng)估中，借助標(biāo)準(zhǔn)答案的評(píng)估方式顯著優(yōu)于大語(yǔ)言模型的零樣本判斷設(shè)置，在視覺(jué)引導(dǎo)任務(wù)中優(yōu)勢(shì)更為明顯，平均提升幅度達(dá)到 20%。

?視覺(jué)輸入和少樣本提示的消融研究：為進(jìn)行更全面的研究，我們?cè)谝曈X(jué)輸入和少樣本示例這兩種條件下對(duì) ISG 展開(kāi)評(píng)估。如表 4 所示，多模態(tài)輸入在塊級(jí)和圖像級(jí)問(wèn)題生成中存在差異，圖像級(jí)問(wèn)題生成有輕微提升。此外，少樣本上下文學(xué)習(xí)在這兩個(gè)任務(wù)中都帶來(lái)了顯著提升，塊級(jí)任務(wù)性能提高超過(guò) 30%，圖像級(jí)任務(wù)提高 10% 以上，在視覺(jué) - 語(yǔ)言引導(dǎo)任務(wù)中通過(guò)對(duì)預(yù)測(cè)生成內(nèi)容的要求進(jìn)行限制，提升效果更為明顯。對(duì)于語(yǔ)言引導(dǎo)任務(wù)，少樣本學(xué)習(xí)使塊級(jí)性能提升 70%，進(jìn)一步證明了針對(duì)此類創(chuàng)意生成任務(wù)建立準(zhǔn)確評(píng)估框架的可行性。

交錯(cuò)場(chǎng)景圖用于文本和圖像生成評(píng)估（ICLR2025)-AI.x社區(qū)

4.2 基準(zhǔn)測(cè)試交錯(cuò)文本和圖像生成

?實(shí)驗(yàn)設(shè)置：我們?cè)u(píng)估了 10 種能夠生成交錯(cuò)文本和圖像內(nèi)容的框架，包括 4 種最近發(fā)布的統(tǒng)一模型 Show-o^{1}（Xie 等人，2024）、Anole（Chern 等人，2024）、Minigpt-5（Li 等人，2024b）、CoMM-Minigpt-5（Chen 等人，2024e）、SEED-LLaMA（Li 等人，2023b），以及兩種組合設(shè)置，使用 Gemini-1.5-Pro（GeminiTeam，2023）和 Claude-3.5-Sonnet（Anthropic，2024）作為多模態(tài)預(yù)處理器^{2}，SD3（Esser 等人，2024）作為生成器，并使用 SD2.1（Rombach 等人，2022）進(jìn)行對(duì)比研究。對(duì)于 ISG，我們采用 4.1 節(jié)中表現(xiàn)最佳的設(shè)置，以實(shí)現(xiàn)完全自動(dòng)的評(píng)估設(shè)置。詳細(xì)的實(shí)驗(yàn)設(shè)置和成本分析請(qǐng)參考附錄 D 和 E.1。

?統(tǒng)一模型在準(zhǔn)確交錯(cuò)生成方面表現(xiàn)不佳：如表 5 所示，所有統(tǒng)一模型在按照我們的指令生成交錯(cuò)文本和圖像內(nèi)容方面都存在顯著缺陷。許多模型僅生成一到三張圖像，有些甚至根本無(wú)法生成圖像。因此，這些模型無(wú)法進(jìn)行塊級(jí)和圖像級(jí)的評(píng)估。在整體評(píng)估中，這些模型在語(yǔ)言主導(dǎo)的任務(wù)中表現(xiàn)出較強(qiáng)的能力，但在視覺(jué)主導(dǎo)的任務(wù)中表現(xiàn)明顯不佳。這種差異進(jìn)一步證實(shí)了當(dāng)前統(tǒng)一模型的訓(xùn)練數(shù)據(jù)集缺乏足夠的視覺(jué)主導(dǎo)指令調(diào)整樣本的假設(shè)，例如 “風(fēng)格遷移” 和 “圖像分解” 任務(wù)的樣本。值得注意的是，Show-o 作為首批統(tǒng)一自回歸模型之一，具有較強(qiáng)的結(jié)構(gòu)準(zhǔn)確性，但存在幻覺(jué)問(wèn)題 —— 根據(jù)系統(tǒng)提示而非用戶指令生成圖像，如圖 39 所示。同樣，Anole 在統(tǒng)一模型中實(shí)現(xiàn)了 SOTA 性能，凸顯了其架構(gòu)設(shè)計(jì)的潛力。

?視覺(jué)主導(dǎo)的任務(wù)對(duì)所有模型都具有挑戰(zhàn)性：鑒于這些組合框架對(duì)圖像的感知和生成是分開(kāi)進(jìn)行的，并非端到端的方式，這意味著它們由于其固有結(jié)構(gòu)，自然無(wú)法在諸如精確圖像編輯等任務(wù)中表現(xiàn)出色。另一方面，盡管這些統(tǒng)一模型有潛力以端到端的方式理解和生成圖像，并宣稱在 “圖像生成” 或 “圖像編輯” 等視覺(jué)生成任務(wù)中具備能力，但在理解多模態(tài)查詢以生成包含多個(gè)圖像的交錯(cuò)內(nèi)容方面仍存在不足。如圖 6 所示，表現(xiàn)最佳的統(tǒng)一模型 Anole 無(wú)法理解輸出格式，并且偏離了輸入圖像的上下文，這表明它們?cè)谝曈X(jué)上下文學(xué)習(xí)中的圖像生成能力存在缺陷（Sun 等人，2024b）。

?大語(yǔ)言模型作為評(píng)判者無(wú)法評(píng)估細(xì)粒度的準(zhǔn)確生成：如表 5 和表 6 所示，整體評(píng)估結(jié)果與三個(gè)細(xì)粒度級(jí)別的評(píng)估結(jié)果之間的不一致，揭示了大語(yǔ)言模型作為評(píng)判者在全面評(píng)估響應(yīng)方面存在顯著局限性，即使提供了用戶指令和正確的標(biāo)準(zhǔn)答案。具體而言，大語(yǔ)言模型作為評(píng)判者難以根據(jù)細(xì)粒度標(biāo)準(zhǔn)評(píng)估響應(yīng)，例如輸出結(jié)構(gòu)（包括圖像數(shù)量）和提示中規(guī)定的詳細(xì)文本 - 圖像關(guān)系。此外，我們對(duì)表 7 結(jié)果的分析揭示了大語(yǔ)言模型作為評(píng)判者存在固有偏差，即 “圖像質(zhì)量偏差”，即使這些響應(yīng)可能違反用戶的指令要求和評(píng)判準(zhǔn)則，具有更高質(zhì)量圖像內(nèi)容的響應(yīng)也始終會(huì)獲得更高的分?jǐn)?shù)。這種偏差表明，即使提供了標(biāo)準(zhǔn)答案，大語(yǔ)言模型作為評(píng)判者仍然無(wú)法對(duì)符合特定要求的交錯(cuò)響應(yīng)進(jìn)行準(zhǔn)確評(píng)估。

交錯(cuò)場(chǎng)景圖用于文本和圖像生成評(píng)估（ICLR2025)-AI.x社區(qū)

5. ISG-AGENT：設(shè)計(jì)一個(gè)基線代理

盡管統(tǒng)一生成模型（Chern 等人，2024；Zhou 等人，2024a；Team，2024）在多模態(tài)交錯(cuò)生成方面顯示出潛力，但即使經(jīng)過(guò)微調(diào)，生成交錯(cuò)文本和圖像內(nèi)容仍然具有挑戰(zhàn)性。受先前視覺(jué)生成任務(wù)組合框架（Gupta 和 Kembhavi，2023；Surís 等人，2023；Ma 等人，2024）的啟發(fā)，我們提出了 ISG-AGENT，這是一個(gè)供未來(lái)基準(zhǔn)測(cè)試使用的基線代理。

5.1 代理設(shè)置

圖 5 展示了 ISG-AGENT 的概述，它由三個(gè)組件 —— 規(guī)劃、執(zhí)行和優(yōu)化 —— 協(xié)同工作，用于交錯(cuò)文本和圖像生成。

?規(guī)劃：該組件作為解釋用戶多模態(tài)查詢的接口，并以 JSON 格式生成相應(yīng)的工具使用計(jì)劃。該計(jì)劃概述了主要涉及工具調(diào)用的順序步驟。通過(guò)利用大語(yǔ)言模型作為骨干，它確保創(chuàng)建一個(gè)準(zhǔn)確的交錯(cuò)生成計(jì)劃，嚴(yán)格遵守用戶指令，包括對(duì)細(xì)粒度文本 - 圖像塊要求的規(guī)范。每個(gè)步驟都包括明確的工具執(zhí)行功能和后續(xù)工具使用的自然語(yǔ)言描述。

?工具使用：該組件負(fù)責(zé)執(zhí)行帶有日志記錄的工具（Schick 等人，2024）。在每個(gè)步驟中，它從工具庫(kù)中選擇最合適的工具，并為指定工具提供經(jīng)過(guò)優(yōu)化的描述性文本和圖像，例如使用大語(yǔ)言模型進(jìn)行圖像字幕生成，使用擴(kuò)散模型進(jìn)行圖像生成。為避免工具使用過(guò)程中可能出現(xiàn)的偏差，代理被設(shè)計(jì)為生成與指令緊密對(duì)齊的描述，專門(mén)用于工具調(diào)用。

?優(yōu)化：該組件負(fù)責(zé)審查和提高上一步生成內(nèi)容的質(zhì)量，通過(guò)分析錯(cuò)誤消息或不適當(dāng)?shù)纳桑⑼ㄟ^(guò)使用更詳細(xì)和精確的執(zhí)行指令重建錯(cuò)誤步驟來(lái)解決問(wèn)題，直到問(wèn)題得到解決（Wu 等人，2024a）。此外，該代理通過(guò)轉(zhuǎn)換代詞、添加連詞和刪除重復(fù)描述來(lái)優(yōu)化文本，以提高一致性和文本質(zhì)量，從而創(chuàng)建更連貫且文本 - 圖像對(duì)齊的內(nèi)容，而不是幾個(gè)離散的片段。

這種用于交錯(cuò)文本和圖像生成的 “計(jì)劃 - 執(zhí)行 - 優(yōu)化” 管道確保最終輸出緊密符合用戶指令，同時(shí)自主高效地處理各種任務(wù)。我們?cè)趫D 37 和圖 38 中提供了兩個(gè) ISG-AGENT 性能的示例。更多技術(shù)細(xì)節(jié)，請(qǐng)參考附錄 D.2。

交錯(cuò)場(chǎng)景圖用于文本和圖像生成評(píng)估（ICLR2025)-AI.x社區(qū)

5.2 實(shí)驗(yàn)

?設(shè)置：我們利用 GPT-4o 進(jìn)行規(guī)劃和驗(yàn)證代理，使用 Claude-3.5-Sonnet 進(jìn)行工具選擇，使用 SD3 作為圖像生成器，并使用多種工具（UltraEdit（Zhao 等人，2024）、DynamiCrafter（Xing 等人，2023）、SV3D（Voleti 等人，2024）和 DreamMover（Shen 等人，2024））。

?ISG-AGENT 在視覺(jué)主導(dǎo)任務(wù)中表現(xiàn)出色，但在語(yǔ)言引導(dǎo)任務(wù)中有所欠缺：如表 6 所示，ISG-AGENT 嚴(yán)格遵循用戶要求生成交錯(cuò)內(nèi)容，在各種任務(wù)的塊級(jí)和圖像級(jí)評(píng)估中，與人類的標(biāo)準(zhǔn)答案取得了可比的結(jié)果，尤其是在 “風(fēng)格遷移” 和 “3D 場(chǎng)景” 等視覺(jué)主導(dǎo)任務(wù)中。在 “漸進(jìn)式轉(zhuǎn)換” 任務(wù)中的 SOTA 結(jié)果也展示了圖像內(nèi)容的良好連貫性，甚至與人類收集的答案相符。盡管 “大語(yǔ)言模型 + 擴(kuò)散” 框架在準(zhǔn)確的指令跟隨方面存在不足，但它們?cè)谝恍┱Z(yǔ)言主導(dǎo)任務(wù)的整體評(píng)估中取得了 SOTA 結(jié)果，展示了其在文本信息生成方面的高質(zhì)量。

?增強(qiáng)組件提高了一般響應(yīng)質(zhì)量：兩個(gè)圖像生成模型之間的對(duì)比分析（表 6）和對(duì)工具的消融研究（表 7）一致表明，在采用增強(qiáng)組件時(shí)，ISG-AGENT 在各種任務(wù)級(jí)別上都表現(xiàn)出卓越的性能，從而強(qiáng)調(diào)了先進(jìn)工具在生成更準(zhǔn)確和高保真內(nèi)容方面的重要性。此外，優(yōu)化模塊的加入顯著有助于改善文本 - 圖像對(duì)齊，大幅提高了塊級(jí)和整體性能，這突出了在組合框架中優(yōu)化單個(gè)組件以實(shí)現(xiàn)精確交錯(cuò)生成的潛力。

6. 結(jié)論

本文通過(guò)引入首個(gè)自動(dòng)多粒度評(píng)估框架交錯(cuò)場(chǎng)景圖（INTERLEAVED SCENE GRAPH）、提出包含 8 種不同任務(wù)的 1150 個(gè)多模態(tài)查詢的 ISG-BENCH 基準(zhǔn)測(cè)試，以及用于探索該任務(wù)的代理框架 ISG-AGENT，推動(dòng)了交錯(cuò)文本和圖像生成評(píng)估領(lǐng)域的發(fā)展。我們的全面研究評(píng)估了 10 種前沿的多模態(tài)交錯(cuò)生成框架，為未來(lái)研究提供了關(guān)鍵見(jiàn)解并奠定了堅(jiān)實(shí)基礎(chǔ)（見(jiàn)附錄 A）。我們強(qiáng)調(diào)了持續(xù)努力開(kāi)發(fā)更好的交錯(cuò)生成模型和評(píng)估框架的重要性。

本文轉(zhuǎn)載自??AIRoobt?? ，作者：Dongping Chen等

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請(qǐng)注明出處，否則將追究法律責(zé)任

標(biāo)簽

贊

回復(fù)