精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

交錯(cuò)場(chǎng)景圖用于文本和圖像生成評(píng)估(ICLR2025) 原創(chuàng)

發(fā)布于 2025-5-19 09:06
瀏覽
0收藏


摘要

許多現(xiàn)實(shí)世界中的用戶查詢(例如,“如何制作蛋炒飯?”)都能從能夠同時(shí)生成文本步驟和配套圖像的系統(tǒng)中受益,就像烹飪食譜一樣。旨在生成交錯(cuò)文本和圖像的模型在確保這些模態(tài)內(nèi)部和之間的一致性方面面臨挑戰(zhàn)。為了解決這些挑戰(zhàn),我們提出了 ISG,這是一個(gè)用于交錯(cuò)文本 - 圖像生成的綜合評(píng)估框架。ISG 利用場(chǎng)景圖結(jié)構(gòu)來(lái)捕捉文本和圖像塊之間的關(guān)系,在四個(gè)粒度級(jí)別上評(píng)估生成的結(jié)果:整體、結(jié)構(gòu)、塊級(jí)別和圖像特定級(jí)別。這種多層評(píng)估允許對(duì)一致性、連貫性和準(zhǔn)確性進(jìn)行細(xì)致入微的評(píng)估,并提供可解釋的問(wèn)答反饋。結(jié)合 ISG,我們引入了一個(gè)基準(zhǔn)測(cè)試 ISG - BENCH,涵蓋 8 個(gè)類別和 21 個(gè)子類別中的 1150 個(gè)樣本。這個(gè)基準(zhǔn)數(shù)據(jù)集包含復(fù)雜的語(yǔ)言 - 視覺(jué)依賴關(guān)系和標(biāo)準(zhǔn)答案,以便在以視覺(jué)為中心的任務(wù)(如風(fēng)格轉(zhuǎn)換,這是當(dāng)前模型面臨的一個(gè)具有挑戰(zhàn)性的領(lǐng)域)上有效地評(píng)估模型。使用 ISG - BENCH,我們證明了最近的統(tǒng)一視覺(jué) - 語(yǔ)言模型在生成交錯(cuò)內(nèi)容方面表現(xiàn)不佳。雖然結(jié)合單獨(dú)的語(yǔ)言和圖像模型的組合方法在整體級(jí)別上比統(tǒng)一模型有 111% 的性能提升,但它們?cè)趬K級(jí)別和圖像級(jí)別上的性能仍然不盡如人意。為了推動(dòng)未來(lái)的工作,我們開(kāi)發(fā)了 ISG - AGENT,這是一個(gè)采用 “計(jì)劃 - 執(zhí)行 - 優(yōu)化” 管道來(lái)調(diào)用工具的基線代理,實(shí)現(xiàn)了 122% 的性能提升。


交錯(cuò)場(chǎng)景圖用于文本和圖像生成評(píng)估(ICLR2025)-AI.x社區(qū)

圖1:各生成模型在(視覺(jué) - 語(yǔ)言主導(dǎo))任務(wù)上的性能差異示例,僅文本和圖像輸出無(wú)法解決用戶問(wèn)題。關(guān)于我們?nèi)绾味x(視覺(jué)主導(dǎo))和(語(yǔ)言主導(dǎo)),請(qǐng)參見(jiàn)3.2節(jié)。左:文本生成;中:圖像生成;右:交錯(cuò)文本和圖像生成。

1. 引言

隨著多模態(tài)語(yǔ)言模型的普及,很明顯用戶希望模型能夠同時(shí)生成文本和圖像(Huang 等人,2016;Miech 等人,2019)。考慮這樣一個(gè)場(chǎng)景,用戶問(wèn) “如何制作蛋炒飯?”(圖 1)。用語(yǔ)言回答 —— 列出一系列步驟 —— 是一種合理的答案。但更符合實(shí)際應(yīng)用場(chǎng)景的回答方式是遵循烹飪食譜的風(fēng)格,即在列出步驟的同時(shí),提供烹飪過(guò)程中的中間步驟圖像。通過(guò)結(jié)合語(yǔ)言生成模型(Yuan 等人,2022;Gómez - Rodríguez 和 Williams,2023)和單獨(dú)的圖像生成模型(Rombach 等人,2022;Betker 等人,2023;Blattmann 等人,2023),實(shí)現(xiàn)這種多模態(tài)響應(yīng)是可能的。但是,使用兩個(gè)模型會(huì)減慢推理速度,因?yàn)楸仨氁来渭虞d和運(yùn)行這兩個(gè)模型。許多實(shí)際應(yīng)用,如編寫(xiě)故事書(shū)(Huang 等人,2016)或生成帶插圖的說(shuō)明(Miech 等人,2019),都需要生成交錯(cuò)的圖像和文本。

研究社區(qū)已經(jīng)開(kāi)始設(shè)計(jì)具有為上述用例生成交錯(cuò)文本和圖像能力的統(tǒng)一模型(Zhou 等人,2024a;Li 等人,2024b;Chern 等人,2024)。然而,生成多種模態(tài)是具有挑戰(zhàn)性的。不同模態(tài)之間的生成需要在多個(gè)圖像之間、多個(gè)句子之間以及生成的圖像和句子之間保持一致性。針對(duì)這些挑戰(zhàn)的基準(zhǔn)測(cè)試仍處于起步階段(Chen 等人,2024e)。第一,以前的基準(zhǔn)測(cè)試主要集中在語(yǔ)言主導(dǎo)的任務(wù)上,這意味著查詢僅通過(guò)文本輸出就可以解決,因此無(wú)法充分評(píng)估多模態(tài)生成能力(Liu 等人,2024d)。第二,現(xiàn)有基準(zhǔn)測(cè)試中的查詢是自由形式的,沒(méi)有參考答案,這使得評(píng)估多模態(tài)指令跟隨生成變得模糊(An 等人,2023)。第三,現(xiàn)有的基準(zhǔn)測(cè)試主要使用一種稱為 “大語(yǔ)言模型作為評(píng)判者(LLM - as - a - Judge)” 的評(píng)估范式(Chen 等人,2024a;Ye 等人,2024),其中使用 GPT4 或等效模型,憑借其預(yù)訓(xùn)練知識(shí)進(jìn)行整體評(píng)估(Xia 等人,2024)。但目前需要更細(xì)粒度的評(píng)估,以驗(yàn)證每個(gè)文本和圖像的語(yǔ)義、圖像之間的一致性、每個(gè)文本與其相鄰圖像之間的聯(lián)系等。

我們提出了交錯(cuò)場(chǎng)景圖(INTERLEAVED SCENE GRAPH,ISG),這是一個(gè)用于交錯(cuò)圖像和文本生成的評(píng)估框架。從概念上講,ISG 借鑒了場(chǎng)景圖表示法,將其作為連接圖像和文本的底層語(yǔ)義表示(Krishna 等人,2017;Johnson 等人,2018)。ISG 自動(dòng)將查詢解析為類似場(chǎng)景圖的結(jié)構(gòu),其中文本和圖像塊作為節(jié)點(diǎn),它們之間的關(guān)系作為邊。我們將塊定義為連續(xù)的文本序列或圖像標(biāo)記序列。基于這種圖表示,ISG 提出了一種跨越四個(gè)粒度級(jí)別的評(píng)估協(xié)議:整體(評(píng)估整個(gè)響應(yīng))、結(jié)構(gòu)(評(píng)估塊之間的關(guān)系)、塊(評(píng)估每個(gè)塊內(nèi)的準(zhǔn)確性)和圖像(評(píng)估圖像的內(nèi)容)。該框架將用戶查詢轉(zhuǎn)換為類似 TIFA(Hu 等人,2023)的可解釋問(wèn)答形式,在每個(gè)級(jí)別上實(shí)現(xiàn)系統(tǒng)的、可解釋的評(píng)估,填補(bǔ)了現(xiàn)有研究中的一個(gè)關(guān)鍵空白。

基于 ISG,我們引入了一個(gè)基準(zhǔn)測(cè)試,其中包含用戶查詢以及詳細(xì)的問(wèn)答,用于在四個(gè)級(jí)別上評(píng)估每個(gè)查詢。ISG - BENCH 由 8 個(gè)類別、21 個(gè)子類別(根據(jù)指令類型分類)和 1150 個(gè)手動(dòng)收集的樣本組成,所有樣本都包含語(yǔ)言 - 視覺(jué)依賴關(guān)系和標(biāo)準(zhǔn)答案,以解決上述問(wèn)題。所有樣本均經(jīng)過(guò)精心收集,部分來(lái)自以前的數(shù)據(jù)集,部分是重新構(gòu)建的,以保證高質(zhì)量。與現(xiàn)有基準(zhǔn)測(cè)試不同,我們優(yōu)先考慮以視覺(jué)為中心的任務(wù),如風(fēng)格轉(zhuǎn)換,這類任務(wù)對(duì)圖像輸出有特定要求。表 1 展示了當(dāng)前交錯(cuò)基準(zhǔn)測(cè)試和數(shù)據(jù)集之間的差異。為了驗(yàn)證我們?cè)u(píng)估的準(zhǔn)確性,我們將自動(dòng)評(píng)估結(jié)果與人工標(biāo)注的判斷在四個(gè)級(jí)別上進(jìn)行了比較。ISG 的皮爾遜相似度達(dá)到了 0.718 和 0.907,在與人類判斷的一致性方面優(yōu)于以前的評(píng)估方法。


交錯(cuò)場(chǎng)景圖用于文本和圖像生成評(píng)估(ICLR2025)-AI.x社區(qū)

使用 ISG - BENCH,我們?cè)u(píng)估了九種可訪問(wèn)的交錯(cuò)文本和圖像生成方法,包括五種最近流行的統(tǒng)一模型(例如,Show - o(Xie 等人,2024),Anole(Chern 等人,2024)),以及四種組合框架(例如,Claude + SD3(Esser 等人,2024))。實(shí)證結(jié)果表明,當(dāng)前的統(tǒng)一模型在指令跟隨和生成質(zhì)量方面仍有很大的改進(jìn)空間。組合框架在生成高質(zhì)量多模態(tài)內(nèi)容方面明顯優(yōu)于統(tǒng)一模型,平均整體得分達(dá)到 6.262,而表現(xiàn)最好的統(tǒng)一模型 CoMM - MiniGPT - 5 的得分僅為 2.961。然而,由于它們獨(dú)立的理解和生成結(jié)構(gòu),在塊級(jí)別和圖像級(jí)別進(jìn)行準(zhǔn)確生成時(shí)仍然存在不足,特別是在視覺(jué)主導(dǎo)的任務(wù)中。

基于組合框架的優(yōu)越性能,我們提出了 ISG - AGENT,作為未來(lái)比較的組合基線。ISG - AGENT 通過(guò) “計(jì)劃 - 執(zhí)行 - 優(yōu)化” 管道(Wang 等人,2024)生成交錯(cuò)的文本和圖像。具體來(lái)說(shuō),它首先生成工具使用計(jì)劃,隨后執(zhí)行這些先進(jìn)工具進(jìn)行交錯(cuò)生成,接著進(jìn)行優(yōu)化過(guò)程,以實(shí)現(xiàn)更好的文本和圖像對(duì)齊并修復(fù)錯(cuò)誤。值得注意的是,ISG - AGENT 在所有四個(gè)評(píng)估級(jí)別上都優(yōu)于所有其他基線。它實(shí)現(xiàn)了令人印象深刻的結(jié)構(gòu)準(zhǔn)確率 0.871,明顯超過(guò)了之前 Gemini 的最佳成績(jī) 0.385。這些結(jié)果強(qiáng)調(diào)了 ISG - AGENT 在生成連貫交錯(cuò)內(nèi)容方面的有效性,為多模態(tài)生成和創(chuàng)意應(yīng)用中更先進(jìn)的指令跟隨代理鋪平了道路。

2. 相關(guān)工作

2.1 交錯(cuò)文本和圖像生成

最近,多模態(tài)大語(yǔ)言模型(MLLMs,GeminiTeam,2023;OpenAI,2024;2023;Li 等人,2024a)和擴(kuò)散模型(Rombach 等人,2022;Esser 等人,2024;Flux,2024)的進(jìn)展引發(fā)了大量旨在整合自回歸架構(gòu)(Liu 等人,2024c;Sun 等人,2024a)的研究,用于多模態(tài)理解(Yue 等人,2024;Li 等人,2023b)和生成任務(wù)(Ghosh 等人,2024;Huang 等人,2023)。在理解方面,早期研究通過(guò)簡(jiǎn)單的視覺(jué)標(biāo)記化(Li 等人,2023a)或投影方法(Li 等人,2023c;2024a)有效地將視覺(jué)感知與預(yù)訓(xùn)練的大語(yǔ)言模型(LLMs)相結(jié)合,取得了有前景的結(jié)果。另一方面,多模態(tài)生成最初是通過(guò)預(yù)訓(xùn)練的文本到圖像模型(Li 等人,2024b;Wu 等人,2023)或通過(guò)自回歸過(guò)程實(shí)現(xiàn)的,在自回歸過(guò)程中,生成的標(biāo)記被解碼為圖像(Team,2024;Chern 等人,2024;Koh 等人,2024)。最近,研究人員開(kāi)始探索 Transformer 和擴(kuò)散模型的集成,旨在在單個(gè)框架內(nèi)統(tǒng)一多模態(tài)理解和生成任務(wù)(Zhou 等人,2024a;Xie 等人,2024;Wu 等人,2024b),這在文本和圖像的交錯(cuò)生成方面展現(xiàn)出了潛力。

2.2 自動(dòng)交錯(cuò)文本和圖像評(píng)估

自動(dòng)交錯(cuò)文本和圖像評(píng)估起源于自然語(yǔ)言處理(NLP)中早期的文本摘要(Narayan 等人,2018),基于問(wèn)答(QA)的評(píng)估方法自動(dòng)將提示轉(zhuǎn)換為問(wèn)題,并使用它們來(lái)驗(yàn)證生成的內(nèi)容(Durmus 等人,2020;Deutsch 等人,2020;Eyal 等人,2019)。在多模態(tài)領(lǐng)域,特別是在文本到圖像生成中,基于視覺(jué)問(wèn)答(VQA)的評(píng)估方法將文本轉(zhuǎn)換為原子問(wèn)題,并進(jìn)行視覺(jué)問(wèn)答以驗(yàn)證生成的圖像,從而提供更細(xì)粒度和可解釋的基準(zhǔn)測(cè)試結(jié)果(Cho 等人,2023;Lin 等人,2024)。值得注意的是,TIFA(Hu 等人,2023)率先使用視覺(jué)問(wèn)答進(jìn)行自動(dòng)評(píng)估,隨后有多項(xiàng)改進(jìn)(Lu 等人,2024;Ghosh 等人,2024;Cho 等人,2024;Chen 等人,2024a)。然而,評(píng)估交錯(cuò)生成仍然具有挑戰(zhàn)性。表 1 顯示,現(xiàn)有基準(zhǔn)測(cè)試(An 等人,2023;Liu 等人,2024d)嚴(yán)重依賴零樣本的 “大語(yǔ)言模型作為評(píng)判者” 或傳統(tǒng)指標(biāo)(Chen 等人,2024e;b),導(dǎo)致評(píng)估結(jié)果粗略且粒度較大。

3. 交錯(cuò)場(chǎng)景圖

我們引入了 ISG(圖 2),這是一個(gè)用于交錯(cuò)文本和圖像生成評(píng)估的綜合自動(dòng)評(píng)估框架。通過(guò)使用 ISG,我們還引入了 ISG - BENCH,這是一個(gè)用于評(píng)估圖像和文本生成的基準(zhǔn)測(cè)試。


交錯(cuò)場(chǎng)景圖用于文本和圖像生成評(píng)估(ICLR2025)-AI.x社區(qū)

圖2:ISG首先將用戶的查詢解析為類似場(chǎng)景圖的結(jié)構(gòu),以便在三個(gè)層面上進(jìn)行細(xì)粒度的評(píng)估:1)在結(jié)構(gòu)層面,ISG預(yù)測(cè)查詢的交錯(cuò)結(jié)構(gòu);2)在塊層面,節(jié)點(diǎn)代表由需求邊連接的文本-圖像塊;3)在圖像層面,圖由實(shí)體、它們的屬性及其關(guān)系組成。最后,ISG將圖結(jié)構(gòu)中的每個(gè)元素轉(zhuǎn)化為問(wèn)題,使用問(wèn)答模塊評(píng)估模型的交錯(cuò)輸出,并隨后將這些結(jié)果匯總為一個(gè)全面的評(píng)估。

3.1 評(píng)估框架

該框架自動(dòng)將查詢解釋為類似場(chǎng)景圖的結(jié)構(gòu),其中文本和圖像塊作為節(jié)點(diǎn),它們之間的關(guān)系作為邊。基于這種圖表示,我們可以進(jìn)行四個(gè)級(jí)別的全面評(píng)估:整體、結(jié)構(gòu)、塊和圖像。在每個(gè)級(jí)別,框架會(huì)生成幾個(gè)問(wèn)答對(duì),用于評(píng)估生成的響應(yīng)是否適當(dāng)?shù)鼗卮鹆瞬樵儭T诤暧^層面,結(jié)構(gòu)和整體問(wèn)題分析整體響應(yīng)的連貫性和質(zhì)量;而塊和圖像問(wèn)題則評(píng)估每個(gè)內(nèi)容模塊對(duì)用戶指令的遵循程度。

結(jié)構(gòu)問(wèn)題評(píng)估響應(yīng)是否嚴(yán)格遵循用戶查詢中的結(jié)構(gòu)要求。如圖 2 所示,給定 “先生成圖像,然后給出說(shuō)明” 的結(jié)構(gòu)要求,正確的結(jié)構(gòu)應(yīng)該由 4 個(gè)圖像和 4 個(gè)文本塊交錯(cuò)組成。我們利用大語(yǔ)言模型根據(jù)查詢預(yù)測(cè)生成的結(jié)構(gòu),隨后通過(guò)直接的結(jié)構(gòu)匹配來(lái)評(píng)估答案。

整體問(wèn)題通過(guò)將多模態(tài)查詢、響應(yīng)和人工標(biāo)注的標(biāo)準(zhǔn)答案輸入到多模態(tài)大語(yǔ)言模型中,來(lái)評(píng)估整體的文本 - 圖像對(duì)齊、連貫性和有用性,然后多模態(tài)大語(yǔ)言模型會(huì)對(duì)整個(gè)答案輸出判斷。基于先前的工作(An 等人,2023;Liu 等人,2024d),我們通過(guò)使用帶有標(biāo)準(zhǔn)答案的 “大語(yǔ)言模型作為評(píng)判者” 以及 “先分析后判斷” 的思維鏈(Chain - of - Thought,CoT)(Wei 等人,2022)來(lái)改進(jìn)這個(gè)過(guò)程。這允許進(jìn)行更符合人類判斷的評(píng)估,評(píng)估生成質(zhì)量、文本 - 圖像對(duì)齊以及有用性,從而得出一個(gè)綜合分?jǐn)?shù)。

塊問(wèn)題評(píng)估每個(gè)塊內(nèi)的細(xì)粒度細(xì)節(jié)。我們最初將提示 P 表示為 “主語(yǔ) - 賓語(yǔ) - 關(guān)系” 元組(sub,obj,r),例如在圖 2 的示例中 < Text 1,Image 1,Describe>,其中 {sub,obj} 是表示圖像或文本塊的節(jié)點(diǎn),r 是表示原子開(kāi)放詞匯要求的邊。隨后,我們從這些元組生成問(wèn)題,并使用視覺(jué)問(wèn)答模塊進(jìn)行評(píng)估,大語(yǔ)言模型提供 “是或否” 和 “1 - 10 分” 的答案。我們也嘗試使用 CLIPScore(Hessel 等人,2021)來(lái)評(píng)估文本 - 圖像關(guān)系,但由于文本塊超過(guò)了文本編碼器 77 個(gè)標(biāo)記的限制而失敗。

圖像問(wèn)題評(píng)估圖像的語(yǔ)義內(nèi)容。我們將多模態(tài)查詢轉(zhuǎn)換為依賴感知元組,這些元組包含實(shí)體、關(guān)系和屬性,每個(gè)都與特定生成的圖像相關(guān)聯(lián),特別是對(duì)于以視覺(jué)為主導(dǎo)的任務(wù),如 “風(fēng)格轉(zhuǎn)換” 和 “多角度物體”,這些任務(wù)有具體的參考答案,而 “繪畫(huà)” 任務(wù)只需要生成最終圖像的準(zhǔn)確性。相比之下,像 “HowTo” 這樣的任務(wù)要求包含特定對(duì)象,但在其他方面允許有一定靈活性。我們根據(jù)答案中對(duì)圖像生成的要求對(duì)任務(wù)進(jìn)行分類,如表 2 所示。這些元組可能包括 < Image 1,Entity,Cat > 和 < Image 1,Relation,Cat,on the right of,Dog>。隨后,我們使用大語(yǔ)言模型生成帶有依賴關(guān)系的問(wèn)題,并通過(guò)視覺(jué)問(wèn)答模塊(Cho 等人,2023)使用這些問(wèn)題評(píng)估圖像生成。

為了在塊級(jí)別和圖像級(jí)別生成視覺(jué)問(wèn)答問(wèn)題,我們使用少樣本示例進(jìn)行上下文學(xué)習(xí)(Dong 等人,2022)來(lái)實(shí)現(xiàn) ISG,并根據(jù)人工標(biāo)注的地面真實(shí)情況仔細(xì)驗(yàn)證這些生成的問(wèn)題。關(guān)于 ISG - BENCH 的評(píng)估,請(qǐng)參考 4.1 節(jié),技術(shù)細(xì)節(jié)見(jiàn)附錄 D.1。


交錯(cuò)場(chǎng)景圖用于文本和圖像生成評(píng)估(ICLR2025)-AI.x社區(qū)

圖 3:左:ISG - BENCH 概述。右:查詢和標(biāo)準(zhǔn)答案的文本內(nèi)容長(zhǎng)度和圖像數(shù)量分布分析


交錯(cuò)場(chǎng)景圖用于文本和圖像生成評(píng)估(ICLR2025)-AI.x社區(qū)


3.2 基準(zhǔn)測(cè)試

基于 ISG,我們開(kāi)發(fā)了第一個(gè)用于交錯(cuò)文本和圖像生成的基準(zhǔn)測(cè)試 ISG - BENCH,以評(píng)估各種任務(wù)中的多模態(tài)理解和生成能力。如表 2 所示,ISG - BENCH 由 1150 個(gè)樣本組成的分類平衡數(shù)據(jù)集,涵蓋 8 個(gè)日常交錯(cuò)生成場(chǎng)景中的 21 個(gè)子任務(wù)。每個(gè)樣本都包括詳細(xì)的指令和結(jié)構(gòu)要求,例如 “生成四張圖像,并在生成的圖像后提供簡(jiǎn)短的文本描述”,以評(píng)估指令跟隨能力和交錯(cuò)生成能力。每個(gè)查詢都被設(shè)計(jì)為:第一,依賴于視覺(jué)和語(yǔ)言,這意味著它不能僅使用單一模態(tài)的信息來(lái)解決;第二,與精心收集的標(biāo)準(zhǔn)答案配對(duì)。所有樣本均通過(guò)交叉驗(yàn)證和 BERTScore(Zhang 等人,2019)進(jìn)行相似性過(guò)濾后收集和人工篩選,詳細(xì)信息見(jiàn)附錄 B.3。

數(shù)據(jù)收集和質(zhì)量控制:我們的基準(zhǔn)測(cè)試收集過(guò)程主要包括三個(gè)階段。首先,我們根據(jù)任務(wù)定義回顧現(xiàn)有數(shù)據(jù)集,并檢索高質(zhì)量、不重疊的視覺(jué)元數(shù)據(jù),作為查詢和標(biāo)準(zhǔn)答案中的視覺(jué)信息,其中一些數(shù)據(jù)是我們自己收集的(例如,“多視圖場(chǎng)景生成”)。然后,我們策劃自然語(yǔ)言查詢,這些查詢引用圖像以進(jìn)行自動(dòng)評(píng)估。每個(gè)查詢都指定了輸出所需的結(jié)構(gòu)。使用多模態(tài)大語(yǔ)言模型為每個(gè)任務(wù)生成文本答案,隨后由人工注釋者進(jìn)行審查以確保準(zhǔn)確性。由于擔(dān)心基礎(chǔ)模型中的數(shù)據(jù)污染(Balloccu 等人,2024;Xu 等人,2024),注釋者被要求創(chuàng)建自由形式的查詢,并從頭開(kāi)始開(kāi)發(fā)查詢和相應(yīng)的標(biāo)準(zhǔn)答案。最后,我們獲得了一個(gè)多樣化、高質(zhì)量的交錯(cuò)多模態(tài)基準(zhǔn)測(cè)試,其中查詢 - 答案對(duì)來(lái)自各種來(lái)源。為了確保樣本的質(zhì)量,我們?cè)诓煌⑨屨咧g進(jìn)行交叉驗(yàn)證,以檢查格式一致性和拼寫(xiě)錯(cuò)誤。附錄 B 中提供了詳細(xì)的定義、收集流程和更多示例。

模態(tài)特定評(píng)估:我們通過(guò)決策樹(shù)(圖 8)將 ISG - BENCH 中的每個(gè)任務(wù)分為三種模式(即圖像、語(yǔ)言和兩者兼有),以確定其主要貢獻(xiàn)輸出的模態(tài)。例如,“HowTo” 任務(wù)需要視覺(jué)和語(yǔ)言內(nèi)容來(lái)解決問(wèn)題,“藝術(shù)風(fēng)格轉(zhuǎn)換” 主要依賴于視覺(jué)生成;而 “帶有圖像生成的視覺(jué)問(wèn)答” 主要依賴于文本輸出,答案的質(zhì)量和準(zhǔn)確性主要?dú)w因于語(yǔ)言部分,生成的圖像作為補(bǔ)充信息。

4. 實(shí)驗(yàn)與分析

我們首先將 ISG 與人工注釋進(jìn)行對(duì)比驗(yàn)證(4.1 節(jié)),展示其與人類判斷的一致性。隨后我們對(duì)交錯(cuò)生成的評(píng)估(4.2 節(jié))揭示了統(tǒng)一模型的局限性和組合方法的部分成功,強(qiáng)調(diào)了當(dāng)前交錯(cuò)生成在指令跟隨方面面臨的挑戰(zhàn)。

4.1 評(píng)估 ISG - BENCH

?實(shí)驗(yàn)設(shè)置:我們利用最受歡迎的多模態(tài)大語(yǔ)言模型之一 GPT-4o(OpenAI,2024)作為 ISG 的問(wèn)題生成和視覺(jué)問(wèn)答模塊。我們開(kāi)展實(shí)驗(yàn),在不同樣本規(guī)模和指標(biāo)設(shè)定下,驗(yàn)證 ISG 在每個(gè)步驟的性能表現(xiàn),詳見(jiàn)表 3。此外,我們?cè)诟戒?E.2 中驗(yàn)證了 ISG-BENCH 的 “多模態(tài)依賴” 特性。

所有結(jié)果都通過(guò)交叉驗(yàn)證,與人工標(biāo)注的基準(zhǔn)事實(shí)進(jìn)行對(duì)比。圖 4 展示了 ISG-BENCH 中視覺(jué)問(wèn)答實(shí)例的分布情況。對(duì)于問(wèn)題生成模塊,如果生成結(jié)果的主語(yǔ)和賓語(yǔ)與基準(zhǔn)事實(shí)匹配,且 BertScore(Zhang 等人,2019)高于 0.8,則認(rèn)定為正確。我們?cè)?ISG 的視覺(jué)問(wèn)答模塊實(shí)驗(yàn)中采用 “先分析再判斷” 的思維鏈(CoT)框架(Wei 等人,2022),設(shè)置了兩種模式:“1-10 分” 評(píng)分(Lin 等人,2024)和直接 “是或否” 判斷(Cho 等人,2023)。我們還對(duì)視覺(jué)輸入、作為文本信息的圖像字幕以及少樣本提示進(jìn)行了消融實(shí)驗(yàn),以探究 ISG 的最佳設(shè)置。對(duì)于 “大語(yǔ)言模型作為評(píng)判者”(MLLM-as-a-Judge),我們遵循先前研究,使用人工一致性作為評(píng)估指標(biāo)(Chen 等人,2024a;f)。


交錯(cuò)場(chǎng)景圖用于文本和圖像生成評(píng)估(ICLR2025)-AI.x社區(qū)

?ISG 在各任務(wù)的每個(gè)模塊中表現(xiàn)出色:如表 3 所示,ISG 的每個(gè)模塊都與人工標(biāo)注高度吻合。在結(jié)構(gòu)方面,ISG 在所有任務(wù)中均展現(xiàn)出一致的卓越性能,這表明其在捕捉交錯(cuò)生成指令中的結(jié)構(gòu)要求方面具有強(qiáng)大潛力。在問(wèn)題生成(Q-Gen)和視覺(jué)問(wèn)答模塊中,ISG 能夠成功提取細(xì)粒度的要求,與基準(zhǔn)事實(shí)高度一致。對(duì)于視覺(jué)問(wèn)答模塊,評(píng)分方法始終優(yōu)于 “是或否” 方法,這表明更細(xì)致的判斷與人工評(píng)估更為契合,尤其是在附錄 D.1.1 中強(qiáng)調(diào)的模糊案例中。與其他任務(wù)相比,視覺(jué)引導(dǎo)的任務(wù)表現(xiàn)始終較差,在問(wèn)題生成和視覺(jué)問(wèn)答模塊中均出現(xiàn)顯著下降,這凸顯了自動(dòng)評(píng)估交錯(cuò)文本和圖像生成細(xì)粒度方面的挑戰(zhàn)。在整體評(píng)估中,借助標(biāo)準(zhǔn)答案的評(píng)估方式顯著優(yōu)于大語(yǔ)言模型的零樣本判斷設(shè)置,在視覺(jué)引導(dǎo)任務(wù)中優(yōu)勢(shì)更為明顯,平均提升幅度達(dá)到 20%。

?視覺(jué)輸入和少樣本提示的消融研究:為進(jìn)行更全面的研究,我們?cè)谝曈X(jué)輸入和少樣本示例這兩種條件下對(duì) ISG 展開(kāi)評(píng)估。如表 4 所示,多模態(tài)輸入在塊級(jí)和圖像級(jí)問(wèn)題生成中存在差異,圖像級(jí)問(wèn)題生成有輕微提升。此外,少樣本上下文學(xué)習(xí)在這兩個(gè)任務(wù)中都帶來(lái)了顯著提升,塊級(jí)任務(wù)性能提高超過(guò) 30%,圖像級(jí)任務(wù)提高 10% 以上,在視覺(jué) - 語(yǔ)言引導(dǎo)任務(wù)中通過(guò)對(duì)預(yù)測(cè)生成內(nèi)容的要求進(jìn)行限制,提升效果更為明顯。對(duì)于語(yǔ)言引導(dǎo)任務(wù),少樣本學(xué)習(xí)使塊級(jí)性能提升 70%,進(jìn)一步證明了針對(duì)此類創(chuàng)意生成任務(wù)建立準(zhǔn)確評(píng)估框架的可行性。


交錯(cuò)場(chǎng)景圖用于文本和圖像生成評(píng)估(ICLR2025)-AI.x社區(qū)


交錯(cuò)場(chǎng)景圖用于文本和圖像生成評(píng)估(ICLR2025)-AI.x社區(qū)

4.2 基準(zhǔn)測(cè)試交錯(cuò)文本和圖像生成

?實(shí)驗(yàn)設(shè)置:我們?cè)u(píng)估了 10 種能夠生成交錯(cuò)文本和圖像內(nèi)容的框架,包括 4 種最近發(fā)布的統(tǒng)一模型 Show-o^{1}(Xie 等人,2024)、Anole(Chern 等人,2024)、Minigpt-5(Li 等人,2024b)、CoMM-Minigpt-5(Chen 等人,2024e)、SEED-LLaMA(Li 等人,2023b),以及兩種組合設(shè)置,使用 Gemini-1.5-Pro(GeminiTeam,2023)和 Claude-3.5-Sonnet(Anthropic,2024)作為多模態(tài)預(yù)處理器^{2},SD3(Esser 等人,2024)作為生成器,并使用 SD2.1(Rombach 等人,2022)進(jìn)行對(duì)比研究。對(duì)于 ISG,我們采用 4.1 節(jié)中表現(xiàn)最佳的設(shè)置,以實(shí)現(xiàn)完全自動(dòng)的評(píng)估設(shè)置。詳細(xì)的實(shí)驗(yàn)設(shè)置和成本分析請(qǐng)參考附錄 D 和 E.1。

?統(tǒng)一模型在準(zhǔn)確交錯(cuò)生成方面表現(xiàn)不佳:如表 5 所示,所有統(tǒng)一模型在按照我們的指令生成交錯(cuò)文本和圖像內(nèi)容方面都存在顯著缺陷。許多模型僅生成一到三張圖像,有些甚至根本無(wú)法生成圖像。因此,這些模型無(wú)法進(jìn)行塊級(jí)和圖像級(jí)的評(píng)估。在整體評(píng)估中,這些模型在語(yǔ)言主導(dǎo)的任務(wù)中表現(xiàn)出較強(qiáng)的能力,但在視覺(jué)主導(dǎo)的任務(wù)中表現(xiàn)明顯不佳。這種差異進(jìn)一步證實(shí)了當(dāng)前統(tǒng)一模型的訓(xùn)練數(shù)據(jù)集缺乏足夠的視覺(jué)主導(dǎo)指令調(diào)整樣本的假設(shè),例如 “風(fēng)格遷移” 和 “圖像分解” 任務(wù)的樣本。值得注意的是,Show-o 作為首批統(tǒng)一自回歸模型之一,具有較強(qiáng)的結(jié)構(gòu)準(zhǔn)確性,但存在幻覺(jué)問(wèn)題 —— 根據(jù)系統(tǒng)提示而非用戶指令生成圖像,如圖 39 所示。同樣,Anole 在統(tǒng)一模型中實(shí)現(xiàn)了 SOTA 性能,凸顯了其架構(gòu)設(shè)計(jì)的潛力。

?視覺(jué)主導(dǎo)的任務(wù)對(duì)所有模型都具有挑戰(zhàn)性:鑒于這些組合框架對(duì)圖像的感知和生成是分開(kāi)進(jìn)行的,并非端到端的方式,這意味著它們由于其固有結(jié)構(gòu),自然無(wú)法在諸如精確圖像編輯等任務(wù)中表現(xiàn)出色。另一方面,盡管這些統(tǒng)一模型有潛力以端到端的方式理解和生成圖像,并宣稱在 “圖像生成” 或 “圖像編輯” 等視覺(jué)生成任務(wù)中具備能力,但在理解多模態(tài)查詢以生成包含多個(gè)圖像的交錯(cuò)內(nèi)容方面仍存在不足。如圖 6 所示,表現(xiàn)最佳的統(tǒng)一模型 Anole 無(wú)法理解輸出格式,并且偏離了輸入圖像的上下文,這表明它們?cè)谝曈X(jué)上下文學(xué)習(xí)中的圖像生成能力存在缺陷(Sun 等人,2024b)。

?大語(yǔ)言模型作為評(píng)判者無(wú)法評(píng)估細(xì)粒度的準(zhǔn)確生成:如表 5 和表 6 所示,整體評(píng)估結(jié)果與三個(gè)細(xì)粒度級(jí)別的評(píng)估結(jié)果之間的不一致,揭示了大語(yǔ)言模型作為評(píng)判者在全面評(píng)估響應(yīng)方面存在顯著局限性,即使提供了用戶指令和正確的標(biāo)準(zhǔn)答案。具體而言,大語(yǔ)言模型作為評(píng)判者難以根據(jù)細(xì)粒度標(biāo)準(zhǔn)評(píng)估響應(yīng),例如輸出結(jié)構(gòu)(包括圖像數(shù)量)和提示中規(guī)定的詳細(xì)文本 - 圖像關(guān)系。此外,我們對(duì)表 7 結(jié)果的分析揭示了大語(yǔ)言模型作為評(píng)判者存在固有偏差,即 “圖像質(zhì)量偏差”,即使這些響應(yīng)可能違反用戶的指令要求和評(píng)判準(zhǔn)則,具有更高質(zhì)量圖像內(nèi)容的響應(yīng)也始終會(huì)獲得更高的分?jǐn)?shù)。這種偏差表明,即使提供了標(biāo)準(zhǔn)答案,大語(yǔ)言模型作為評(píng)判者仍然無(wú)法對(duì)符合特定要求的交錯(cuò)響應(yīng)進(jìn)行準(zhǔn)確評(píng)估。


交錯(cuò)場(chǎng)景圖用于文本和圖像生成評(píng)估(ICLR2025)-AI.x社區(qū)


交錯(cuò)場(chǎng)景圖用于文本和圖像生成評(píng)估(ICLR2025)-AI.x社區(qū)


交錯(cuò)場(chǎng)景圖用于文本和圖像生成評(píng)估(ICLR2025)-AI.x社區(qū)

5. ISG-AGENT:設(shè)計(jì)一個(gè)基線代理

盡管統(tǒng)一生成模型(Chern 等人,2024;Zhou 等人,2024a;Team,2024)在多模態(tài)交錯(cuò)生成方面顯示出潛力,但即使經(jīng)過(guò)微調(diào),生成交錯(cuò)文本和圖像內(nèi)容仍然具有挑戰(zhàn)性。受先前視覺(jué)生成任務(wù)組合框架(Gupta 和 Kembhavi,2023;Surís 等人,2023;Ma 等人,2024)的啟發(fā),我們提出了 ISG-AGENT,這是一個(gè)供未來(lái)基準(zhǔn)測(cè)試使用的基線代理。

5.1 代理設(shè)置

圖 5 展示了 ISG-AGENT 的概述,它由三個(gè)組件 —— 規(guī)劃、執(zhí)行和優(yōu)化 —— 協(xié)同工作,用于交錯(cuò)文本和圖像生成。

?規(guī)劃:該組件作為解釋用戶多模態(tài)查詢的接口,并以 JSON 格式生成相應(yīng)的工具使用計(jì)劃。該計(jì)劃概述了主要涉及工具調(diào)用的順序步驟。通過(guò)利用大語(yǔ)言模型作為骨干,它確保創(chuàng)建一個(gè)準(zhǔn)確的交錯(cuò)生成計(jì)劃,嚴(yán)格遵守用戶指令,包括對(duì)細(xì)粒度文本 - 圖像塊要求的規(guī)范。每個(gè)步驟都包括明確的工具執(zhí)行功能和后續(xù)工具使用的自然語(yǔ)言描述。

?工具使用:該組件負(fù)責(zé)執(zhí)行帶有日志記錄的工具(Schick 等人,2024)。在每個(gè)步驟中,它從工具庫(kù)中選擇最合適的工具,并為指定工具提供經(jīng)過(guò)優(yōu)化的描述性文本和圖像,例如使用大語(yǔ)言模型進(jìn)行圖像字幕生成,使用擴(kuò)散模型進(jìn)行圖像生成。為避免工具使用過(guò)程中可能出現(xiàn)的偏差,代理被設(shè)計(jì)為生成與指令緊密對(duì)齊的描述,專門(mén)用于工具調(diào)用。

?優(yōu)化:該組件負(fù)責(zé)審查和提高上一步生成內(nèi)容的質(zhì)量,通過(guò)分析錯(cuò)誤消息或不適當(dāng)?shù)纳桑⑼ㄟ^(guò)使用更詳細(xì)和精確的執(zhí)行指令重建錯(cuò)誤步驟來(lái)解決問(wèn)題,直到問(wèn)題得到解決(Wu 等人,2024a)。此外,該代理通過(guò)轉(zhuǎn)換代詞、添加連詞和刪除重復(fù)描述來(lái)優(yōu)化文本,以提高一致性和文本質(zhì)量,從而創(chuàng)建更連貫且文本 - 圖像對(duì)齊的內(nèi)容,而不是幾個(gè)離散的片段。

這種用于交錯(cuò)文本和圖像生成的 “計(jì)劃 - 執(zhí)行 - 優(yōu)化” 管道確保最終輸出緊密符合用戶指令,同時(shí)自主高效地處理各種任務(wù)。我們?cè)趫D 37 和圖 38 中提供了兩個(gè) ISG-AGENT 性能的示例。更多技術(shù)細(xì)節(jié),請(qǐng)參考附錄 D.2。


交錯(cuò)場(chǎng)景圖用于文本和圖像生成評(píng)估(ICLR2025)-AI.x社區(qū)

5.2 實(shí)驗(yàn)

?設(shè)置:我們利用 GPT-4o 進(jìn)行規(guī)劃和驗(yàn)證代理,使用 Claude-3.5-Sonnet 進(jìn)行工具選擇,使用 SD3 作為圖像生成器,并使用多種工具(UltraEdit(Zhao 等人,2024)、DynamiCrafter(Xing 等人,2023)、SV3D(Voleti 等人,2024)和 DreamMover(Shen 等人,2024))。

?ISG-AGENT 在視覺(jué)主導(dǎo)任務(wù)中表現(xiàn)出色,但在語(yǔ)言引導(dǎo)任務(wù)中有所欠缺:如表 6 所示,ISG-AGENT 嚴(yán)格遵循用戶要求生成交錯(cuò)內(nèi)容,在各種任務(wù)的塊級(jí)和圖像級(jí)評(píng)估中,與人類的標(biāo)準(zhǔn)答案取得了可比的結(jié)果,尤其是在 “風(fēng)格遷移” 和 “3D 場(chǎng)景” 等視覺(jué)主導(dǎo)任務(wù)中。在 “漸進(jìn)式轉(zhuǎn)換” 任務(wù)中的 SOTA 結(jié)果也展示了圖像內(nèi)容的良好連貫性,甚至與人類收集的答案相符。盡管 “大語(yǔ)言模型 + 擴(kuò)散” 框架在準(zhǔn)確的指令跟隨方面存在不足,但它們?cè)谝恍┱Z(yǔ)言主導(dǎo)任務(wù)的整體評(píng)估中取得了 SOTA 結(jié)果,展示了其在文本信息生成方面的高質(zhì)量。

?增強(qiáng)組件提高了一般響應(yīng)質(zhì)量:兩個(gè)圖像生成模型之間的對(duì)比分析(表 6)和對(duì)工具的消融研究(表 7)一致表明,在采用增強(qiáng)組件時(shí),ISG-AGENT 在各種任務(wù)級(jí)別上都表現(xiàn)出卓越的性能,從而強(qiáng)調(diào)了先進(jìn)工具在生成更準(zhǔn)確和高保真內(nèi)容方面的重要性。此外,優(yōu)化模塊的加入顯著有助于改善文本 - 圖像對(duì)齊,大幅提高了塊級(jí)和整體性能,這突出了在組合框架中優(yōu)化單個(gè)組件以實(shí)現(xiàn)精確交錯(cuò)生成的潛力。

6. 結(jié)論

本文通過(guò)引入首個(gè)自動(dòng)多粒度評(píng)估框架交錯(cuò)場(chǎng)景圖(INTERLEAVED SCENE GRAPH)、提出包含 8 種不同任務(wù)的 1150 個(gè)多模態(tài)查詢的 ISG-BENCH 基準(zhǔn)測(cè)試,以及用于探索該任務(wù)的代理框架 ISG-AGENT,推動(dòng)了交錯(cuò)文本和圖像生成評(píng)估領(lǐng)域的發(fā)展。我們的全面研究評(píng)估了 10 種前沿的多模態(tài)交錯(cuò)生成框架,為未來(lái)研究提供了關(guān)鍵見(jiàn)解并奠定了堅(jiān)實(shí)基礎(chǔ)(見(jiàn)附錄 A)。我們強(qiáng)調(diào)了持續(xù)努力開(kāi)發(fā)更好的交錯(cuò)生成模型和評(píng)估框架的重要性。



本文轉(zhuǎn)載自??AIRoobt?? ,作者:Dongping Chen等

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
3p在线观看| 日韩一级片中文字幕| 日韩欧美中文字幕一区二区三区| 亚洲一区二区偷拍精品| 国产亚洲精品久久飘花| 国产精品传媒在线观看| 欧美色综合网| 中文字幕亚洲欧美日韩高清| 黑人无套内谢中国美女| 一区二区三区短视频| 亚洲天堂av一区| 久久免费看av| 国产黄色一区二区| 日韩一区精品字幕| 欧美国产日韩xxxxx| 亚洲天堂岛国片| 久久精品论坛| 欧美一区二区三区免费大片| 久久无码高潮喷水| 在线观看a级片| 欧美韩国日本综合| 国产私拍一区| 国产富婆一级全黄大片| 老司机午夜精品视频在线观看| 欧美成人精品激情在线观看| 久久久久久久毛片| 超碰97久久国产精品牛牛| 欧美日韩在线播放| 国产亚洲欧美在线视频| 日韩另类在线| 亚洲日本青草视频在线怡红院| 欧美日韩亚洲一区二区三区四区| 亚洲狼人综合网| 激情综合网天天干| 日韩av手机在线观看| 国产一级片免费| 1024精品久久久久久久久| 亚洲欧美视频在线| 久久久久国产精品区片区无码| 日韩三级av高清片| 欧美高清一级片在线| 九色porny91| 亚洲淫成人影院| 欧美日韩午夜剧场| 国产黄色片免费在线观看| 宅男网站在线免费观看| 亚洲欧洲av在线| 美国av在线播放| 午夜在线视频| 中文字幕制服丝袜一区二区三区| 日本高清不卡三区| 日本韩国一区| 国产视频在线观看一区二区三区| 欧美另类一区| 韩日在线视频| 国产精品你懂的| 亚洲韩国在线| 欧美黑人激情| 亚洲精品国久久99热| 精品日韩在线播放| 欧美hdxxx| 亚洲一卡二卡三卡四卡| 日本a在线免费观看| gogo高清在线播放免费| 香蕉成人啪国产精品视频综合网| 国产自产在线视频| 少妇视频在线观看| 一本高清dvd不卡在线观看| 粗暴91大变态调教| 国产精品.xx视频.xxtv| 欧美精品色综合| 初高中福利视频网站| 波多野结衣欧美| 日韩成人激情在线| 五月天综合视频| 国产精品久久久久久久久妇女| 久久好看免费视频| 麻豆亚洲av熟女国产一区二| 亚洲三级视频| 国产精品黄色av| 国产精品久久久久久久久久久久久久久久久久 | 久久久亚洲国产天美传媒修理工| 日本三级黄色大片| 日韩中文字幕1| 91香蕉国产在线观看| 成人免费视频国产免费麻豆| 久久天堂av综合合色蜜桃网| 一本一道久久a久久精品综合 | 97视频人免费观看| 欧美性猛交xxxx乱大交hd | 一级黄色免费视频| 美女精品一区最新中文字幕一区二区三区| 中文字幕精品国产| 国产真实的和子乱拍在线观看| 免费视频一区| 97人人做人人人难人人做| 久草视频在线看| 亚洲精品网站在线观看| 91猫先生在线| 日韩一区二区三区色| 亚洲欧美综合v| 欧美国产日韩综合| 日韩av网站免费在线| 成人黄色在线免费观看| 国产福利第一视频在线播放| 一区2区3区在线看| 91n.com在线观看| 国产伦精品一区二区三区在线播放| 亚洲人成免费电影| 国产无遮挡aaa片爽爽| 久久99精品国产.久久久久| 国产综合第一页| 亚洲小说区图片| 欧美日韩国产美女| 欧美夫妇交换xxx| 久久激情电影| 欧美在线观看视频| 精品乱子伦一区二区| 中文字幕精品—区二区四季| 亚洲熟妇av日韩熟妇在线| 嫩呦国产一区二区三区av| 国产亚洲视频在线| www.国产com| 成人av在线资源网站| 日本xxx免费| 久久久加勒比| 尤物精品国产第一福利三区 | 在线观看三级视频欧美| 亚洲av无码一区二区三区观看| 888久久久| 国产啪精品视频| 97电影在线看视频| 欧洲精品在线观看| 99久久久久久久久久| 激情欧美丁香| 国产传媒一区二区三区| 国产三级在线播放| 欧美日韩精品综合在线| 国产一二三四区在线| 老鸭窝毛片一区二区三区| 精品国产福利| 岛国av在线网站| 亚洲成人激情在线| 九九九国产视频| 成人深夜福利app| 女人被男人躁得好爽免费视频| 麻豆国产一区| 欧美精品手机在线| 亚洲欧美另类一区| 午夜天堂影视香蕉久久| av网页在线观看| 美女黄网久久| 色狠狠久久av五月综合|| 国产精品久久亚洲不卡| 中文字幕欧美精品日韩中文字幕| 国产一卡二卡三卡| 中文字幕在线不卡一区| 免费看涩涩视频| 999国产精品永久免费视频app| 成人黄色影片在线| 羞羞网站在线看| 精品国产乱码久久久久久图片| 国产亚洲精品久久777777| 国产成人丝袜美腿| 草草久久久无码国产专区| 九色成人国产蝌蚪91| 国产精品99导航| 黄网页在线观看| 欧美变态凌虐bdsm| 国产情侣自拍av| 久久综合色天天久久综合图片| 蜜臀久久99精品久久久酒店新书 | 欧美日韩999| 欧美 日韩 人妻 高清 中文| 动漫精品一区二区| 公肉吊粗大爽色翁浪妇视频| 久久精品国产999大香线蕉| 91麻豆天美传媒在线| 粉嫩一区二区三区四区公司1| 97精品久久久| 婷婷在线视频观看| 精品国精品国产| 国产精品熟女视频| 一区二区三区日韩欧美| 国产精品亚洲无码| 精品亚洲国产成人av制服丝袜| 成人av在线播放观看| 国产成人影院| 999日本视频| 欧洲亚洲两性| 欧美多人乱p欧美4p久久| 日本一本草久在线中文| 7777精品伊人久久久大香线蕉经典版下载 | 精品久久人妻av中文字幕| 欧美日韩激情视频| 黄色a级片在线观看| 91亚洲国产成人精品一区二三 | 国产亚洲精品久久| www.日韩高清| 欧美视频一区二区在线观看| 久久视频免费看| 国产精品人妖ts系列视频| 北京富婆泄欲对白| 狠狠v欧美v日韩v亚洲ⅴ| 成人av一级片| 国产精品分类| 这里只有精品66| 欧美交a欧美精品喷水| 91免费在线视频网站| 日韩欧美看国产| 久久久亚洲影院| 国产成人午夜| 伊人一区二区三区久久精品| 婷婷在线观看视频| 日韩一区二区电影网| 中文字幕1区2区3区| 福利一区福利二区微拍刺激| 欧美成人免费看| 中文字幕色av一区二区三区| 色欲av无码一区二区三区| 成人夜色视频网站在线观看| 青青草原播放器| 乱一区二区av| av网站在线不卡| 日精品一区二区三区| 日本免费不卡一区二区| 欧美日韩网址| 警花观音坐莲激情销魂小说| 日韩av密桃| 日韩国产高清一区| 一本久久青青| 免费在线成人av| 欧美大胆a级| 国产精品美女诱惑| 大奶在线精品| 国产精品裸体一区二区三区| 99精品中文字幕在线不卡| 亚洲va久久久噜噜噜久久天堂| 日本午夜精品久久久久| 国产精品日本精品| 成人涩涩视频| 国产精品天天狠天天看| 电影一区电影二区| 国产精品成人aaaaa网站| 都市激情综合| 国产精品高潮在线| 日本肉肉一区| 国产伦精品一区二区三区精品视频| www.一区| 成人精品久久一区二区三区| 亚洲青青久久| 91传媒在线免费观看| 亚洲高清在线一区| 成人在线免费观看一区| 国产精品香蕉| 欧美日韩在线观看一区二区三区| 国内黄色精品| 手机在线视频你懂的| 欧美不卡一区| 999在线观看视频| 久久狠狠婷婷| 日韩不卡一二三| 国产精品自在在线| 亚洲一区二区三区四区av| 91在线视频观看| 中文字幕伦理片| 一区二区三区在线视频免费| 日产亚洲一区二区三区| 色美美综合视频| 一区二区 亚洲| 精品美女一区二区| 欧美女同网站| www.色综合| 日韩精品分区| 国产精品91在线观看| 疯狂欧洲av久久成人av电影| 99r国产精品视频| 色老板在线视频一区二区| 午夜精品亚洲一区二区三区嫩草| 午夜视频精品| 欧美少妇性生活视频| 国产一区二区成人久久免费影院 | 1区2区3区国产精品| 国产亚洲精品成人| 在线观看视频一区二区欧美日韩| 精品国产av 无码一区二区三区| 亚洲国产天堂网精品网站| 国产福利在线| 欧美激情精品久久久久久变态| 中文字幕在线直播| 亚洲伊人一本大道中文字幕| 奇米影视777在线欧美电影观看| 亚洲国产精品123| 亚洲精选国产| 青青草原国产在线视频| 91影院在线免费观看| 国产少妇在线观看| 在线观看91视频| 亚洲国产精品久久久久爰性色| 亚洲午夜未删减在线观看 | 欧美日韩天堂| 久久久久久蜜桃一区二区| 成人免费视频app| 久久成人小视频| 欧美日韩在线一区| 国产黄a三级三级看三级| 亚洲图中文字幕| 91超碰在线播放| 成人在线视频福利| 精品久久久久久久久久久下田| av网站大全免费| 国产伦精品一区二区三区在线观看| japanese中文字幕| 五月婷婷另类国产| 99久久久久久久| 色婷婷**av毛片一区| 国产精欧美一区二区三区蓝颜男同| av一区二区在线看| 天天综合精品| 欧美男女交配视频| 久久精品视频在线看| 中文字幕亚洲精品在线| 精品电影一区二区| 日本在线视频中文有码| 91精品久久久久久久久久久久久久| 天天躁日日躁成人字幕aⅴ| 东北少妇不带套对白| 国产精品综合二区| 欧美老熟妇一区二区三区| 欧美日韩激情一区二区三区| 久久精品国产亚洲a∨麻豆| 91精品国产91| 国产丝袜一区| 国产欧美日韩网站| 国产69精品一区二区亚洲孕妇| 免费高清在线观看电视| 91精品国产综合久久久久| 欧美日本一道| 成人亲热视频网站| 国产高清久久| 亚洲一区二区在线视频观看| 中文字幕一区二区三区不卡在线| 涩涩视频在线观看| 中文字幕国产精品| 国产成+人+综合+亚洲欧美| 日韩免费中文专区| 另类成人小视频在线| 亚洲欧美卡通动漫| 欧美巨大另类极品videosbest | 6080国产精品| 亚洲男人的天堂一区二区| 99热精品在线播放| 欧美激情视频给我| 精品福利一区| 六月丁香婷婷激情| 久久女同精品一区二区| 波多野结衣一本一道| 在线播放国产一区二区三区| 九七电影院97理论片久久tvb| 伊人狠狠色丁香综合尤物| 国产在线国偷精品免费看| 欧美三根一起进三p| 亚洲成人在线网| 欧美91看片特黄aaaa| 亚洲欧洲国产日韩精品| 国产一区二区三区精品欧美日韩一区二区三区 | 久久综合桃花网| 亚洲成人久久影院| 日本福利在线观看| 国产精品免费一区| 亚洲一区二区日韩| 最新版天堂资源在线| 一本色道a无线码一区v| 免费人成在线观看播放视频| 99在线观看| 久久九九99| 国产精品丝袜一区二区| 亚洲国产精品久久久| 日韩伦理精品| 欧美亚洲视频一区| 99精品国产热久久91蜜凸| 中文字幕永久在线| 欧美成人性色生活仑片| 一本色道久久综合狠狠躁的番外| www.超碰97.com| 激情亚洲一区二区三区四区 | 日韩av自拍| 在线播放第一页| 欧日韩精品视频| 日本色护士高潮视频在线观看 | 朝桐光av一区二区三区| 在线影院国内精品| 污污的网站在线免费观看| 免费试看一区| 国产成人精品1024| 日韩xxx视频| 欧美一级片在线播放| 中文字幕免费精品| 亚洲v国产v欧美v久久久久久| 日韩精品一区二区三区视频播放|