精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

T2I進(jìn)入“思維鏈”時代!港中文等發(fā)布史詩級600萬數(shù)據(jù)集:128張A100歷時4個月構(gòu)建完成!

發(fā)布于 2025-9-15 09:20
瀏覽
0收藏

T2I進(jìn)入“思維鏈”時代!港中文等發(fā)布史詩級600萬數(shù)據(jù)集:128張A100歷時4個月構(gòu)建完成!-AI.x社區(qū)

論文鏈接:??https://arxiv.org/pdf/2509.09680??

模型鏈接:??https://github.com/rongyaofang/prism-bench??

Dataset鏈接:??https://huggingface.co/datasets/LucasFang/FLUX-Reason-6M??

?Git 鏈接:???https://flux-reason-6m.github.io/??

亮點(diǎn)直擊

  • FLUX-Reason-6M:一個里程碑式的數(shù)據(jù)集。首個專為推理設(shè)計(jì)的 600 萬規(guī)模 T2I 數(shù)據(jù)集,包含 2000 萬條雙語描述,首創(chuàng)的生成式“思維鏈”提示。該數(shù)據(jù)集使用 128 張 A100 顯卡,歷時 4 個月構(gòu)建,旨在成為下一代 T2I 模型基礎(chǔ)數(shù)據(jù)集。
  • PRISM-Bench:全新的評估標(biāo)準(zhǔn)。建立了一個包含七個子任務(wù)的綜合性基準(zhǔn)測試,采用 GPT-4.1 和 Qwen2.5-VL-72B 進(jìn)行細(xì)致且穩(wěn)健的評估。
  • 來自大規(guī)模基準(zhǔn)測試的可操作洞察。對主流模型進(jìn)行了廣泛且嚴(yán)格的評估,揭示了不同模型之間的差距與潛在的改進(jìn)方向,為未來研究提供了清晰的路線圖。推動 T2I 革命的普惠化

T2I進(jìn)入“思維鏈”時代!港中文等發(fā)布史詩級600萬數(shù)據(jù)集:128張A100歷時4個月構(gòu)建完成!-AI.x社區(qū)

圖 1:使用所提出的 PRISM-Bench 評估最先進(jìn)的文本到圖像模型

總結(jié)速覽

解決的問題

開源文本生成圖像(T2I)模型在發(fā)展過程中面臨以下關(guān)鍵問題:

  • 缺乏大規(guī)模、以推理為核心的數(shù)據(jù)集,難以訓(xùn)練具備復(fù)雜推理能力的生成模型;
  • 缺乏全面、系統(tǒng)的評估基準(zhǔn),難以準(zhǔn)確衡量模型在真實(shí)應(yīng)用中的表現(xiàn);
  • 與閉源系統(tǒng)相比,性能存在顯著差距,限制了開源模型的實(shí)際應(yīng)用與研究發(fā)展。

提出的方案

為解決上述問題,作者提出了兩個核心方案:

  1. FLUX-Reason-6M 數(shù)據(jù)集
  • 包含600 萬張高質(zhì)量圖像2000 萬條中英文雙語描述
  • 以六大圖像特征(想象力、實(shí)體、文字渲染、風(fēng)格、情感、構(gòu)圖)進(jìn)行組織;
  • 引入生成式思維鏈(GCoT),用于模擬復(fù)雜圖像生成過程中的推理步驟。
  1. PRISM-Bench 評估基準(zhǔn)
  • 包含7 個子任務(wù),覆蓋文本對齊、圖像美學(xué)、長文本生成等多個維度;
  • 使用先進(jìn)的視覺-語言模型(如 GPT-4.1 和 Qwen2.5-VL-72B)進(jìn)行評估;
  • 設(shè)計(jì)精細(xì)提示詞,強(qiáng)調(diào)人類對齊的評估標(biāo)準(zhǔn)

應(yīng)用的技術(shù)

  • 生成鏈?zhǔn)剿季S(GCoT)設(shè)計(jì):將圖像生成過程拆解為可解釋的推理步驟,提升模型的推理能力與可控性;
  • 大規(guī)模數(shù)據(jù)生成與處理:使用 128 張 A100 GPU,耗時 4 個月,完成 15,000 GPU 天的數(shù)據(jù)構(gòu)建;
  • 多語言支持:提供中英文雙語描述,增強(qiáng)模型的跨語言泛化能力;
  • 自動化評估系統(tǒng):基于 GPT-4.1 和 Qwen2.5-VL-72B 的視覺-語言模型,進(jìn)行細(xì)粒度、穩(wěn)健的模型評測;
  • 廣泛模型測試:對 19 個主流模型進(jìn)行統(tǒng)一評估,確保結(jié)果具備代表性和實(shí)用性。

達(dá)到的效果

  • 構(gòu)建了首個專為推理設(shè)計(jì)的 T2I 數(shù)據(jù)集,為模型學(xué)習(xí)復(fù)雜生成邏輯提供了堅(jiān)實(shí)基礎(chǔ);
  • 建立了系統(tǒng)性、多維度的評估標(biāo)準(zhǔn),填補(bǔ)了開源模型評估的空白;
  • 揭示了主流模型在推理生成中的性能差距與改進(jìn)方向,為后續(xù)研究提供了明確路徑;
  • 推動了 T2I 研究范式轉(zhuǎn)變,為構(gòu)建更智能、更具語義理解與表達(dá)能力的圖像生成系統(tǒng)奠定基礎(chǔ)。

FLUX-Reason-6M 數(shù)據(jù)集

現(xiàn)有開源的文本生成圖像(T2I)數(shù)據(jù)集的核心限制在于,它們?nèi)狈τ糜诮淌谀P蛷?fù)雜推理的結(jié)構(gòu)化信號。它們通常是平鋪直敘的圖像-文本對集合,僅描述圖像中包含的內(nèi)容,而非圖像為何以特定方式構(gòu)圖。近期的 GoT 工作提供了一個包含 900 萬樣本的數(shù)據(jù)集,但該數(shù)據(jù)集主要由現(xiàn)有資源(如 Laion-Aesthetics、JourneyDB)拼接而成,導(dǎo)致圖像內(nèi)容與風(fēng)格分布不一致,質(zhì)量參差不齊。這些問題源于不同源數(shù)據(jù)集之間采集與標(biāo)注協(xié)議的差異。為了解決這一問題,本文設(shè)計(jì)了 FLUX-Reason-6M 數(shù)據(jù)集,其目標(biāo)不僅是收集高質(zhì)量圖像,更是構(gòu)建一個系統(tǒng)化、原則性強(qiáng)的框架,用于學(xué)習(xí) T2I 推理的基本規(guī)則。整體數(shù)據(jù)整理流程如下圖 3 所示。

T2I進(jìn)入“思維鏈”時代!港中文等發(fā)布史詩級600萬數(shù)據(jù)集:128張A100歷時4個月構(gòu)建完成!-AI.x社區(qū)

架構(gòu)設(shè)計(jì):六大特征與生成思維鏈

多維框架設(shè)計(jì) 

FLUX-Reason-6M 的核心在于其多維度的架構(gòu)設(shè)計(jì)。本文識別并定義了六個對現(xiàn)代 T2I 模型至關(guān)重要的關(guān)鍵特征。這些特征并非互斥,而是有意設(shè)計(jì)為相互重疊,以反映復(fù)雜場景合成的多面性,從而為模型提供更豐富、更穩(wěn)健的訓(xùn)練信號。六大核心推理特征包括:

  • 想象力:該類別包含代表超現(xiàn)實(shí)、幻想或抽象概念的圖像與描述。提示詞描繪違反現(xiàn)實(shí)物理規(guī)律或?qū)⒉煌拍钚路f組合的場景(例如:“一個由玻璃構(gòu)成的城市,光之河在其中流淌”)。生成圖像展示了富有創(chuàng)造力的合成,為模型提供超越字面理解的數(shù)據(jù)。
  • 實(shí)體:聚焦于基于知識的精確描繪,包含圖像-文本對,強(qiáng)調(diào)對現(xiàn)實(shí)世界中具體物體、生物或命名實(shí)體的準(zhǔn)確細(xì)致生成。該類別中的描述通常包含豐富的屬性信息(例如:“梅西在世界杯決賽中帶球突破防守”),為模型提供高保真、知識感知的生成訓(xùn)練數(shù)據(jù)。
  • 文字渲染:為解決生成模型中的已知弱點(diǎn),該類別包含成功且清晰地融合英文文本的圖像。對應(yīng)描述中明確指示文本的內(nèi)容、風(fēng)格與在圖像中的位置(例如:“一個霓虹燈牌,上面寫著 ‘FLUX-Reason-6M’”)。這為模型在排版控制方面提供了直接、干凈的數(shù)據(jù)支持。
  • 風(fēng)格:該特征匯集了大量多樣的藝術(shù)與攝影風(fēng)格。描述中明確提及特定的藝術(shù)流派(如立體主義、印象派)、視覺技術(shù)(如長曝光、魚眼鏡頭)甚至著名藝術(shù)家的美學(xué)風(fēng)格。圖像作為這些風(fēng)格成功應(yīng)用的高質(zhì)量示例。
  • 情感:該類別包含旨在將抽象情感概念與具體視覺表現(xiàn)相連接的圖像-文本對。描述使用喚起情感的語言來描繪一種情緒、感覺或氛圍(例如:“一種寧靜孤獨(dú)的感覺”,“一個混亂而充滿歡樂的集市場景”)。對應(yīng)圖像將這些無形的概念轉(zhuǎn)化為視覺線索,如色彩搭配、光照效果以及主體表情。
  • 構(gòu)圖:該類別聚焦于場景中物體的精確排列與交互。描述中使用明確的構(gòu)圖語言,包括介詞(例如:under,behind,next to)和相對位置表達(dá)。圖像則清晰展示了這些復(fù)雜空間指令如何被正確執(zhí)行。

本文數(shù)據(jù)集的一大亮點(diǎn)是其多標(biāo)簽設(shè)計(jì)。例如,“埃菲爾鐵塔以梵高《星夜》的風(fēng)格呈現(xiàn)”這張圖像會同時被歸類為實(shí)體(準(zhǔn)確描繪地標(biāo))和風(fēng)格(模仿藝術(shù)家風(fēng)格)。這種有意的重疊設(shè)計(jì)確保模型能夠?qū)W習(xí)融合不同類型的推理方式,就如同一位人類藝術(shù)家那樣。

生成思維鏈 

本數(shù)據(jù)集的核心是生成思維鏈(GCoT)的整合。標(biāo)準(zhǔn)的圖像描述僅描述圖像內(nèi)容,而 GCoT 描述則闡明圖像是如何以及為何被構(gòu)建出來的。如下圖 2 所示,這種詳細(xì)的逐步推理鏈條解構(gòu)了最終圖像的語義與構(gòu)圖邏輯,為訓(xùn)練提供了強(qiáng)有力的中間監(jiān)督信號。通過學(xué)習(xí)這些顯式的推理路徑,模型不僅可以建立詞匯與像素之間的關(guān)聯(lián),還能理解構(gòu)成復(fù)雜圖像的底層結(jié)構(gòu)與藝術(shù)選擇。以 GCoT 原則為中心的這一結(jié)構(gòu)化多維框架,構(gòu)成了整個 FLUX-Reason-6M 數(shù)據(jù)集的概念基礎(chǔ)。

T2I進(jìn)入“思維鏈”時代!港中文等發(fā)布史詩級600萬數(shù)據(jù)集:128張A100歷時4個月構(gòu)建完成!-AI.x社區(qū)

構(gòu)建高質(zhì)量視覺基礎(chǔ)

本文目標(biāo)是建立一個高質(zhì)量的視覺基礎(chǔ),以避免網(wǎng)頁抓取數(shù)據(jù)中圖像質(zhì)量參差不齊的問題。近期的生成模型已展現(xiàn)出生成高質(zhì)量圖像的能力。因此,本文選擇了功能強(qiáng)大的 FLUX.1-dev 作為合成引擎,利用其先進(jìn)能力生成細(xì)節(jié)精致、審美一致的圖像。本文結(jié)合視覺-語言模型與圖像,對 Laion-Aesthetics 數(shù)據(jù)集中的描述進(jìn)行重寫,從而生成高質(zhì)量的描述,提供廣泛而多樣的生成起點(diǎn)。

然而,這一策略導(dǎo)致數(shù)據(jù)集中兩個特征嚴(yán)重不足:想象力(Imagination) 與 文字渲染(Text rendering)。為糾正這一偏差并確保數(shù)據(jù)集的平衡與全面性,本文實(shí)施了如下增強(qiáng)策略:

漸進(jìn)式想象力培養(yǎng) 

對于“想象力”類別,如日常生活中罕見場景,啟動了一個漸進(jìn)式生成流程,以產(chǎn)出極具創(chuàng)造性與新穎性的描述。首先,使用 Gemini-2.5-Pro 生成一組多樣化的 200 個高概念、富有想象力的初始提示詞。在第二階段,采用創(chuàng)造性擴(kuò)展技術(shù):隨機(jī)抽取其中 10 個提示詞,并將其作為上下文示例輸入 Qwen3-32B。為最大化創(chuàng)造性輸出并鼓勵新穎聯(lián)想,提高了模型的溫度參數(shù)。該過程產(chǎn)出了大量極具創(chuàng)意的描述,推動了生成可能性的邊界。通過 FLUX.1-dev 渲染后,這些描述為本文的數(shù)據(jù)集注入了超現(xiàn)實(shí)與幻想的視覺圖像。文本渲染的數(shù)據(jù)挖掘-生成-合成流程 

為了解決文本渲染數(shù)據(jù)的稀缺問題,本文開發(fā)了一個三階段流程,用于采集并再生成高質(zhì)量的文本數(shù)據(jù)。

首先,使用強(qiáng)大的 Qwen2.5-VL-32B 系統(tǒng)性地挖掘 Laion-2B 數(shù)據(jù)集,識別出包含清晰可辨文字的圖像。

其次,對于每一張經(jīng)過驗(yàn)證的富文本圖像,再次利用 Qwen-VL 的描述能力,生成高保真度的新描述。這些描述被精心設(shè)計(jì),用于精確描述圖像中的文本內(nèi)容、視覺呈現(xiàn)方式以及上下文關(guān)系。

最后,這些以文本為中心的描述被輸入到 FLUX.1-dev 中。最終的合成步驟生成了高質(zhì)量圖像,其中渲染的文本與精煉后的描述直接對應(yīng),形成了文本渲染類別的高質(zhì)量訓(xùn)練語料。

這種結(jié)合高質(zhì)量基礎(chǔ)與針對性增強(qiáng)策略的全面合成工作,最終產(chǎn)出了一個包含 800 萬張圖像的龐大圖集。該集合為后續(xù)的篩選、多維分類與密集標(biāo)注流程提供了優(yōu)質(zhì)原材料,確保最終的 FLUX-Reason-6M 數(shù)據(jù)集中的每一張圖像都符合嚴(yán)格的質(zhì)量與語義相關(guān)性標(biāo)準(zhǔn)。

基于視覺語言模型的質(zhì)量篩選與多維評分

為了將最初合成的 800 萬張圖像轉(zhuǎn)化為精心策劃的資源,本文設(shè)計(jì)并執(zhí)行了一個多階段、基于視覺語言模型(VLM)的流程,用于系統(tǒng)性地篩選、分類與驗(yàn)證每一張圖像。該流程確保 FLUX-Reason-6M 中的所有數(shù)據(jù)都具備卓越的視覺質(zhì)量與精確的類別相關(guān)性。

基礎(chǔ)質(zhì)量篩選 

第一階段聚焦于圖像的視覺完整性。本文使用 Qwen-VL 作為自動化質(zhì)量檢測器,其任務(wù)是分析每張圖像的基本清晰度與結(jié)構(gòu)一致性。該步驟識別并剔除了存在以下問題的圖像樣本:過度模糊、干擾性噪聲,或在物體與人物結(jié)構(gòu)上存在顯著失真的圖像。通過清除這些低質(zhì)量樣本,本文為后續(xù)更復(fù)雜的標(biāo)注與篩選階段建立了一個具備審美與結(jié)構(gòu)完整性的圖像基礎(chǔ)。

穩(wěn)健的多維分類 

下一個關(guān)鍵步驟是將數(shù)據(jù)集組織為多維結(jié)構(gòu)。本文利用 Qwen-VL 對每張已篩選圖像按照六個預(yù)定義特征進(jìn)行評估:Imagination、Entity、Text rendering、Style、Affection 和 Composition。

本文并未采用簡單的二元分類,而是引入量化評分系統(tǒng),由模型為每個特征分配一個從 1 到 10 的相關(guān)性評分。本文為每個特征精心設(shè)定了校準(zhǔn)閾值,最終確定圖像的類別。該系統(tǒng)專為多標(biāo)簽分類設(shè)計(jì),能夠準(zhǔn)確識別一張圖像同時屬于多個特征(例如 Entity 和 Style)的情況。

文本渲染的字體質(zhì)量篩選 

本文發(fā)現(xiàn),即使是高質(zhì)量的生成模型也可能產(chǎn)生難以辨認(rèn)或語境錯誤的文本。考慮到字體生成的獨(dú)特挑戰(zhàn),為 Text rendering 類別專門引入了一個特化的篩選階段。為了確保數(shù)據(jù)集為這一困難任務(wù)提供清晰可靠的信號,本文再次使用 Qwen-VL 作為嚴(yán)格的字體質(zhì)量檢測器。它會對被標(biāo)記為 Text rendering 的圖像進(jìn)行詳細(xì)掃描,并剔除所有包含低對比度、扭曲或無意義文本的實(shí)例。此關(guān)鍵步驟確保了該特征下數(shù)據(jù)的最高保真度。

在最初的 800 萬候選圖像中,約有 600 萬張圖像通過了嚴(yán)格的質(zhì)量與相關(guān)性標(biāo)準(zhǔn)。這些圖像已通過質(zhì)量驗(yàn)證,并被標(biāo)注上與本文六個特征直接對應(yīng)的豐富標(biāo)簽,為最終的高密度標(biāo)注階段做好準(zhǔn)備。

基于視覺語言模型的密集描述與推理框架構(gòu)建

在建立起高質(zhì)量分類圖像基礎(chǔ)之后,接下來的關(guān)鍵階段是生成豐富的多維描述,并構(gòu)建生成式思維鏈(generation chain-of-thoughts),在數(shù)據(jù)集中嵌入推理的種子。

這一過程代表了從傳統(tǒng)描述范式的轉(zhuǎn)變,超越了簡單的描述性文本,構(gòu)建出一個結(jié)構(gòu)化且具備推理意識的標(biāo)注框架,明確引導(dǎo)模型如何分解并理解復(fù)雜的視覺場景。

特定類別的密集描述

本文的標(biāo)注策略核心在于利用視覺語言模型(如 Qwen-VL)先進(jìn)的多模態(tài)推理能力,為每張圖像生成高度針對性的、特定類別的描述。不同于傳統(tǒng)方法生成通用描述,本文的方法生成詳盡的描述,強(qiáng)調(diào)圖像所體現(xiàn)的特定特征。

例如,在處理屬于 Entity 類別的圖像時,Qwen-VL 被指示生成以準(zhǔn)確識別和詳細(xì)描述場景中具體物體、地標(biāo)或人物為優(yōu)先的描述。相反,對于 Style 類別的圖像,生成的描述則強(qiáng)調(diào)藝術(shù)技法、視覺美學(xué)和定義藝術(shù)風(fēng)格的元素。

這種類別感知的描述生成確保每條標(biāo)注都作為有針對性的訓(xùn)練信號,教會模型識別并表達(dá)不同類別視覺內(nèi)容所需的具體類型。由于每張圖像可能被分配到多個類別,該過程最終形成一組豐富的并行描述,每條描述都提供理解圖像內(nèi)容與結(jié)構(gòu)的獨(dú)特視角。由此產(chǎn)生的標(biāo)注密度遠(yuǎn)超傳統(tǒng)數(shù)據(jù)集。

生成思維鏈合成 

本文標(biāo)注流程的核心步驟是結(jié)合生成思維鏈(GCoT),這是 FLUX-Reason-6M 的主要貢獻(xiàn)與關(guān)鍵特征。

為了構(gòu)建這些推理過程,本文采用一種有意的融合策略:將圖像及其所有類別特定描述作為完整上下文輸入 Qwen-VL。該全面輸入使模型能夠合成詳細(xì)的逐步推理鏈,不僅澄清圖像中存在的元素,還揭示這些元素如何相互作用、特定布局為何存在,以及控制場景構(gòu)圖的構(gòu)圖與語義原則。

最終生成的 GCoT 描述是密集、詳細(xì)的敘述性文本,作為顯式的推理模板。它們逐層解構(gòu)圖像的邏輯,解釋空間關(guān)系、藝術(shù)選擇、色彩協(xié)調(diào)、情感基調(diào)與構(gòu)圖平衡。相比傳統(tǒng)描述,這些描述為模型提供了前所未有的洞察力,幫助其理解復(fù)雜圖像合成背后的創(chuàng)意與邏輯過程。

可泛化的原始描述整合與大規(guī)模雙語發(fā)布

原始描述整合 

為了拓展超出本文精心設(shè)計(jì)的推理信號的泛化能力,本文在 Laion-Aesthetics 中重新整合那些能可靠描述 FLUX.1-dev 合成圖像的高質(zhì)量原始描述。具體而言,本文使用 Qwen-VL 作為對齊評估器,對每條原始 Laion 描述與其配對的 FLUX 圖像之間的語義對應(yīng)關(guān)系進(jìn)行評分。得分超過校準(zhǔn)閾值的描述將被保留作為額外監(jiān)督信號,從而確保涵蓋多樣的自然語言表達(dá),同時避免圖文偏離。在整合原始描述、特定類別描述和 GCoT 標(biāo)注后,語料庫總計(jì)包含 2000 萬條獨(dú)特描述。

全面的雙語翻譯 

為了讓這一強(qiáng)大資源更易獲取,并促進(jìn)國際合作,本文對整個描述語料庫進(jìn)行了全面的中文翻譯。利用 Qwen 的先進(jìn)翻譯能力,所有原始描述、特定類別描述與 GCoT 描述均被翻譯。然而,對于 Text rendering 類別,本文實(shí)施了一項(xiàng)關(guān)鍵的內(nèi)容保留策略。為了保持任務(wù)的語義完整性,圖像中用于渲染的特定英文文本在翻譯后的描述中保持原樣。例如,一個提示為“a sign that reads ‘FLUX-Reason-6M’”的請求會被翻譯,但短語 “FLUX-Reason-6M” 會保持英文形式。

這一雙語框架使 FLUX-Reason-6M 成為最大且最易獲取的雙語文本生成圖像(T2I)推理數(shù)據(jù)集之一,顯著拓展了其對全球研究人員的影響力與實(shí)用性。

下圖 4 展示了 FLUX-Reason-6M 數(shù)據(jù)集的統(tǒng)計(jì)特征,包括原始提示來源的比例(左)、每種描述類型的數(shù)量與百分比(中)。本文還統(tǒng)計(jì)了七個英文描述類別的詞數(shù)分布,并在圖 4 右側(cè)進(jìn)行了可視化。

T2I進(jìn)入“思維鏈”時代!港中文等發(fā)布史詩級600萬數(shù)據(jù)集:128張A100歷時4個月構(gòu)建完成!-AI.x社區(qū)

PRISM-Bench

為了解決文本生成圖像(T2I)合成中關(guān)鍵的評估缺口,本文提出了 PRISM-Bench。現(xiàn)有基準(zhǔn)測試通常缺乏細(xì)粒度,無法區(qū)分最先進(jìn)模型,僅依賴粗略指標(biāo)或定義狹窄的任務(wù)。PRISM-Bench 克服了這些限制,提供了一個多維度、細(xì)粒度的評估框架。

它包含七個不同的子任務(wù),每個子任務(wù)包含 100 條精心挑選的提示,旨在探索 T2I 模型的能力邊界。這些子任務(wù)直接對應(yīng)于本文數(shù)據(jù)集的六個特征:Imagination、Entity、Style、Text rendering、Composition 和 Affection,以及一個由 GCoT 提示構(gòu)建的具有挑戰(zhàn)性的 Long Text 任務(wù)。下圖 5 展示了本文 PRISM-Bench 的概覽。

T2I進(jìn)入“思維鏈”時代!港中文等發(fā)布史詩級600萬數(shù)據(jù)集:128張A100歷時4個月構(gòu)建完成!-AI.x社區(qū)

提示設(shè)計(jì)與構(gòu)建

每個子任務(wù)的 100 條提示被分為兩組,每組 50 條,用于衡量模型性能的不同方面。第一組提示系統(tǒng)性地從 FLUX-Reason-6M 數(shù)據(jù)集中采樣,以確保廣泛的代表性;第二組提示則經(jīng)過精心策劃,用于針對每個特征的特定挑戰(zhàn)性方面。

代表性提示采樣 

對于每個子任務(wù),有 50 條提示直接來自 FLUX-Reason-6M 數(shù)據(jù)集。為了避免選擇偏差并確保覆蓋范圍廣泛,本文不采用簡單的隨機(jī)采樣,而是使用語義聚類與分層采樣的方法。具體而言,對于每個類別(例如 Entity),本文從 FLUX-Reason-6M 數(shù)據(jù)集中收集數(shù)據(jù)集中評分最高的前 10,000 條提示。然后本文使用 K-Means 算法將這些提示劃分為k=50個不同的語義聚類。每個聚類代表該類別中的一個獨(dú)特概念主題。本文從每個聚類中選擇最接近聚類中心(即該組的數(shù)學(xué)中心)的提示,并將其從數(shù)據(jù)集中移除。該提示被視為該語義主題中最具代表性的樣本。

這種方法保證了概念的多樣性。它不會對常見主題進(jìn)行過度采樣,而是確保這 50 條提示涵蓋了數(shù)據(jù)集中該類別所代表的所有概念。

類別特定提示構(gòu)建 

每個子任務(wù)的另外 50 條提示來自本文的精心策劃。具體如下:

  • 想象力:本文首先將想象類概念劃分為多個主要類別,例如物理不可能性和超現(xiàn)實(shí)敘事。然后本文使用 LLM(Gemini2.5-Pro)從一個或多個類別中隨機(jī)選擇元素,以生成相應(yīng)的提示。
  • 實(shí)體:本文整理了不同類別實(shí)體的列表:著名地標(biāo)、特定動植物種類、歷史人物和品牌物品。然后本文利用 LLM 隨機(jī)選擇一到三個實(shí)體,生成相應(yīng)提示。
  • 文本渲染:本文設(shè)計(jì)了不同長度的文本內(nèi)容(例如:“FLUX-Reason-6M”、“Welcome to the future ... ...”)、不同字體風(fēng)格(例如手寫體、涂鴉噴漆),以及不同的表面與位置(例如在木質(zhì)標(biāo)牌上、在 T 恤上)。通過 LLM 系統(tǒng)性地組合這三類元素,生成相應(yīng)提示。
  • 風(fēng)格:本文定義了四大風(fēng)格類別,包括藝術(shù)流派(例如印象派、立體主義)、媒介形式(例如油畫、水彩)、攝影技術(shù)(例如長曝光、微距攝影)以及數(shù)字/現(xiàn)代美學(xué)(例如像素藝術(shù)、蒸汽波)。這些類別總計(jì)包含 25 種詳細(xì)風(fēng)格,本文使用 LLM 為每種風(fēng)格生成 2 條提示.
  • 情感表達(dá):本文以 Plutchik 的情緒之輪作為基礎(chǔ)來源,選擇了不僅包括八種基本情緒(喜悅、信任、恐懼、驚訝、悲傷、厭惡、憤怒、期待),還包括它們的輕微和更強(qiáng)烈形式。本文要求 LLM 基于這些情緒生成相應(yīng)的提示。
  • 構(gòu)圖:本文構(gòu)建了多個屬性池,包括顏色、數(shù)量、尺寸、空間關(guān)系等。每次生成時,從每個屬性池中抽取若干屬性,并由 LLM 自由組合,生成包含多個對象及其多樣關(guān)系的提示。
  • 長文本:本文從 FLUX-Reason-6M 數(shù)據(jù)集中選取 50 張高質(zhì)量圖像及其所有對應(yīng)的描述文本,輸入至 Gemini2.5-Pro 進(jìn)行長文本擴(kuò)展,最終生成 50 條具有挑戰(zhàn)性的提示。

PRISM-Bench-ZH  本文使用 Gemini2.5-Pro 將英文提示翻譯成中文,從而構(gòu)建 PRISM-Bench-ZH。值得注意的是,在 Text rendering 子任務(wù)中,本文并未簡單地將所有文本翻譯為中文,而是根據(jù)中文語境進(jìn)行適配。例如,原文 “A bottle labeled ‘WHISTLEPIG’ featuring ‘SMOKED BARREL-AGED RYE’ sits alongside two clear whiskey glasses, showcasing a refined presentation of the spirit” 被翻譯為 “一個標(biāo)有‘茅臺’并寫著‘珍品醬香型白酒’的酒瓶,旁邊放著兩個透明的白酒杯,盡顯這款烈酒的精致典雅。”

人類參與優(yōu)化 

本文對所有生成的提示進(jìn)行審查,以確保其無歧義、語法正確且邏輯合理(即使是幻想性的),從而確保評估的公平性與挑戰(zhàn)性。最終,本文獲得了 700 條多樣、具有代表性、富有挑戰(zhàn)性且雙語的提示。

評估協(xié)議

為了確保對模型能力進(jìn)行穩(wěn)健且細(xì)致的評估,本文制定了一套全面的評估流程。本文的方法核心是利用 VLM 的高級認(rèn)知能力作為人類判斷的代理,從兩個關(guān)鍵維度對模型性能進(jìn)行細(xì)致分析:提示-圖像一致性(prompt-image alignment)與圖像美學(xué)(image aesthetics)。通過精心設(shè)計(jì)的提示,本文引導(dǎo) VLM 從不同視角對生成結(jié)果進(jìn)行評估。這種雙指標(biāo)方法提供了對每個模型優(yōu)劣勢的整體視圖。本文分別采用 GPT-4.1 和 Qwen2.5-VL-72B 作為閉源與開源 VLM 的代表進(jìn)行評估。

細(xì)粒度一致性評估 

本文方法的核心創(chuàng)新在于使用子任務(wù)特定的評估提示來評估一致性。本文認(rèn)識到,通用的 “圖像是否匹配提示?” 的問題不足以捕捉每個類別的具體挑戰(zhàn),因此本文為 VLM 設(shè)計(jì)了針對七個子任務(wù)重點(diǎn)的定制指令。這確保了評估不僅關(guān)注整體對應(yīng)關(guān)系,還關(guān)注提示所測試的具體任務(wù)是否成功完成。對于每一張生成圖像,VLM 會提供一句話的評價(jià)理由,并根據(jù)以下子任務(wù)特定標(biāo)準(zhǔn)打出 1(極差一致性)到 10(完美一致性)之間的分?jǐn)?shù):

  • 想象力:評估重點(diǎn)在于模型是否成功地合成了所描述的新穎或超現(xiàn)實(shí)概念,獎勵那些富有創(chuàng)意且連貫地詮釋想象性想法的結(jié)果。
  • 實(shí)體:一致性評分依據(jù)是對特定、具名的現(xiàn)實(shí)世界實(shí)體的準(zhǔn)確呈現(xiàn),包括其關(guān)鍵特征和上下文。
  • 想象力:評分標(biāo)準(zhǔn)嚴(yán)格,重點(diǎn)考察圖像中文字的可讀性、拼寫準(zhǔn)確性,以及指定文本在圖像中的精確位置。
  • 風(fēng)格:VLM 被指示評估生成圖像與明確請求的藝術(shù)或攝影風(fēng)格(例如,“印象派”、“長曝光”)的一致性,檢查是否具備該風(fēng)格的特征性技法。
  • 情感表達(dá):評估重點(diǎn)是圖像是否通過顏色、光照和主體表情等視覺線索有效傳達(dá)指定的情緒、情感或氛圍。
  • 構(gòu)圖:VLM 的提示強(qiáng)調(diào)驗(yàn)證物體的空間排列、相對位置(例如,“在左側(cè)”、“在后面”)、顏色表現(xiàn),以及圖文所要求的物體數(shù)量是否正確。
  • 長文本:對于這一具有挑戰(zhàn)性的子任務(wù),評估衡量模型是否能夠從復(fù)雜、多句的 GCoT 提示中吸收并體現(xiàn)出高密度的細(xì)節(jié)信息。 這種有針對性的方法能夠更精確且有意義地衡量模型在每一個不同類別中的能力。

統(tǒng)一美學(xué)評估 

不同于一致性指標(biāo),圖像美學(xué)的評估在所有七個子任務(wù)中使用一套統(tǒng)一的 VLM 指令。這是因?yàn)槊缹W(xué)質(zhì)量——涵蓋光照、色彩協(xié)調(diào)、細(xì)節(jié)以及整體視覺吸引力等因素——是一種與具體提示內(nèi)容無關(guān)的通用屬性。VLM 會為每張圖像提供一句話的評價(jià)理由,并打出一個美學(xué)評分,范圍從 1(極低質(zhì)量)到 10(專業(yè)質(zhì)量)。這一統(tǒng)一標(biāo)準(zhǔn)確保了對不同模型生成圖像的內(nèi)在視覺質(zhì)量的公平比較。

通過將該評估流程系統(tǒng)性地應(yīng)用于領(lǐng)先的閉源模型(例如 Gemini2.5-Flash-Image、GPT-Image-1)和開源模型(例如 Qwen-Image、FLUX.1-Krea-dev)所生成的英文圖像,以及適用于中文的模型(例如 SEEDream 3.0、Qwen-Image、Bagel)在 PRISM-Bench-ZH 上的圖像,本文收集了全面的評估結(jié)果。每個模型在每個子任務(wù)上的表現(xiàn),以該子任務(wù)對應(yīng)的 100 條提示的平均一致性評分和美學(xué)評分(映射為 0-100 范圍)表示。這兩個指標(biāo)的平均值代表模型在該子任務(wù)上的綜合表現(xiàn)。七個子任務(wù)的整體平均分代表模型的最終表現(xiàn),為當(dāng)前 T2I 生成技術(shù)的發(fā)展?fàn)顟B(tài)提供了清晰且可操作的概覽。

實(shí)驗(yàn)

本文在 PRISM-Bench 上評估了 19 個先進(jìn)的圖像生成模型,包括 Gemini2.5-Flash-Image、GPT-Image-1、Qwen-Image、SEEDream 3.0、FLUX 系列、HiDream 系列、Stable Diffusion 系列、Playground、Bagel 和 JanusPro。綜合結(jié)果如下表 1 和下表 2 所示。同時,本文還在 PRISM-Bench-ZH 上評估了多個支持中文的模型,包括 GPT-Image-1、Qwen-Image、SEEDream 3.0、HiDream 系列和 Bagel。評估結(jié)果匯總于下表 3 和下表 4。

T2I進(jìn)入“思維鏈”時代!港中文等發(fā)布史詩級600萬數(shù)據(jù)集:128張A100歷時4個月構(gòu)建完成!-AI.x社區(qū)

T2I進(jìn)入“思維鏈”時代!港中文等發(fā)布史詩級600萬數(shù)據(jù)集:128張A100歷時4個月構(gòu)建完成!-AI.x社區(qū)

T2I進(jìn)入“思維鏈”時代!港中文等發(fā)布史詩級600萬數(shù)據(jù)集:128張A100歷時4個月構(gòu)建完成!-AI.x社區(qū)

PRISM-Bench 上的結(jié)果與分析

整體表現(xiàn) 

如上表 1 和上表 2 所示,整體結(jié)果突顯了當(dāng)前最先進(jìn)閉源模型的優(yōu)勢。GPT-Image-1 取得了最高總分86.3 ,緊隨其后的是 Gemini2.5-Flash-Image,得分為85.3 。這些模型在幾乎所有評估子任務(wù)中都優(yōu)于其他模型。

在其余模型中,以 Qwen-Image 為代表的一個具有競爭力的梯隊(duì)正在形成。盡管與頂級模型之間仍存在明顯的性能差距,這些模型代表了開源社區(qū)的重大進(jìn)展。HiDream-I1-Full 和 FLUX.1-Krea-dev 也取得了優(yōu)異成績,表明該領(lǐng)域正在迅速發(fā)展。模型系列內(nèi)部的演進(jìn)同樣明顯,例如 SDXL 相較于 SD1.5 顯著提升,而更新的 SD3.5-Large 進(jìn)一步縮小了與頂級模型之間的差距。上表 2 中的 Qwen-VL 評估結(jié)果在很大程度上印證了這些排名。

想象力 

Gemini2.5-Flash-Image 以高分88.6  遙遙領(lǐng)先,GPT-Image-1 緊隨其后,得分為8604 。這表明領(lǐng)先的閉源模型具備更高級的創(chuàng)意解讀能力。Qwen-Image 的表現(xiàn)也令人印象深刻,而像 SD1.5 這樣的舊模型表現(xiàn)不佳,常常生成普通或失真圖像,未能捕捉提示中的想象力本質(zhì)。

實(shí)體 

GPT-Image-1 在該任務(wù)中表現(xiàn)出色,得分最高為88.2 ,展示了其強(qiáng)大的內(nèi)部知識庫和高保真渲染能力。Gemini2.5-Flash-Image 和 SEEDream 3.0 也有良好表現(xiàn)。該子任務(wù)對世界知識基礎(chǔ)較弱的模型構(gòu)成挑戰(zhàn),凸顯了大規(guī)模高質(zhì)量訓(xùn)練數(shù)據(jù)對于真實(shí)世界描繪的重要性。

文字渲染 

文字渲染仍是幾乎所有 T2I 模型面臨的一大挑戰(zhàn)。本文的基準(zhǔn)測試驗(yàn)證了這一點(diǎn),該類別在所有子任務(wù)中得分最低。值得注意的是,Bagel 和 JanusPro 等自回歸模型在此任務(wù)中表現(xiàn)較差,突顯了自回歸架構(gòu)在文字渲染任務(wù)中的固有局限性。

風(fēng)格 

GPT-Image-1 在該任務(wù)中表現(xiàn)出色,得分為93.1 。大多數(shù)現(xiàn)代模型在該任務(wù)中表現(xiàn)相對較好,能夠高度還原所請求的風(fēng)格。這些模型的高分表明,相較于文字渲染等任務(wù),捕捉風(fēng)格本質(zhì)的能力更加成熟。

情感表達(dá) 

頂級模型在捕捉情緒與氛圍方面展現(xiàn)出卓越能力。Gemini2.5-Flash-Image 以令人印象深刻的 92.1 分領(lǐng)先,GPT-Image-1 和 Qwen-Image 緊隨其后。值得注意的是,F(xiàn)LUX.1-dev 在該類別中取得了最高的美學(xué)評分,表明其生成的圖像在視覺上傳達(dá)情感方面特別有效,即使在提示一致性方面略低。

構(gòu)圖 

GPT-Image-1 以高分92.8  遙遙領(lǐng)先,充分展示了其解析并執(zhí)行復(fù)雜空間指令的能力。Gemini2.5-Flash-Image 緊隨其后,得分為90.5 。頂級開源模型在該領(lǐng)域具有很強(qiáng)的競爭力。Qwen-Image 的得分幾乎與 Gemini2.5-Flash-Image 相同,表明在復(fù)雜構(gòu)圖理解方面的差距正在縮小。HiDream-I1-Full 和 FLUX.1-dev 等模型也展現(xiàn)出強(qiáng)大的構(gòu)圖能力。頂級模型之間的微小差異表明,構(gòu)圖控制正在成為現(xiàn)代圖像生成系統(tǒng)中的一項(xiàng)成熟能力。

長文本 

評估結(jié)果清晰地區(qū)分了頂級模型。Gemini2.5-Flash-Image 以 81.1 的最高得分領(lǐng)先,GPT-Image-1 和 SEEDream 3.0 也表現(xiàn)相對較好。然而,與其他子任務(wù)相比,所有模型在該任務(wù)中的整體得分顯著偏低,表明在根據(jù)復(fù)雜、多層次提示生成高質(zhì)量圖像方面仍有巨大提升空間。下圖 6 展示了一個典型示例。這突顯了 FLUX-Reason-6M 所要解決的推理能力缺口問題。

T2I進(jìn)入“思維鏈”時代!港中文等發(fā)布史詩級600萬數(shù)據(jù)集:128張A100歷時4個月構(gòu)建完成!-AI.x社區(qū)

PRISM-Bench-ZH 的結(jié)果與分析

PRISM-Bench-ZH 的評估結(jié)果揭示了一個明確的性能層級,GPT-Image-1 以總分87.5 建立了其領(lǐng)先地位。它在大多數(shù)子任務(wù)中均處于領(lǐng)先地位,包括想象力、實(shí)體、風(fēng)格、情感表達(dá)和構(gòu)圖,展現(xiàn)了其在應(yīng)對中文提示時的卓越創(chuàng)意解讀、知識基礎(chǔ)和空間布局能力。同時,SEEDream 3.0 和 Qwen-Image 在所有子任務(wù)中表現(xiàn)出強(qiáng)勁的競爭力,常常接近或接近領(lǐng)先者的水平。尤其值得注意的是 SEEDream 3.0 和 Qwen-Image 在文字渲染方面的表現(xiàn),這與英文文本生成中普遍存在的弱點(diǎn)形成鮮明對比。

在這些模型中,SEEDream 3.0 與 GPT-Image-1 擁有最高的平均得分,其中 SEEDream 3.0 獲得了最高的美學(xué)評分,表明其具備渲染高質(zhì)量中文字符的能力。這些模型的強(qiáng)勁表現(xiàn)驗(yàn)證了基準(zhǔn)測試在中文文化適應(yīng)性提示設(shè)計(jì)上的合理性,并突顯了在中文排版處理方面的顯著進(jìn)步。下圖 7 展示了不同模型在中文文字渲染方面的示例。

T2I進(jìn)入“思維鏈”時代!港中文等發(fā)布史詩級600萬數(shù)據(jù)集:128張A100歷時4個月構(gòu)建完成!-AI.x社區(qū)

盡管如此,與 PRISM-Bench 的測試結(jié)果一致,長文本子任務(wù)仍然是所有模型面臨的最大挑戰(zhàn)。雖然 GPT-Image-1 再次在該類別中領(lǐng)先,但整體得分偏低,凸顯了理解和合成冗長、復(fù)雜中文指令的巨大障礙。這進(jìn)一步強(qiáng)調(diào)了像 FLUX-Reason-6M 這樣的推理導(dǎo)向數(shù)據(jù)集的迫切需求,以解決現(xiàn)有能力缺口,訓(xùn)練新一代真正智能的文本生成圖像模型。

結(jié)論

本研究通過兩個關(guān)鍵貢獻(xiàn)解決了文本生成圖像模型中的核心問題:FLUX-Reason-6M 數(shù)據(jù)集與 PRISM 基準(zhǔn)測試。FLUX-Reason-6M 是一個包含 600 萬張圖像、2000 萬條高質(zhì)量提示的大規(guī)模數(shù)據(jù)集,專為推理任務(wù)設(shè)計(jì),具備創(chuàng)新的“生成-思維鏈”結(jié)構(gòu),賦予模型跨越六大特征的圖像合成邏輯。為衡量進(jìn)展,本文開發(fā)了 PRISM-Bench,一個涵蓋七個子任務(wù)的全面基準(zhǔn)測試,利用先進(jìn)的多模態(tài)大模型(VLM)實(shí)現(xiàn)細(xì)粒度、貼近人類偏好的評估。

在 19 個模型上的廣泛實(shí)驗(yàn)表明,盡管領(lǐng)先的閉源系統(tǒng)展現(xiàn)出令人印象深刻的性能,所有模型在諸如文字渲染和長指令遵循等復(fù)雜任務(wù)上仍然存在困難,這進(jìn)一步凸顯了本文工作的必要性。通過公開發(fā)布該數(shù)據(jù)集、基準(zhǔn)測試和評估代碼,為社區(qū)提供了訓(xùn)練和評估下一代更智能、更強(qiáng)大文本生成圖像模型的關(guān)鍵工具。


本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/mJuZ7vgPYzIX-Dvs16ZI8Q??

標(biāo)簽
已于2025-9-15 10:07:02修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
亚洲综合免费观看高清完整版在线| 蜜臀99久久精品久久久久久软件| 日韩欧美卡一卡二| 91成人综合网| 牛牛影视精品影视| 老司机精品视频在线| 欧美精品少妇videofree| 手机在线成人av| 丁香婷婷久久| 午夜精品久久久久久| 偷拍视频一区二区| 黄色av网址在线| 久久精品国产精品亚洲精品| 97视频在线观看免费| 激情高潮到大叫狂喷水| 凹凸av导航大全精品| 色av综合在线| 国产免费一区二区视频| yiren22亚洲综合伊人22| 高清视频一区二区| 国产日韩欧美黄色| 97久久久久久久| 欧美在线影院| 在线激情影院一区| 可以直接看的无码av| 亚洲国产aⅴ精品一区二区| 日本韩国欧美在线| 久激情内射婷内射蜜桃| 久久精品视频观看| 国产亚洲欧美在线| 精品国产福利| 亚洲国产精品久久久久爰性色 | 国产乱色精品成人免费视频| 一区二区三区四区五区精品视频| 欧美老女人性视频| 可以免费看av的网址| 久久99蜜桃| 亚洲精品美女视频| 美女伦理水蜜桃4| 精品久久免费| 91精品国产91热久久久做人人| 国产精品天天av精麻传媒| 2020国产在线| 亚洲一区影音先锋| 成人在线视频一区二区三区| 日本激情视频在线观看| 国产午夜精品一区二区三区视频| 国产免费高清一区| 亚洲福利在线观看视频| 国产一区二区毛片| 亚洲综合国产精品| 国产视频一区二区三| 国产在线视频一区二区| 成人免费淫片视频软件| 在线免费观看一级片| 水蜜桃久久夜色精品一区的特点| 欧美性在线观看| 日韩精品成人在线| 99在线精品视频在线观看| 国模吧一区二区| 日韩黄色a级片| 国产美女精品| 国产精品久久国产精品99gif| 亚洲GV成人无码久久精品| 国产午夜精品一区二区三区欧美| 91成人天堂久久成人| 中文字幕超碰在线| 丝袜美腿亚洲色图| 国产精品久久久久久久久久久久久久 | 日本国产高清不卡| 日韩免费av网站| 日韩影院免费视频| 国产日韩欧美综合| 国产精品玖玖玖| 国产精品77777| 国产高清自拍一区| 天天影院图片亚洲| 国产精品污污网站在线观看| 中文字幕av导航| 一色桃子av在线| 图片区小说区国产精品视频| 精品久久久久av| 亚洲一区导航| 精品日韩欧美一区二区| 给我看免费高清在线观看| 国产一区二区电影在线观看| 久久九九亚洲综合| 国产第100页| 视频一区免费在线观看| 亚洲free性xxxx护士白浆| 欧美一级特黄aaaaaa大片在线观看| 97国产一区二区| 亚洲一区高清| 欧美大片黄色| 在线观看国产日韩| 午夜视频在线免费看| 日韩激情啪啪| 久久久国产一区| 五月天综合激情| 九色porny丨国产精品| 国产伦精品一区二区三区照片| 男生女生差差差的视频在线观看| 国产精品黄色在线观看| 熟女少妇在线视频播放| 日韩免费在线电影| 亚洲精品大尺度| 污软件在线观看| 男人的天堂亚洲| 国产高清精品一区二区三区| 国外av在线| 亚洲一级二级在线| 9久久婷婷国产综合精品性色| 成人av婷婷| 丝袜亚洲欧美日韩综合| 免费一级黄色大片| 久草这里只有精品视频| 欧美污视频久久久| 青草视频在线免费直播 | 国产伦精品一区二区三区免.费| 成人99免费视频| 日本在线视频www色| 欧美大片免费高清观看| 精品欧美久久久| 亚洲欧美综合7777色婷婷| 久久国产欧美| 国模一区二区三区私拍视频| av免费在线免费观看| 在线日韩一区二区| 久久久久久久久久久国产精品| 国产精品黄色| 亚洲bt欧美bt日本bt| 在线免费黄色| 色狠狠色噜噜噜综合网| 最新在线黄色网址| 极品中文字幕一区| 成人免费观看网站| 色图在线观看| 日韩精品一区二区三区视频播放| 91麻豆制片厂| 日韩高清不卡一区二区三区| 欧美日韩另类丝袜其他| 爱啪啪综合导航| 亚洲国产精品成人一区二区| 久久久久久久久97| 懂色av一区二区三区蜜臀| 中文字幕在线亚洲三区| 亚洲青青一区| 精品国产一区二区三区久久久 | 国产白丝一区二区三区| 免费一级片91| 亚洲视频导航| 日韩久久一区| 欧美大成色www永久网站婷| 99精品免费观看| 一区二区三区在线观看网站| 国产在线a视频| 亚洲电影成人| 久久亚洲综合网| 欧美××××黑人××性爽| 一本大道亚洲视频| 中文无码av一区二区三区| 欧美国产成人精品| 亚洲一区精品视频在线观看| 国产精品久久久久久麻豆一区软件| 国产精品偷伦一区二区| 伦xxxx在线| 日韩一级免费一区| 日韩xxx高潮hd| 久久综合久久综合亚洲| 午夜dv内射一区二区| 91一区二区| www.久久久| 天堂av中文在线观看| 亚洲偷熟乱区亚洲香蕉av| 这里只有久久精品视频| 国产精品成人免费| 久久久久久无码精品人妻一区二区| 狠狠88综合久久久久综合网| 精品在线一区| 成人精品动漫| 欧美激情视频播放| 你懂的视频在线观看| 欧美日韩亚洲另类| 免费无遮挡无码永久在线观看视频| thepron国产精品| 青青草av网站| 欧美精选一区| 欧美一区亚洲二区| 久久综合给合| 日本不卡免费高清视频| 精品麻豆一区二区三区| 亚洲国产精品悠悠久久琪琪| 日韩xxx视频| 亚洲综合成人在线视频| 成人激情五月天| 国产99精品国产| 尤蜜粉嫩av国产一区二区三区| 91av精品| 日本黑人久久| 66精品视频在线观看| 国产精品女主播| 国产又色又爽又黄刺激在线视频| 亚洲一级片在线看| 亚洲欧美激情另类| 欧美日韩免费观看一区二区三区 | 亚洲jizzjizz日本少妇| 瑟瑟视频在线看| 久久综合久久八八| 久热av在线| 精品盗摄一区二区三区| 亚洲午夜精品久久久| 五月天一区二区| 亚洲xxxx3d动漫| 国产视频一区二区三区在线观看| 四虎国产精品免费| 久久国产成人午夜av影院| 黄色免费视频大全| 国内成人在线| 一区高清视频| 国产精品自拍区| 精品一区二区三区国产| 欧美精品三级在线| 国产中文欧美精品| 成人免费av电影| 51色欧美片视频在线观看| 在线heyzo| xvideos亚洲| 中文字幕在线免费| 亚洲欧洲在线视频| 欧美高清电影在线| 亚洲精品电影网| 色窝窝无码一区二区三区| 日韩女优电影在线观看| av手机免费看| 777久久久精品| 中文字幕在线2019| 欧美在线免费观看视频| 欧美黑人一区二区| 偷窥少妇高潮呻吟av久久免费| 精品欧美一区二区久久久久| 亚洲少妇屁股交4| 一级性生活免费视频| 国产精品久久福利| 在线观看黄网址| 亚洲三级在线免费| 国产探花在线免费观看| 亚洲精品高清在线| 九九在线观看视频| 亚洲福利一二三区| 久久青青草视频| 欧美日韩中文字幕在线| 国产精品久久久久久99| 欧美日韩在线视频观看| 日本一区二区不卡在线| 精品国产福利视频| 久久久久久久久黄色| 91成人在线免费观看| 欧美三级网站在线观看| 欧美日韩国产区一| 国产jzjzjz丝袜老师水多 | 国产精品专区一| 日韩专区视频网站| 亚洲自拍偷拍色片视频| 午夜日韩影院| 九九九九九精品| 精品久久中文| 精品少妇人妻av一区二区| 欧美高清日韩| 日韩在线综合网| 青青草97国产精品免费观看| 在线观看免费污视频| 国产精品亚洲第一| 亚洲天堂成人av| 国产精品素人一区二区| 欧美一区二区三区爽爽爽| 午夜欧美视频在线观看| 久久午夜鲁丝片| 欧美一区二区三区电影| 神宫寺奈绪一区二区三区| 亚洲色图综合网| 怡红院在线观看| 欧美一区二区三区艳史| 日本亚洲欧洲无免费码在线| 国产91亚洲精品一区二区三区| 精品一区毛片| 亚洲区成人777777精品| 一区二区91| 国产精品久久a| 成人精品视频一区二区三区| 欧美图片第一页| 一区二区日韩av| 久久精品视频5| 欧美大黄免费观看| yourporn在线观看中文站| 欧美黄色小视频| 欧美成人xxxx| 国产一区免费在线观看| 色乱码一区二区三区网站| 丝袜人妻一区二区三区| 免费日本视频一区| 亚洲精品乱码久久久久久久| 综合精品久久久| 国产精品视频一区在线观看| 91精品国产综合久久福利软件 | xfplay精品久久| 国产大学生自拍| 欧美少妇性性性| 日韩av资源| 国内精品久久影院| 久久青草视频| 蜜桃视频日韩| 精品动漫3d一区二区三区免费版| 亚洲福利精品视频| 99精品黄色片免费大全| 黄色一级视频在线观看| 欧美日免费三级在线| 欧美成人免费| 久久免费视频这里只有精品| 国产精品日本一区二区不卡视频| 秋霞久久久久久一区二区| 亚洲高清自拍| 91蝌蚪视频在线| 1区2区3区国产精品| 中文字幕在线2018| 国产亚洲视频在线观看| 不卡视频观看| 国产日韩在线一区二区三区| 亚洲乱码精品| 亚洲欧美手机在线| 国产精品二区一区二区aⅴ污介绍| 综合网在线观看| 亚洲欧美精品伊人久久| 成人免费图片免费观看| 国产精品传媒毛片三区| 欧美日韩少妇| 亚洲视频天天射| 一区二区三区精品久久久| av免费在线观看不卡| 久久在线免费视频| va天堂va亚洲va影视| 国产91av视频在线观看| 麻豆成人av在线| 少妇视频一区二区| 欧美高清激情brazzers| 免费在线毛片网站| 91在线高清视频| 欧美99久久| 欧美久久久久久久久久久| 亚洲国产成人tv| 蜜臀久久精品久久久久| 亚州精品天堂中文字幕| 巨人精品**| 茄子视频成人免费观看| 久久久www免费人成精品| 日韩乱码一区二区三区| 中文综合在线观看| 久久九九精品视频| 无码熟妇人妻av在线电影| 不卡一区在线观看| av黄色在线播放| 色午夜这里只有精品| 国产剧情一区二区在线观看| 国产精品igao激情视频| 懂色一区二区三区免费观看| 日韩免费一二三区| 精品一区二区三区四区在线| 伊人久久高清| avove在线观看| 不卡电影免费在线播放一区| www欧美在线| 中文字幕在线看视频国产欧美在线看完整 | 国产视频第一页在线观看| 国产精品丝袜高跟| 国产精品二区影院| 国精产品一区一区三区免费视频| 欧美亚洲国产一区二区三区va | 国产永久免费高清在线观看视频| 国产精品影片在线观看| 亚洲视频精品| 国产呦小j女精品视频| 欧美精三区欧美精三区| 久草在线资源站资源站| 任我爽在线视频精品一| 韩国av一区二区三区四区| 波多野结衣国产| 久久九九精品99国产精品| 狠狠久久伊人| 亚洲最大成人在线观看| 亚洲国产精品欧美一二99| 大片免费播放在线视频| 99精品欧美一区二区三区| 性感少妇一区| 欧美黑人猛猛猛| 亚洲码在线观看| 成人午夜888| 日批视频在线免费看| 亚洲欧洲成人精品av97| 无码国产伦一区二区三区视频 | 性视频1819p久久| 99久久久久国产精品|