精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Emu3:僅需下一令牌預(yù)測(cè) 原創(chuàng)

發(fā)布于 2025-5-19 09:19
瀏覽
0收藏

摘要

盡管下一令牌預(yù)測(cè)被視為通往通用人工智能的一條有前途的道路,但它在多模態(tài)任務(wù)中一直難以取得優(yōu)異成績(jī),目前多模態(tài)任務(wù)仍由擴(kuò)散模型(如 Stable Diffusion)和組合方法(如 CLIP 與大語(yǔ)言模型相結(jié)合)主導(dǎo)。在本文中,我們介紹 Emu3,這是一套全新的最先進(jìn)的多模態(tài)模型,僅通過下一令牌預(yù)測(cè)進(jìn)行訓(xùn)練。通過將圖像、文本和視頻標(biāo)記化到離散空間中,我們?cè)诙嗄B(tài)序列的混合數(shù)據(jù)上從頭開始訓(xùn)練一個(gè)單一的 Transformer。Emu3 在生成和感知任務(wù)上優(yōu)于多個(gè)成熟的特定任務(wù)模型,超越了 SDXL 和 LLaVA-1.6 等旗艦?zāi)P停瑫r(shí)無(wú)需使用擴(kuò)散或組合架構(gòu)。Emu3 還能夠通過預(yù)測(cè)視頻序列中的下一令牌來生成高保真度的視頻。我們將焦點(diǎn)匯聚于令牌,簡(jiǎn)化了復(fù)雜的多模態(tài)模型設(shè)計(jì),在訓(xùn)練和推理過程中釋放了巨大的擴(kuò)展?jié)摿ΑN覀兊慕Y(jié)果表明,下一令牌預(yù)測(cè)是構(gòu)建超越語(yǔ)言的通用多模態(tài)智能的一條有前途的途徑。我們開源了關(guān)鍵技術(shù)和模型,以支持這一方向的進(jìn)一步研究。


Emu3:僅需下一令牌預(yù)測(cè)-AI.x社區(qū)

圖1:Emu3通過單個(gè)Transformer在視頻、圖像和文本令牌的混合數(shù)據(jù)上進(jìn)行訓(xùn)練,以預(yù)測(cè)下一個(gè)令牌。與成熟的特定任務(wù)模型相比,Emu3在生成和感知任務(wù)中均達(dá)到了最先進(jìn)的性能。

- 該圖展示了Emu3的訓(xùn)練機(jī)制,即利用單個(gè)Transformer處理由視頻、圖像和文本構(gòu)成的混合令牌數(shù)據(jù)來預(yù)測(cè)下一個(gè)令牌。同時(shí)表明在生成任務(wù)(如根據(jù)文本生成圖像、視頻等)和感知任務(wù)(如圖像分類、視覺 - 語(yǔ)言理解等)方面,Emu3與已有的特定任務(wù)模型相比,性能處于頂尖水平。


Emu3:僅需下一令牌預(yù)測(cè)-AI.x社區(qū)

圖2:與開源旗艦?zāi)P驮谝曈X生成和感知方面的比較- 此圖對(duì)Emu3與開源的旗艦?zāi)P停ㄈ鏢DXL、LLaVA - 1.6 - 7B、OpenSora - 1.2)在視覺生成(如圖像生成、視頻生成)和視覺 - 語(yǔ)言感知(如理解圖像與文本之間的關(guān)系、回答基于圖像和文本的問題)這兩個(gè)領(lǐng)域的性能進(jìn)行對(duì)比。Emu3僅依靠下一令牌預(yù)測(cè)的方式,在這兩方面均展現(xiàn)出優(yōu)勢(shì),且完全不依賴擴(kuò)散模型和CLIP技術(shù)。在圖像生成任務(wù)中,通過基于英文提示的人工評(píng)估分?jǐn)?shù)來對(duì)比;在視覺 - 語(yǔ)言理解任務(wù)中,依據(jù)十二個(gè)基準(zhǔn)測(cè)試(SEEDBench - Img、OCRBench等)的平均分?jǐn)?shù)進(jìn)行比較;在視頻生成任務(wù)中,則以VBench基準(zhǔn)測(cè)試的結(jié)果作為對(duì)比依據(jù)。

1、引言

下一令牌預(yù)測(cè)徹底改變了語(yǔ)言模型領(lǐng)域,推動(dòng)了 ChatGPT 等突破的出現(xiàn),并引發(fā)了關(guān)于通用人工智能(AGI)早期跡象的討論。然而,這一范式在多模態(tài)模型中的適用性仍不明確,其在不同任務(wù)中實(shí)現(xiàn)有競(jìng)爭(zhēng)力的性能的有效性證據(jù)有限。

在多模態(tài)模型領(lǐng)域,視覺生成一直由復(fù)雜的擴(kuò)散模型(如 Stable Diffusion)主導(dǎo),而視覺 - 語(yǔ)言感知?jiǎng)t由 CLIP 與大語(yǔ)言模型(如 LLaVA)等組合方法引領(lǐng)。盡管早期有統(tǒng)一生成和感知的嘗試,如 Emu 和 Chameleon,但這些努力要么依賴于將大語(yǔ)言模型與擴(kuò)散模型連接起來,要么在性能上無(wú)法與專為生成和感知設(shè)計(jì)的特定任務(wù)方法相媲美。

在這項(xiàng)工作中,我們提出 Emu3,這是一套全新的、完全基于下一令牌預(yù)測(cè)的最先進(jìn)多模態(tài)模型,完全摒棄了對(duì)擴(kuò)散或組合方法的需求。我們將圖像、文本和視頻標(biāo)記化到離散空間中,并在多模態(tài)序列的混合數(shù)據(jù)上從頭開始聯(lián)合訓(xùn)練一個(gè)單一的 Transformer。

Emu3 在生成和感知任務(wù)上與成熟的特定任務(wù)模型相比,達(dá)到了最先進(jìn)的性能。在人工評(píng)估和 MSCOCO-30K、GenEval、T2I-CompBench 和 DPG-Bench 等公開的文本到圖像基準(zhǔn)測(cè)試中,Emu3 的表現(xiàn)均優(yōu)于旗艦?zāi)P?Stable Diffusion(即 SDXL)。在視覺 - 語(yǔ)言理解方面,Emu3 在一系列公開的視覺 - 語(yǔ)言基準(zhǔn)測(cè)試中,包括 SEED-Bench、RealWorldQA、OCRBench 等,與流行的視覺 - 語(yǔ)言模型 LLaVA-1.6 展開競(jìng)爭(zhēng)。

Emu3 能夠生成視頻。與使用視頻擴(kuò)散模型從噪聲生成視頻的 Sora 不同,Emu3 通過預(yù)測(cè)視頻序列中的下一令牌,以因果方式生成視頻。該模型可以模擬物理世界中環(huán)境、人物和動(dòng)物的某些方面。在給定視頻上下文的情況下,Emu3 可以擴(kuò)展視頻并預(yù)測(cè)接下來會(huì)發(fā)生什么。根據(jù)用戶的提示,該模型可以生成符合文本描述的高保真視頻。Emu3 在 VBench 基準(zhǔn)測(cè)試的文本到視頻生成任務(wù)中脫穎而出,與其他視頻擴(kuò)散模型展開競(jìng)爭(zhēng)。

我們開源關(guān)鍵技術(shù)和模型,以促進(jìn)這一方向的未來研究。值得注意的是,我們提供了一個(gè)強(qiáng)大的視覺標(biāo)記器,能夠?qū)⒁曨l和圖像轉(zhuǎn)換為離散令牌,這在以前是無(wú)法公開獲取的。我們還展示了下一令牌預(yù)測(cè)框架的多功能性,表明直接偏好優(yōu)化(DPO)可以無(wú)縫應(yīng)用于自回歸視覺生成,使模型與人類偏好保持一致。我們的結(jié)果有力地證明,下一令牌預(yù)測(cè)可以作為多模態(tài)模型的強(qiáng)大范式,超越語(yǔ)言模型,在多模態(tài)任務(wù)中實(shí)現(xiàn)最先進(jìn)的性能。通過簡(jiǎn)化復(fù)雜的模型設(shè)計(jì)并僅專注于令牌,它在訓(xùn)練和推理過程中釋放了巨大的擴(kuò)展?jié)摿ΑN覀兿嘈牛乱涣钆祁A(yù)測(cè)為構(gòu)建通用多模態(tài)智能提供了一條有前途的途徑。

2、方法

2.1 數(shù)據(jù)

Emu3 在語(yǔ)言、圖像和視頻數(shù)據(jù)的混合數(shù)據(jù)上從頭開始訓(xùn)練。

?語(yǔ)言數(shù)據(jù):我們使用與 Aquila 相同的語(yǔ)言數(shù)據(jù),這是一個(gè)高質(zhì)量的語(yǔ)料庫(kù),包含中文和英文數(shù)據(jù)。

?圖像數(shù)據(jù):我們整理了一個(gè)大規(guī)模的圖像 - 文本數(shù)據(jù)集,包括開源網(wǎng)絡(luò)數(shù)據(jù)、人工智能生成的數(shù)據(jù)和高質(zhì)量的內(nèi)部數(shù)據(jù)。過濾過程包括幾個(gè)關(guān)鍵步驟:1)應(yīng)用分辨率過濾器,丟棄分辨率低于 512×512 像素的樣本。2)使用 LAION-AI 美學(xué)預(yù)測(cè)器評(píng)估每個(gè)圖像的美學(xué)質(zhì)量,排除得分低于 5.5 的圖像,以確保整體美學(xué)質(zhì)量。3)對(duì)于未通過美學(xué)過濾器的圖像,我們采用文本檢測(cè)和顏色過濾,保留非單色圖像和文本最少的圖像,提高對(duì)開放世界圖像的過濾召回率。4)此外,我們?yōu)閳D像理解準(zhǔn)備補(bǔ)充數(shù)據(jù)。通過遵循 DenseFusion 中的數(shù)據(jù)處理流程,我們從各種開源網(wǎng)絡(luò)數(shù)據(jù)中提取了數(shù)百萬(wàn)個(gè)具有代表性的圖像,涵蓋廣泛的類別,包括圖表、表格、富含文本的內(nèi)容等。

為了注釋過濾后的數(shù)據(jù)集,我們開發(fā)了一個(gè)基于 Emu2 的圖像字幕模型,以構(gòu)建密集的合成字幕。我們利用帶有詳細(xì)提示的 GPT-4V 生成約 100 萬(wàn)個(gè)圖像 - 字幕對(duì)。然后,使用這個(gè)注釋數(shù)據(jù)集對(duì) Emu2-17B 模型進(jìn)行微調(diào),作為我們的圖像字幕生成器。此外,我們使用開源的 vLLM 庫(kù)來加速標(biāo)記過程。

?視頻數(shù)據(jù):我們收集了涵蓋廣泛類別的視頻,如風(fēng)景、動(dòng)物、植物、游戲和動(dòng)作。這些視頻通過一個(gè)復(fù)雜的流程進(jìn)行預(yù)處理,包括以下四個(gè)階段:1)我們使用 PySceneDectect 將視頻分割成場(chǎng)景,分別使用 ContentDetector 和 ThresholdDetector 來識(shí)別內(nèi)容變化和淡入 / 淡出事件。2)使用 PaddleOCR 進(jìn)行文本檢測(cè),并刪除文本覆蓋過多的片段。為了降低計(jì)算成本,我們以 2FPS 對(duì)視頻幀進(jìn)行采樣,并將較短的邊緣調(diào)整為 256 像素。3)我們進(jìn)一步計(jì)算光流,以消除運(yùn)動(dòng)極小或極大的片段。與上一步一樣,為了提高效率,我們對(duì)視頻幀進(jìn)行采樣和調(diào)整大小。光流得分定義為所有像素的平均光流幅度與較短邊緣的比率。我們排除光流得分超出可接受范圍的片段。4)最后,我們使用 LAION-AI 美學(xué)預(yù)測(cè)器評(píng)估每個(gè)片段的美學(xué)質(zhì)量。我們對(duì)每個(gè)片段采樣三幀并獲得三個(gè)分?jǐn)?shù),丟棄最低分?jǐn)?shù)小于 5 的片段。

我們使用基于圖像字幕生成器訓(xùn)練的視頻字幕生成器為過濾后的視頻片段添加字幕。訓(xùn)練數(shù)據(jù)最初由 GPT-4V 標(biāo)記。對(duì)于每個(gè)視頻片段,我們采樣八幀,并為 GPT-4V 創(chuàng)建一個(gè)詳細(xì)的提示,以描述這些幀內(nèi)的內(nèi)容和運(yùn)動(dòng)。部分標(biāo)記數(shù)據(jù)經(jīng)過人工修訂。然后,我們?cè)谶@些標(biāo)記數(shù)據(jù)上對(duì)圖像字幕生成器進(jìn)行微調(diào),以開發(fā)視頻字幕生成器。為了大規(guī)模部署,我們使用 vLLM 加速字幕生成。對(duì)于短于 20 秒的片段,使用 12 個(gè)均勻采樣的幀進(jìn)行字幕生成,而較長(zhǎng)的片段則被分割成 10 - 20 秒的子片段,每個(gè)子片段獨(dú)立進(jìn)行字幕生成。

2.2 視覺標(biāo)記器

我們基于 SBER-MoVQGAN 訓(xùn)練視覺標(biāo)記器,它可以將 4×512×512 的視頻片段或 512×512 的圖像從大小為 32768 的碼本中編碼為 4096 個(gè)離散令牌。我們的標(biāo)記器在時(shí)間維度上實(shí)現(xiàn) 4 倍壓縮,在空間維度上實(shí)現(xiàn) 8×8 壓縮,適用于任何時(shí)間和空間分辨率。在 MoVQGAN 架構(gòu)的基礎(chǔ)上,我們?cè)诰幋a器和解碼器模塊中都融入了兩個(gè)帶有 3D 卷積核的時(shí)間殘差層,以增強(qiáng)視頻標(biāo)記化能力。該標(biāo)記器在 LAION-High-Resolution 圖像數(shù)據(jù)集和 InternVid 視頻數(shù)據(jù)集上使用 L2 損失、LPIPS 感知損失、GAN 損失和承諾損失的組合目標(biāo)函數(shù)進(jìn)行端到端訓(xùn)練。

定性結(jié)果如圖 3 所示。我們?cè)诒?2 中報(bào)告了使用來自 Pexels 的 3172 個(gè)視頻的評(píng)估數(shù)據(jù)集計(jì)算的 LPIPS(由 AlexNet 特征計(jì)算)、PSNR 和 SSIM 分?jǐn)?shù)。視頻在保持寬高比的情況下重建 5 秒。在評(píng)估期間,原始視頻和重建視頻根據(jù)較短的邊進(jìn)行調(diào)整大小和裁剪,并以 12FPS 均勻采樣 8 幀。


Emu3:僅需下一令牌預(yù)測(cè)-AI.x社區(qū)

圖3:重建樣本- 該圖呈現(xiàn)了視覺標(biāo)記器對(duì)數(shù)據(jù)處理后的重建效果。左圖展示了分辨率為540×960的原始視頻以及經(jīng)過處理后的重建視頻,以每秒30幀的幀率選取8幀展示,用于觀察視頻在重建前后的細(xì)節(jié)差異。右圖展示了分辨率為512×512的原始圖像和重建圖像,可通過放大圖像查看細(xì)節(jié),以此評(píng)估視覺標(biāo)記器對(duì)圖像信息的保留和重建能力。

表1:Emu3視覺標(biāo)記器配置 - 該表詳細(xì)列出了Emu3視覺標(biāo)記器的各項(xiàng)配置參數(shù)。包括預(yù)訓(xùn)練權(quán)重(采用SBER - MoVQGAN - 270M 5)、碼本大小(為32768)、潛在大小(是4)、壓縮率(4×8×8 ,表示在時(shí)間和空間維度上的壓縮比例)等信息,這些參數(shù)共同決定了視覺標(biāo)記器對(duì)視頻和圖像進(jìn)行編碼和解碼的方式及性能。

表2:視頻壓縮指標(biāo) - 此表展示了不同分辨率(128×128、256×256、512×512、720×720)下視頻壓縮后的相關(guān)指標(biāo)數(shù)據(jù)。這些指標(biāo)包括LPIPS(用于衡量圖像之間的感知差異)、PSNR(評(píng)估圖像質(zhì)量的峰值信噪比)、SSIM(結(jié)構(gòu)相似性指數(shù),衡量圖像之間的結(jié)構(gòu)相似度),通過這些指標(biāo)可以量化不同分辨率下視頻壓縮后的質(zhì)量變化和相似程度,幫助評(píng)估視頻壓縮效果。


Emu3:僅需下一令牌預(yù)測(cè)-AI.x社區(qū)

2.3 架構(gòu)

Emu3 模型保留了 Llama-2 等成熟大語(yǔ)言模型的架構(gòu)框架,主要修改是擴(kuò)展嵌入層以適應(yīng)離散視覺令牌。我們使用 RMSNorm 進(jìn)行歸一化,使用 GQA 作為注意力機(jī)制,同時(shí)采用 SwiGLU 激活函數(shù)和旋轉(zhuǎn)位置嵌入(RoPE)。去除 qkv 和線性投影層中的偏差。此外,實(shí)施 0.1 的隨機(jī)失活率以提高訓(xùn)練穩(wěn)定性。我們使用 QwenTokenizer 對(duì)多語(yǔ)言文本進(jìn)行標(biāo)記化。詳細(xì)配置見表 3。

表3:模型配置- 該表給出了Emu3模型的詳細(xì)架構(gòu)配置信息。涵蓋參數(shù)數(shù)量(80億)、層數(shù)(32層)、隱藏層大小(4096)、中間層大小(14336)、頭數(shù)(32個(gè))、KV頭數(shù)(8個(gè))、詞匯表大小(184622)、RoPE基準(zhǔn)(1000000 ,與旋轉(zhuǎn)位置嵌入相關(guān)的參數(shù))、上下文長(zhǎng)度(131072)等參數(shù),這些配置參數(shù)決定了Emu3模型的結(jié)構(gòu)和性能特點(diǎn),影響其在多模態(tài)任務(wù)中的表現(xiàn)。


Emu3:僅需下一令牌預(yù)測(cè)-AI.x社區(qū)

2.4 預(yù)訓(xùn)練

?數(shù)據(jù)準(zhǔn)備:在預(yù)訓(xùn)練期間,我們首先定義多模態(tài)數(shù)據(jù)格式。與依賴外部文本編碼器的擴(kuò)散模型不同,Emu3 原生集成了用于圖像 / 視頻生成的文本條件信息。我們?cè)诒3謱捀弑鹊那闆r下將圖像 / 視頻重新縮放到面積接近 512×512 的大小,然后使用視覺標(biāo)記器生成視覺令牌。然后,我們引入五個(gè)特殊令牌來合并文本和視覺數(shù)據(jù),為訓(xùn)練過程創(chuàng)建類似文檔的輸入。生成的訓(xùn)練數(shù)據(jù)結(jié)構(gòu)如下:[BOS]{caption text}[SOV]{meta text}[SOT]{vision tokens}[EOV][EOS]。

其中,[BOS] 和 [EOS] 是文本標(biāo)記器中的原始特殊令牌,[SOV] 標(biāo)記視覺輸入的開始,[SOT] 標(biāo)記視覺令牌的開始,[EOV] 表示視覺輸入的結(jié)束。此外,[EOL] 和 [EOF] 被插入到視覺令牌中,分別表示換行符和幀分隔符。“meta text” 包含圖像的分辨率信息,對(duì)于視頻,它包括分辨率、幀率和持續(xù)時(shí)間,均以純文本格式呈現(xiàn)。我們還將數(shù)據(jù)集中一部分的 “caption text” 字段移動(dòng)到 [EOV] 令牌之后,從而構(gòu)建針對(duì)視覺理解任務(wù)的數(shù)據(jù)。

?訓(xùn)練目標(biāo):由于 Emu3 中的視覺信號(hào)完全轉(zhuǎn)換為離散令牌,我們只需要使用標(biāo)準(zhǔn)交叉熵?fù)p失進(jìn)行下一令牌預(yù)測(cè)任務(wù)的訓(xùn)練。為了防止視覺令牌主導(dǎo)學(xué)習(xí)過程,我們對(duì)與視覺令牌相關(guān)的損失應(yīng)用 0.5 的權(quán)重。

?訓(xùn)練細(xì)節(jié):Emu3 模型在預(yù)訓(xùn)練期間利用廣泛的上下文長(zhǎng)度來處理視頻數(shù)據(jù)。為了便于訓(xùn)練,我們采用張量并行(TP)、上下文并行(CP)和數(shù)據(jù)并行(DP)的組合。我們同時(shí)將文本 - 圖像數(shù)據(jù)打包到最大上下文長(zhǎng)度,以充分利用計(jì)算資源,同時(shí)確保在打包過程中完整的圖像不會(huì)被分割。預(yù)訓(xùn)練過程分兩個(gè)階段進(jìn)行。在第一階段,不使用視頻數(shù)據(jù),從文本和圖像數(shù)據(jù)開始從頭訓(xùn)練,上下文長(zhǎng)度為 5120。在第二階段,引入視頻數(shù)據(jù),采用 131072 的上下文長(zhǎng)度。兩個(gè)階段都使用5?—10^{-5}的學(xué)習(xí)率,并采用余弦退火將學(xué)習(xí)率降至零。

2.5 后訓(xùn)練

2.5.1 視覺生成

?質(zhì)量微調(diào):在預(yù)訓(xùn)練階段之后,我們對(duì)視覺生成任務(wù)進(jìn)行后訓(xùn)練,以提高生成輸出的質(zhì)量。我們使用高質(zhì)量數(shù)據(jù)進(jìn)行質(zhì)量微調(diào)(QFT)。模型繼續(xù)使用標(biāo)準(zhǔn)交叉熵?fù)p失進(jìn)行下一令牌預(yù)測(cè)任務(wù)的訓(xùn)練;然而,監(jiān)督僅應(yīng)用于視覺令牌。對(duì)于 QFT 中的圖像數(shù)據(jù),我們選擇多樣的高質(zhì)量數(shù)據(jù)源,并根據(jù) HPSv2.1、MPS 和 LAION 美學(xué)分?jǐn)?shù)這三個(gè)流行偏好分?jǐn)?shù)的平均值進(jìn)行過濾。在 QFT 期間,我們將訓(xùn)練數(shù)據(jù)分辨率從 512 像素提高到 720 像素,以提高生成質(zhì)量。對(duì)于視頻數(shù)據(jù),我們從高質(zhì)量源中采樣,并應(yīng)用嚴(yán)格的分辨率和光流過濾器以確保質(zhì)量。此外,在訓(xùn)練結(jié)束時(shí),我們使用退火策略將學(xué)習(xí)率線性衰減至零。

?直接偏好優(yōu)化:直接偏好優(yōu)化(DPO)是一種使模型更好地與人類偏好保持一致的有效方法。我們將 DPO 技術(shù)應(yīng)用于自回歸多模態(tài)生成任務(wù),利用人類偏好數(shù)據(jù)來提高模型性能。我們將數(shù)據(jù)集構(gòu)建分為三個(gè)步驟:1)使用質(zhì)量微調(diào)后的模型對(duì)每個(gè)用戶收集的提示(p)進(jìn)行 8 - 10 次推理,創(chuàng)建初始數(shù)據(jù)池(x)。2)每個(gè)提示由三個(gè)評(píng)估人員進(jìn)行評(píng)估,重點(diǎn)關(guān)注視覺吸引力和提示匹配度。3)根據(jù)分?jǐn)?shù),選擇得分最高的樣本,拒絕得分最低的樣本,與提示一起形成三元組(p_{i}, x_{i}^{chosen}, rejected),用于進(jìn)一步訓(xùn)練。具體來說,數(shù)據(jù)構(gòu)建過程中的令牌被存儲(chǔ)起來,以便在未來的訓(xùn)練階段直接使用。這種策略消除了重新標(biāo)記化導(dǎo)致的重建差異。Emu3-DPO 通過最小化 DPO 損失和下一令牌預(yù)測(cè)交叉熵?fù)p失來對(duì) QFT 模型進(jìn)行微調(diào)。

2.5.2 視覺 - 語(yǔ)言理解

預(yù)訓(xùn)練模型在視覺 - 語(yǔ)言理解方面要經(jīng)過兩階段的后訓(xùn)練過程:1)圖像到文本訓(xùn)練,2)指令調(diào)整。在第一階段,我們的方法將圖像理解數(shù)據(jù)與純語(yǔ)言數(shù)據(jù)相結(jié)合,同時(shí)忽略與視覺令牌相關(guān)的損失,僅進(jìn)行文本預(yù)測(cè)。每個(gè)圖像在保持原始寬高比的情況下調(diào)整為約 512×512 的分辨率。在第二階段,我們從 [44] 中采樣一部分問答對(duì),以增強(qiáng)視覺指令跟隨能力。分辨率低于 512×512 或高于 1024×1024 的圖像將分別調(diào)整為較低或較高的分辨率限制,同時(shí)相應(yīng)地保持寬高比,而其他圖像則保持其原始分辨率。

3、主要結(jié)果

3.1 圖像生成

3.1.1 自動(dòng)指標(biāo)評(píng)估

我們通過在流行的文本到圖像基準(zhǔn)測(cè)試(MSCOCO-30K、GenEval、T2I-CompBench 和 DPG-Bench)上進(jìn)行自動(dòng)指標(biāo)評(píng)估,展示 Emu3 的性能。表 4 展示了 Emu3 與擴(kuò)散方法、自回歸擴(kuò)散方法和基于自回歸的方法在這四個(gè)基準(zhǔn)測(cè)試中的比較結(jié)果。我們的方法在圖像 - 文本對(duì)齊評(píng)估中優(yōu)于自回歸擴(kuò)散方法,并且與最先進(jìn)的基于擴(kuò)散的模型相當(dāng),盡管我們沒有使用任何預(yù)訓(xùn)練的語(yǔ)言模型。

表4:與最先進(jìn)模型在文本到圖像基準(zhǔn)測(cè)試中的比較

- 該表在MSCOCO - 30K、GenEval、T2I - CompBench和DPG - Bench這四個(gè)用于評(píng)估文本到圖像生成能力的基準(zhǔn)測(cè)試中,對(duì)Emu3與當(dāng)前最先進(jìn)的模型進(jìn)行性能對(duì)比。帶?的結(jié)果是經(jīng)過重寫后的結(jié)果,通過對(duì)比不同模型在這些基準(zhǔn)測(cè)試中的各項(xiàng)指標(biāo)(如圖像 - 文本對(duì)齊度、生成圖像質(zhì)量等),可以清晰地看出Emu3在文本到圖像生成任務(wù)中的優(yōu)勢(shì)和競(jìng)爭(zhēng)力。


Emu3:僅需下一令牌預(yù)測(cè)-AI.x社區(qū)

在使用重寫器擴(kuò)展短提示后,我們報(bào)告 GenEval 和 T2I-CompBench 的結(jié)果。由于 Emu3 在訓(xùn)練過程中使用了大量的合成標(biāo)簽,在密集字幕方面比短提示表現(xiàn)更優(yōu)。然而,GenEval 和 T2I-CompBench 中的評(píng)估提示過于簡(jiǎn)短,無(wú)法準(zhǔn)確反映模型的真實(shí)性能。遵循 DALL-E 3,我們也報(bào)告使用 GPT-4V 作為重寫器的評(píng)估結(jié)果。GenEval 總體得分結(jié)果表明,Emu3 顯著優(yōu)于多模態(tài)自回歸模型 Chameleon,以及最新的自回歸擴(kuò)散方法 Show-O 和 Transfusion。此外,Emu3 超過了 SDXL,并與包括 DALL-E 3 在內(nèi)的最先進(jìn)的擴(kuò)散模型性能相匹配。附錄 B.1 中提供了所有維度的詳細(xì)比較,包括原始提示的結(jié)果。

為了進(jìn)一步評(píng)估最先進(jìn)的文本到圖像方法,特別是擴(kuò)散模型,我們使用 T2I-CompBench 評(píng)估生成圖像與文本條件之間的對(duì)齊情況。Emu3 與基于擴(kuò)散的最先進(jìn)模型相比,表現(xiàn)出有競(jìng)爭(zhēng)力的性能。此外,我們?cè)?DPG-Bench 上比較我們的模型與最先進(jìn)的模型,該基準(zhǔn)測(cè)試具有更長(zhǎng)的提示,包含更詳細(xì)的評(píng)估信息。我們的 Emu3-DPO 總體得分達(dá)到 81.6,超過了 SDXL 和 PixArt-alpha,與 DALL-E 3 相當(dāng),進(jìn)一步證明了該模型遵循長(zhǎng)提示的能力。在比較 Emu3 和 Emu3-DPO 時(shí),我們觀察到應(yīng)用 DPO 后評(píng)估結(jié)果略有下降,這可能歸因于我們的 DPO 數(shù)據(jù)集中強(qiáng)調(diào)整體美學(xué)質(zhì)量的偏好,這與自動(dòng)評(píng)估模型的領(lǐng)域不同,使得僅通過自動(dòng)評(píng)估得出的結(jié)論變得復(fù)雜。因此,我們?cè)?3.1.2 節(jié)中引入了人工評(píng)估。

3.1.2 人工評(píng)估

我們進(jìn)行了一項(xiàng)人工評(píng)估,比較不同模型的文本到圖像生成能力。收集了一組 100 個(gè)多樣的用戶提示,每個(gè)提示由三個(gè)獨(dú)立的評(píng)估人員進(jìn)行評(píng)估。評(píng)估主要集中在兩個(gè)方面:視覺質(zhì)量和提示跟隨度,綜合得分反映整體性能。如圖 5 所示,我們展示了當(dāng)前封閉和開放生成式圖像模型的人工偏好比較。結(jié)果表明,Emu3 在總體得分上超過了 SDXL,與 DALL-E 3 和 MJ-v5.2 相當(dāng)。此外,圖 6 展示了通過 DPO 微調(diào)的對(duì)齊效果,有效提高了視覺質(zhì)量和提示跟隨度。

Emu3:僅需下一令牌預(yù)測(cè)-AI.x社區(qū)圖片

圖5:封閉和開放生成式圖像模型在中英文提示下的人工評(píng)估總體得分比較

- 該圖比較了不同類型(封閉和開放)的生成式圖像模型在中文和英文提示下的表現(xiàn)。通過收集大量用戶給出的中英文提示,由人工從視覺質(zhì)量(如圖像的清晰度、色彩、構(gòu)圖等)和提示跟隨度(生成圖像與提示內(nèi)容的匹配程度)等方面進(jìn)行評(píng)估打分,最終得到每個(gè)模型的總體得分,從而對(duì)比不同模型在處理中英文提示時(shí)生成圖像的綜合能力。


Emu3:僅需下一令牌預(yù)測(cè)-AI.x社區(qū)

圖6:DPO對(duì)視覺質(zhì)量和提示對(duì)齊的提升 - 此圖主要展示直接偏好優(yōu)化(DPO)技術(shù)應(yīng)用于Emu3模型后產(chǎn)生的效果。重點(diǎn)體現(xiàn)DPO在提升生成圖像的視覺質(zhì)量(如使圖像更清晰、更具美感)以及增強(qiáng)提示對(duì)齊(生成圖像更符合給定的文本提示內(nèi)容)方面的作用,突出DPO對(duì)模型性能優(yōu)化的具體表現(xiàn)。

3.1.3 定性結(jié)果

圖 4 展示了 Emu3 生成的 25 張圖像,以展示其能力。Emu3 支持靈活的分辨率和寬高比,并且能夠處理各種風(fēng)格。


Emu3:僅需下一令牌預(yù)測(cè)-AI.x社區(qū)

圖4:Emu3文本到圖像生成的定性結(jié)果- 此圖展示Emu3將文本轉(zhuǎn)換為圖像的生成效果,從定性的角度(如生成圖像的風(fēng)格多樣性、對(duì)文本描述的還原程度、圖像的美觀度等方面)呈現(xiàn)Emu3在文本到圖像生成任務(wù)上的成果,幫助直觀感受Emu3在該任務(wù)上的表現(xiàn)。

3.2 視頻生成

與訓(xùn)練階段一致,Emu3 原生支持以 24FPS 生成 5 秒視頻,并可以通過自回歸方法無(wú)限擴(kuò)展。圖 7 展示了視頻生成的定性示例,從開頭 3 秒中提取了 6 幀進(jìn)行展示。

我們對(duì) Emu3 與 13 個(gè)性能最佳的開源和專有文本到視頻模型進(jìn)行了定量比較。使用的基準(zhǔn)測(cè)試是 VBench,這是一個(gè)用于評(píng)估視頻生成性能的綜合工具包,它在 16 個(gè)維度上評(píng)估每個(gè)模型的質(zhì)量和語(yǔ)義能力。除了 Emu3 是自回歸模型外,所有其他公開可比的方法都是擴(kuò)散模型。盡管如此,如表 5 所示,Emu3 在總體得分上與其他最先進(jìn)的模型相比,表現(xiàn)出極具競(jìng)爭(zhēng)力的結(jié)果。具體來說,雖然它略遜于 Kling 和 Gen-3 等最先進(jìn)的專有模型,但它優(yōu)于大多數(shù)開源文本到視頻模型。這些結(jié)果突出了 Emu3很強(qiáng)的視頻生成能力。


Emu3:僅需下一令牌預(yù)測(cè)-AI.x社區(qū)


Emu3:僅需下一令牌預(yù)測(cè)-AI.x社區(qū)


Emu3:僅需下一令牌預(yù)測(cè)-AI.x社區(qū)

圖7:Emu3文本到視頻生成的定性結(jié)果- 該圖呈現(xiàn)Emu3在文本到視頻生成任務(wù)中的成果,從定性方面(如生成視頻的內(nèi)容連貫性、與文本提示的契合度、視頻的視覺效果等)展示Emu3根據(jù)文本生成視頻的能力。通過從生成的視頻中選取開頭3秒并提取6幀進(jìn)行展示,讓觀察者直觀感受Emu3生成視頻的質(zhì)量和特點(diǎn)。

表5:與最先進(jìn)文本到視頻模型在VBench基準(zhǔn)測(cè)試中的比較 - 此表在VBench基準(zhǔn)測(cè)試環(huán)境下,對(duì)Emu3與其他最先進(jìn)的文本到視頻模型進(jìn)行比較。從VBench的16個(gè)評(píng)估維度中選取11個(gè)維度(如運(yùn)動(dòng)平滑度、動(dòng)態(tài)程度、美學(xué)質(zhì)量等)以及最終綜合分?jǐn)?shù)進(jìn)行展示。除Emu3是自回歸(AR)模型外,其他可對(duì)比的公開方法均為擴(kuò)散(Diff)模型,且指標(biāo)數(shù)值越高代表對(duì)應(yīng)模型在該維度的表現(xiàn)越好,以此全面評(píng)估Emu3在文本到視頻生成任務(wù)中與其他模型的差異和優(yōu)勢(shì)。


Emu3:僅需下一令牌預(yù)測(cè)-AI.x社區(qū)

3.3 未來預(yù)測(cè)

Emu3 可以通過預(yù)測(cè)未來幀來擴(kuò)展視頻。在圖 8 中,我們展示了視頻擴(kuò)展的定性示例,將 2 秒、24FPS 的視頻標(biāo)記為離散視覺令牌作為上下文。Emu3 以相同的離散視覺令牌形式預(yù)測(cè)隨后 2 秒的內(nèi)容,這些令牌可以被解標(biāo)記以生成未來預(yù)測(cè)的視頻。這些示例表明,僅使用下一令牌預(yù)測(cè)就可以實(shí)現(xiàn)視頻的時(shí)間擴(kuò)展,包括預(yù)測(cè)人類和動(dòng)物的動(dòng)作、與現(xiàn)實(shí)世界的交互以及三維動(dòng)畫的變化。此外,通過以這種方式擴(kuò)展視頻時(shí)長(zhǎng),我們的方法能夠迭代生成超過其上下文長(zhǎng)度的視頻。我們已經(jīng)觀察到,以 2 秒的視頻數(shù)據(jù)作為上下文成功擴(kuò)展未來視頻幀 8 秒是可行的。


Emu3:僅需下一令牌預(yù)測(cè)-AI.x社區(qū)


Emu3:僅需下一令牌預(yù)測(cè)-AI.x社區(qū)

圖8:Emu3視頻擴(kuò)展的定性結(jié)果- 此圖展示Emu3在視頻擴(kuò)展任務(wù)中的表現(xiàn)。以2秒、24幀每秒的視頻作為初始上下文,Emu3預(yù)測(cè)并生成后續(xù)2秒的視頻內(nèi)容。圖中每秒采樣3幀進(jìn)行顯示,通過這些展示的幀,可直觀評(píng)估Emu3在視頻時(shí)間維度上的拓展能力,以及對(duì)視頻內(nèi)容未來發(fā)展的預(yù)測(cè)準(zhǔn)確性和合理性。

3.4 視覺 - 語(yǔ)言理解

為了評(píng)估在 2.5.2 節(jié)中微調(diào)后的 Emu3 的視覺 - 語(yǔ)言理解能力,我們?cè)诟鞣N公開的視覺 - 語(yǔ)言基準(zhǔn)測(cè)試中對(duì)模型進(jìn)行了測(cè)試。主要結(jié)果詳見表 6,比較了兩類方法:1)基于編碼器的方法,利用預(yù)訓(xùn)練的 CLIP 視覺編碼器;2)無(wú)編碼器的方法,無(wú)需預(yù)訓(xùn)練編碼器。Emu3 作為一種純粹的無(wú)編碼器方法脫穎而出,在多個(gè)基準(zhǔn)測(cè)試中顯著超越了其同類方法。這一成就的取得沒有依賴專門的預(yù)訓(xùn)練大語(yǔ)言模型和 CLIP,凸顯了 Emu3 在多模態(tài)理解方面的內(nèi)在能力和巨大潛力。

表6:在視覺 - 語(yǔ)言基準(zhǔn)測(cè)試中的比較- 該表收集了多個(gè)視覺 - 語(yǔ)言基準(zhǔn)測(cè)試(SEEDB即SEEDBench - Img、OCRB即OCRBench等)的評(píng)估數(shù)據(jù),用于對(duì)比Emu3與基于編碼器的方法(這類方法依賴預(yù)訓(xùn)練的CLIP視覺編碼器)和無(wú)編碼器的方法在這些測(cè)試中的表現(xiàn)。帶的表示在訓(xùn)練過程中觀察到了相關(guān)訓(xùn)練數(shù)據(jù)集的圖像,通過對(duì)比不同模型在各個(gè)基準(zhǔn)測(cè)試中的分?jǐn)?shù),評(píng)估Emu3在視覺 - 語(yǔ)言理解任務(wù)方面的能力和水平。


Emu3:僅需下一令牌預(yù)測(cè)-AI.x社區(qū)


4、相關(guān)工作

視覺 - 語(yǔ)言理解

CLIP 通過在大規(guī)模圖像 - 文本對(duì)上進(jìn)行對(duì)比學(xué)習(xí),學(xué)習(xí)可遷移的視覺表示,在圖像分類任務(wù)中實(shí)現(xiàn)了令人矚目的零樣本結(jié)果。Flamingo 通過將預(yù)訓(xùn)練的語(yǔ)言模型和類似于 CLIP 的視覺編碼器連接起來,首次展示了有前景的少樣本多模態(tài)理解能力。隨著大語(yǔ)言模型的日益普及和發(fā)展,將預(yù)訓(xùn)練的視覺編碼器與大語(yǔ)言模型融合,已成為訓(xùn)練廣泛的視覺 - 語(yǔ)言模型(VLMs)的常用方法。BLIP 系列、MiniGPT4 和 LLaVA 通過將視覺編碼器與大語(yǔ)言模型連接,并在圖像 - 文本對(duì)和視覺指令調(diào)整數(shù)據(jù)上進(jìn)行訓(xùn)練,展現(xiàn)出了令人鼓舞的結(jié)果。通過精心策劃的數(shù)據(jù)集和改進(jìn)的訓(xùn)練策略,LLaVA 系列及其他優(yōu)秀作品在性能上有了進(jìn)一步提升。雖然像 Fuyu 和 EVE 等模型引入了無(wú)編碼器的視覺 - 語(yǔ)言架構(gòu),將圖像補(bǔ)丁輸入到大語(yǔ)言模型中,但它們?cè)谂c最先進(jìn)的視覺 - 語(yǔ)言模型競(jìng)爭(zhēng)時(shí)仍面臨挑戰(zhàn)。Emu3 首次證明,僅在下一代令牌預(yù)測(cè)上訓(xùn)練的僅解碼器模型,能夠取得與基于編碼器的視覺 - 語(yǔ)言模型相當(dāng)甚至更優(yōu)的性能。這為這種架構(gòu)的進(jìn)一步改進(jìn)開辟了道路。

視覺生成

最近,視覺生成領(lǐng)域的進(jìn)展在很大程度上由擴(kuò)散模型主導(dǎo)。這些模型在通過擴(kuò)散過程生成高分辨率圖像方面展示出了令人印象深刻的能力。Stable Diffusion 系列的開源發(fā)布,推動(dòng)了這一方向的廣泛研究和發(fā)展。另一條研究路線是訓(xùn)練自回歸模型,通過預(yù)測(cè)序列中的下一個(gè)令牌來生成圖像,如 DALL-E、CogView 和 Parti。VideoGPT 和 VideoPoet 也在視頻領(lǐng)域采用自回歸方法。然而,它們要么在性能上無(wú)法與擴(kuò)散模型相媲美,要么依賴級(jí)聯(lián) / 組合方法,例如 VideoPoet 使用兩階段的生成和細(xì)化框架以及額外的文本編碼器。在這項(xiàng)工作中,Emu3 通過單個(gè) Transformer 解碼器展示了最先進(jìn)的圖像和視頻生成能力。值得注意的是,我們開源了相關(guān)技術(shù),以支持這一方向的進(jìn)一步研究和發(fā)展。

統(tǒng)一理解與生成

早期有一些統(tǒng)一視覺理解和生成的嘗試,在圖像和文本數(shù)據(jù)上探索各種生成目標(biāo)。Emu 和 Emu2 引入了統(tǒng)一的自回歸目標(biāo):通過回歸視覺嵌入或分類文本令牌來預(yù)測(cè)下一個(gè)多模態(tài)元素。CM3Leon 和 Chameleon 在混合的圖像和文本數(shù)據(jù)上訓(xùn)練基于令牌的自回歸模型。最近的方法如 TransFusion 和 Show-o 試圖結(jié)合擴(kuò)散和自回歸方法來提升性能。然而,這些模型在視覺生成和理解方面,仍落后于像 SDXL 和 LLaVA-1.6 這樣的特定任務(wù)架構(gòu)。Emu3 首次證明,跨圖像、視頻和文本的下一個(gè)令牌預(yù)測(cè)可以超越這些成熟的模型,而無(wú)需依賴組合方法。

5、結(jié)論

在本文中,我們介紹了 Emu3,這是一系列新的多模態(tài)模型,通過下一個(gè)令牌預(yù)測(cè)在多模態(tài)生成和感知方面表現(xiàn)卓越。通過將圖像、文本和視頻標(biāo)記為離散空間,并從頭開始訓(xùn)練單個(gè) Transformer,Emu3 不僅消除了對(duì)擴(kuò)散和組合方法的依賴,還超越了 SDXL 和 LLaVA-1.6 等已有的特定任務(wù)模型的性能。我們的結(jié)果有力地證明,下一個(gè)令牌預(yù)測(cè)可以作為多模態(tài)模型的強(qiáng)大范式,超越語(yǔ)言模型,在包括具有挑戰(zhàn)性的視頻生成在內(nèi)的各種任務(wù)中提供最先進(jìn)的性能。我們相信,下一個(gè)令牌預(yù)測(cè)在追求通用多模態(tài)智能的過程中不僅可行,而且具有優(yōu)勢(shì),使我們更接近通用人工智能的實(shí)現(xiàn)。


本文轉(zhuǎn)載自??AIRoobt?? ,作者:Emu3 Team

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
精品无人码麻豆乱码1区2区| 成人在线免费观看91| 亚洲一区二区三区在线看| 国产一区二区在线网站| 精人妻无码一区二区三区| 久久社区一区| 亚洲国产精品视频在线观看| 蜜臀久久99精品久久久酒店新书| 香蕉视频在线播放| 成人看片黄a免费看在线| 国产91在线高潮白浆在线观看| 影音先锋男人看片资源| 欧美午夜寂寞| 欧美精品久久天天躁| 免费看又黄又无码的网站| 国产亚洲精品久久777777| 偷拍亚洲精品| 日韩精品一区在线| 久久久久国产一区| 台湾佬中文娱乐网欧美电影| 一区在线观看视频| 免费成人深夜夜行视频| www.av导航| 免费观看成人鲁鲁鲁鲁鲁视频| 国产丝袜高跟一区| 免费不卡av网站| 99久久婷婷国产综合精品首页 | 欧美极品一区| 午夜精品久久久久久久爽| 日欧美一区二区| 91国产一区在线| 日本黄色片免费观看| 在线日本制服中文欧美| 亚欧色一区w666天堂| 中文字幕综合在线观看| www.亚洲资源| 久久久一区二区| 国产一区二区高清不卡 | 另类小说综合欧美亚洲| **欧美日韩vr在线| 国产亚洲精品码| 综合激情视频| 美女久久久久久久久久久| 污污视频在线免费| 久久免费影院| 欧美日韩一二三| 我看黄色一级片| 欧美影视资讯| 在线欧美小视频| 草草草在线视频| 中日韩脚交footjobhd| 午夜免费久久看| 久久久性生活视频| 国产夫妻在线| 精品欧美激情精品一区| 大西瓜av在线| www视频在线观看| 亚洲成人高清在线| 欧美激情视频免费看| 黄色在线观看视频网站| 亚洲香肠在线观看| 国产一二三在线视频| a在线视频v视频| 精品福利视频导航| 免费观看日韩毛片| 毛片在线播放a| 中文字幕中文字幕一区| 在线视频一区观看| av软件在线观看| 亚洲一区二区三区四区在线观看| www.日本三级| 不卡专区在线| 欧美亚洲日本一区| 亚洲第一狼人区| 成人污污视频| 亚洲精品www久久久| 野花社区视频在线观看| 三上亚洲一区二区| 九九精品在线观看| 五月婷婷中文字幕| 免费成人av在线播放| 91在线观看欧美日韩| 成人久久久精品国产乱码一区二区| 成人一区在线看| 日本一区美女| av网址在线播放| 色综合亚洲欧洲| 一区二区久久精品| 开心激情综合| 日韩欧美国产午夜精品| xxxxxx黄色| 欧美在线电影| 欧美激情2020午夜免费观看| 永久免费无码av网站在线观看| 奇米影视一区二区三区小说| 97人人干人人| 欧洲视频在线免费观看| 1000精品久久久久久久久| 亚洲熟妇无码一区二区三区导航| 国产精品亚洲一区二区三区在线观看 | 精品视频中文字幕| 91香蕉视频网| 国产精品尤物| 亚洲综合第一页| 你懂的免费在线观看视频网站| 亚洲人成精品久久久久| 欧美日韩视频在线一区二区观看视频 | 国产iv一区二区三区| 日韩高清国产精品| 黄色成人在线网| 欧美日韩国产精品成人| 免费a在线观看播放| 亚洲国产一区二区在线观看 | 老鸭窝毛片一区二区三区| 91精品免费视频| 国际av在线| 亚洲国产精品久久久久婷婷884| 噼里啪啦国语在线观看免费版高清版| 日韩三级精品| 日韩综合中文字幕| 国产精品国产三级国产传播| 亚欧成人精品| 国产精品久久久久久免费观看| eeuss影院www在线观看| 激情成人中文字幕| 特级特黄刘亦菲aaa级| 国产精品久久久久久久免费观看| 国产精品www| 亚洲欧美一区二区三| 一区二区三区蜜桃| 天堂中文av在线| 极品美女一区二区三区| 国产91精品不卡视频| 天堂在线免费观看视频| 国产不卡视频一区二区三区| 亚洲一区二区三区午夜| 激情视频在线观看| 欧美日韩一区精品| 天天操天天干天天操天天干| 日韩在线二区| 国产精品成人v| 麻豆导航在线观看| 福利一区视频在线观看| 中文字幕在线视频播放| 欧美日韩调教| 国产精品999| 欧美中文在线| 色爱区综合激月婷婷| 少妇饥渴放荡91麻豆| 在线日韩视频| 国产精品我不卡| 96av在线| 日韩精品亚洲元码| www五月天com| 欧美高清在线一区| 成人亚洲精品777777大片| 日韩亚洲一区在线| 91精品视频观看| 丝袜美腿av在线| 日韩欧美123| 国产精品变态另类虐交| 成人av网站大全| 每日在线更新av| 九九综合九九| 国产精品一区二区久久精品| 色综合久久影院| 欧美一级搡bbbb搡bbbb| 免费在线黄色片| av不卡一区二区三区| 国产日韩一区二区在线观看| 欧美少妇性xxxx| 成人中文字幕+乱码+中文字幕| caopeng在线| 亚洲激情中文字幕| 国产男人搡女人免费视频| 国产成人精品亚洲777人妖| www插插插无码免费视频网站| 成人福利一区| 久久精品国产欧美激情| 亚洲xxx在线| 国产精品精品国产色婷婷| 国产免费中文字幕| 在线精品观看| 色播亚洲婷婷| 视频在线亚洲| 国产精品av免费在线观看| 免费av在线| 亚洲第一网站免费视频| 国产一区二区视频免费| 亚洲男人的天堂一区二区| 国产精品久久不卡| 国产在线不卡| 日韩高清专区| 日韩精品一区二区三区中文在线 | 欧美日韩卡一| 久久久久五月天| 成人在线观看网站| 欧美精品一区二区三区很污很色的| 销魂美女一区二区| 一区二区三区在线观看国产 | 美女精品一区最新中文字幕一区二区三区| 国产精品久久久久久久午夜| 五月婷婷丁香花| 欧美日本在线观看| 国产精品久久久久久久妇| 中文字幕一区二| 精品人妻少妇嫩草av无码| 亚洲看片免费| 综合一区中文字幕| 国产一区二区电影在线观看| 99国内精品久久久久久久软件| 丝袜美腿一区| 高清在线视频日韩欧美| 免费看a在线观看| 亚洲人高潮女人毛茸茸| 日韩黄色片网站| 亚洲一区二区av电影| 成人欧美一区二区三区黑人一 | 日韩精品午夜视频| 国产精品久久..4399| 97精品国产| 日韩欧美亚洲v片| 偷拍自拍一区| 国产青春久久久国产毛片| 二区三区精品| 国产欧洲精品视频| 国产经典一区| 日本一区二区三区四区视频| 国产传媒av在线| 欧美高清在线观看| 在线观看中文字幕的网站| 日韩网站免费观看| 在线国产情侣| 中文字幕亚洲精品| 国产精品色综合| 在线观看中文字幕不卡| 亚洲欧美综合自拍| 天天综合色天天| 999这里只有精品| 午夜视频一区在线观看| 国产一级一级片| 亚洲国产日日夜夜| 精品无码黑人又粗又大又长| 亚洲欧美日韩国产一区二区三区| 国产亚洲精品久久久久久豆腐| 国产片一区二区| 四虎1515hh.com| 韩日欧美一区二区三区| 国产欧美激情视频| 国产一区在线视频| 韩国三级丰满少妇高潮| 国产成人在线网站| 欧美日韩人妻精品一区在线| 99久久伊人久久99| 日韩在线免费观看av| 国产三级精品三级在线专区| 黄色片网站免费| 中文字幕永久在线不卡| 亚洲少妇xxx| 亚洲精品成a人| 日本少妇裸体做爰| 日韩毛片视频在线看| 小嫩苞一区二区三区| 一区二区视频在线| 欧美激情亚洲综合| 在线观看网站黄不卡| 一区二区三区亚洲视频| 欧美精品免费视频| 二区三区在线视频| 国产手机视频精品| 老司机精品影院| 久久久久国产精品免费网站| 忘忧草在线影院两性视频| 国产精品av在线| 九九99久久精品在免费线bt| 高清不卡日本v二区在线| 亚洲精品国模| 伊人天天久久大香线蕉av色| 国产精品大片| 久久精品免费网站| 国产精品1区二区.| 波多野结衣福利| 国产精品久久久99| 国产无遮挡免费视频| 欧美系列日韩一区| 亚洲成人黄色片| 亚洲色图18p| 制服丝袜在线播放| 欧美一级片免费在线| 96视频在线观看欧美| 国产一区在线免费观看| 欧美3p视频| 国产精品专区在线| 韩国av一区二区三区| 国产肉体xxxx裸体784大胆| 国产精品福利一区| 五月婷婷亚洲综合| 日韩欧美在线网站| 国产欧美一级片| 亚洲精品久久久久久久久久久久久 | 欧美一区免费看| 日韩一级大片在线观看| 免费av在线电影| 欧美国产日韩xxxxx| 超碰这里只有精品| 久久久久一区二区| 一区二区日韩欧美| 一级特黄性色生活片| fc2成人免费人成在线观看播放 | 亚洲综合五月| 中文字幕无码不卡免费视频| 国产不卡高清在线观看视频| 国产一区二区三区视频播放| 狠狠久久五月精品中文字幕| 精品久久久久成人码免费动漫| 一区二区三区久久精品| 秋霞伦理一区| 国产女主播一区二区| 这里只有精品在线| 国产九九在线视频| 2020国产精品| 日本三级欧美三级| 欧美一二三区在线| 韩国中文字幕在线| 国产精品永久免费视频| 天堂俺去俺来也www久久婷婷| 日韩中文在线字幕| 久久精品国产亚洲一区二区三区| 91成年人网站| 日韩欧美在线免费观看| 欧美熟妇交换久久久久久分类| 久久色免费在线视频| 国产精品久久久久77777丨| 日本在线播放不卡| 午夜影院日韩| 18禁裸乳无遮挡啪啪无码免费| 精品久久久久久久久久ntr影视| 亚洲免费一级片| 欧美精品福利在线| 福利欧美精品在线| 久久综合中文色婷婷| 亚洲人成毛片在线播放女女| 风韵丰满熟妇啪啪区老熟熟女| 亚洲黄色小视频| 国产aⅴ一区二区三区| 欧美成人精品一区二区三区| 韩国一区二区三区视频| 91免费版看片| 成人综合婷婷国产精品久久蜜臀| 久久久久久激情| 亚洲第一综合天堂另类专| 91豆花视频在线播放| 国产亚洲精品久久飘花| 免费永久网站黄欧美| 亚洲午夜久久久久久久久红桃 | 欧美激情网友自拍| 精品少妇一区| 奇米影视亚洲色图| 久久综合九色综合97婷婷| 中文字幕一区二区人妻电影| 亚洲欧美日韩中文视频| 日本精品另类| 亚洲精品偷拍视频| 成人精品gif动图一区| 国产成人免费观看视频| 在线观看成人黄色| 国产剧情一区二区在线观看| 国产 欧美 日韩 一区| 波多野结衣精品在线| 无码人妻av免费一区二区三区 | 老色鬼精品视频在线观看播放| 中文乱码字幕高清一区二区| 日韩欧美国产一二三区| 国产亚洲成av人片在线观看| 日本一区二区三区免费看| 久久99精品久久久久久动态图| 免费毛片在线播放免费| 精品亚洲一区二区三区四区五区| 日韩制服一区| 成年丰满熟妇午夜免费视频| 白白色亚洲国产精品| 无码人妻黑人中文字幕| 久久香蕉频线观| 奇米影视777在线欧美电影观看| 亚洲三级视频网站| 亚洲一区二区三区三| av在线播放网| 国产在线精品一区| 美女在线视频一区| 日本少妇xxxx动漫| 久久精品这里热有精品| 精品网站aaa| 特黄视频免费观看| 日韩欧美在线中文字幕| 国产传媒在线播放| 欧美一区二区综合| 国产99久久久国产精品潘金| 老熟妇一区二区三区| 久久久久久久91| 99国内精品久久久久久久|