精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

為什么多模態(tài)AI是下一個(gè)風(fēng)口?深度解讀新一代LLM 精華

發(fā)布于 2024-12-26 13:18
瀏覽
1收藏

本文旨在解釋多模態(tài)大語(yǔ)言模型的工作原理。此外,還將回顧并總結(jié)最近幾周發(fā)布的十幾篇多模態(tài)研究論文和模型(包括 Llama 3.2)的內(nèi)容,以比較它們的不同實(shí)現(xiàn)方式。

為什么多模態(tài)AI是下一個(gè)風(fēng)口?深度解讀新一代LLM-AI.x社區(qū)

一、多模態(tài)大語(yǔ)言模型是什么?

多模態(tài)大語(yǔ)言模型(Multimodal Large Language Models,簡(jiǎn)稱Multimodal LLMs)是一種能夠理解和生成多種類型數(shù)據(jù)的模型,包括文本、圖片、音頻和視頻等。這些模型可以跨越不同的數(shù)據(jù)形式,進(jìn)行信息的交互與生成。例如,傳統(tǒng)語(yǔ)言模型只能處理文字,但多模態(tài)模型不僅能“讀”文字,還能“看”圖片、“聽(tīng)”聲音,甚至“看”視頻,并用文字或其他形式將它們的理解表達(dá)出來(lái)。

一個(gè)典型的應(yīng)用場(chǎng)景是圖片描述。例如,你可以上傳一張圖片,模型可以用自然語(yǔ)言準(zhǔn)確地描述圖片中的內(nèi)容。它還能完成更復(fù)雜的任務(wù),比如提取PDF文件中的表格數(shù)據(jù),生成學(xué)術(shù)文檔所需的LaTeX格式等。不管是日常生活中的實(shí)用性,還是在專業(yè)領(lǐng)域的助力,多模態(tài)模型都展示了其廣泛的應(yīng)用潛力。

為什么多模態(tài)AI是下一個(gè)風(fēng)口?深度解讀新一代LLM-AI.x社區(qū)

二、構(gòu)建多模態(tài)大語(yǔ)言模型的常見(jiàn)方法

構(gòu)建多模態(tài)大語(yǔ)言模型(LLM)主要有兩種常見(jiàn)的方法:

  • 方法A:統(tǒng)一嵌入解碼架構(gòu)(Unified Embedding Decoder Architecture);
  • 方法B:跨模態(tài)注意力架構(gòu)(Cross-Modality Attention Architecture)。

為什么多模態(tài)AI是下一個(gè)風(fēng)口?深度解讀新一代LLM-AI.x社區(qū)

如上圖所示,統(tǒng)一嵌入解碼架構(gòu)(Unified Embedding-Decoder Architecture)使用單一解碼模型,其結(jié)構(gòu)類似于未修改的大語(yǔ)言模型架構(gòu),例如 GPT-2 或 Llama 3.2。在這種方法中,圖像被轉(zhuǎn)換為與原始文本標(biāo)記(Token)相同的嵌入大小,使得LLM能夠在文本和圖像輸入標(biāo)記合并后共同處理這些數(shù)據(jù)。

相比之下,跨模態(tài)注意力架構(gòu)(Cross-Modality Attention Architecture)通過(guò)跨注意力機(jī)制在注意力層中直接集成圖像和文本嵌入。

接下來(lái)的部分將從概念層面探索這些方法如何工作,并結(jié)合最近的多模態(tài)LLM研究論文,探討它們?cè)趯?shí)際應(yīng)用中的實(shí)現(xiàn)方式。

2.1 方法A:統(tǒng)一嵌入解碼架構(gòu)

讓我們先從統(tǒng)一嵌入解碼架構(gòu)開(kāi)始,這種架構(gòu)如下面的圖示所示。

為什么多模態(tài)AI是下一個(gè)風(fēng)口?深度解讀新一代LLM-AI.x社區(qū)

統(tǒng)一嵌入解碼架構(gòu)的圖示,這一架構(gòu)基于未修改的解碼器風(fēng)格的大語(yǔ)言模型(如 GPT-2、Phi-3、Gemma 或 Llama 3.2),模型接收的輸入包括圖像標(biāo)記和文本標(biāo)記的嵌入。

在統(tǒng)一嵌入解碼架構(gòu)中,圖像被轉(zhuǎn)換為嵌入向量,其過(guò)程與標(biāo)準(zhǔn)文本語(yǔ)言模型處理文本時(shí)將輸入文本轉(zhuǎn)換為嵌入的方式類似。

對(duì)于一個(gè)典型的僅處理文本的LLM來(lái)說(shuō),文本輸入通常會(huì)經(jīng)過(guò)以下步驟:
a. **標(biāo)記化:**文本被分解為小的單位(如使用字節(jié)對(duì)編碼法,Byte-Pair Encoding);
b. **嵌入層處理:**這些標(biāo)記通過(guò)嵌入層轉(zhuǎn)換為嵌入向量。

為什么多模態(tài)AI是下一個(gè)風(fēng)口?深度解讀新一代LLM-AI.x社區(qū)

2.1.1 理解圖像編碼器

類似于文本的標(biāo)記化和嵌入生成,圖像嵌入是通過(guò)一個(gè)圖像編碼器模塊生成的(而不是通過(guò)標(biāo)記器生成),如下圖所示。

為什么多模態(tài)AI是下一個(gè)風(fēng)口?深度解讀新一代LLM-AI.x社區(qū)

圖像編碼器的內(nèi)部如何工作?如圖所示,為了處理一張圖像,我們首先將圖像分割成小塊,就像在標(biāo)記化過(guò)程中將單詞分解為子詞一樣。這些小塊隨后由一個(gè)預(yù)訓(xùn)練的**視覺(jué)Transformer(Vision Transformer,簡(jiǎn)稱ViT)**進(jìn)行編碼,具體過(guò)程如下面的圖示所示。

為什么多模態(tài)AI是下一個(gè)風(fēng)口?深度解讀新一代LLM-AI.x社區(qū)

該圖示展示了經(jīng)典ViT模型的設(shè)置,與論文《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale》(2020年)中提出的模型類似。
需要注意的是,ViT通常用于分類任務(wù),因此上圖中包含了一個(gè)分類頭(classification head)。然而,在這里我們只需要使用圖像編碼器部分。

2.1.2 線性投影模塊的作用

前一圖示中的“線性投影”(linear projection)由一個(gè)單獨(dú)的線性層(即全連接層)組成。其作用是將經(jīng)過(guò)展平的圖像塊投影為一個(gè)與Transformer編碼器兼容的嵌入尺寸。如下圖所示,這一線性投影的過(guò)程展示了如何將一個(gè)展平的圖像塊從256維向量投影為768維向量。

為什么多模態(tài)AI是下一個(gè)風(fēng)口?深度解讀新一代LLM-AI.x社區(qū)

上圖展示了線性投影層如何將展平的圖像塊從256維嵌入空間映射到768維嵌入空間。如果更傾向于通過(guò)代碼示例理解,我們可以用以下PyTorch代碼實(shí)現(xiàn)對(duì)圖像塊的線性投影:

ounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(line
import torch




class PatchProjectionLayer(torch.nn.Module):


    def __init__(self, patch_size, num_channels, embedding_dim):
        super().__init__()
        self.patch_size = patch_size
        self.num_channels = num_channels
        self.embedding_dim = embedding_dim
        self.projection = torch.nn.Linear(
            patch_size * patch_size * num_channels, embedding_dim
        )


    def forward(self, x):


        batch_size, num_patches, channels, height, width = x.size()
        x = x.view(batch_size, num_patches, -1)  # Flatten each patch
        x = self.projection(x)  # Project each flattened patch
        return x




# Example Usage:
batch_size = 1
num_patches = 9  # Total patches per image
patch_size = 16  # 16x16 pixels per patch
num_channels = 3  # RGB image
embedding_dim = 768  # Size of the embedding vector


projection_layer = PatchProjectionLayer(patch_size, num_channels, embedding_dim)


patches = torch.rand(
    batch_size, num_patches, num_channels, patch_size, patch_size
)


projected_embeddings = projection_layer(patches)
print(projected_embeddings.shape)


# This prints
# torch.Size([1, 9, 768])

如果你閱讀過(guò)機(jī)器學(xué)習(xí)問(wèn)與答》(Machine Learning Q and AI)一書(shū),你可能知道,可以用卷積操作來(lái)替代線性層,并實(shí)現(xiàn)數(shù)學(xué)上的等價(jià)性。在這里,這種方法尤其實(shí)用,因?yàn)槲覀兛梢酝ㄟ^(guò)卷積操作同時(shí)完成圖像塊的創(chuàng)建和投影,僅需兩行代碼:

ounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(line
layer = torch.nn.Conv2d(3, 768, kernel_size=(16, 16), stride=(16, 16))


image = torch.rand(batch_size, 3, 48, 48)
projected_patches = layer(image)


print(projected_patches.flatten(-2).transpose(-1, -2).shape)
# This prints
# torch.Size([1, 9, 768])

2.1.3 圖像與文本的標(biāo)記化對(duì)比

在簡(jiǎn)單討論了圖像編碼器(及其包含的線性投影)的作用后,讓我們回到之前提到的文本標(biāo)記化類比,進(jìn)一步比較圖像和文本標(biāo)記化與嵌入的過(guò)程,如下圖所示。

為什么多模態(tài)AI是下一個(gè)風(fēng)口?深度解讀新一代LLM-AI.x社區(qū)

上圖展示了圖像和文本標(biāo)記化過(guò)程的并排對(duì)比。可以看到,在圖像編碼器之后,我添加了一個(gè)額外的投影模塊(projector)。這一模塊通常是一個(gè)線性投影層,與前面提到的類似,其目的是將圖像編碼器的輸出投影到與文本標(biāo)記嵌入相匹配的維度,如下圖所示。(需要注意的是,這個(gè)模塊有時(shí)也被稱為適配器、連接器或轉(zhuǎn)換器。)

為什么多模態(tài)AI是下一個(gè)風(fēng)口?深度解讀新一代LLM-AI.x社區(qū)

現(xiàn)在,圖像塊嵌入的維度已經(jīng)與文本標(biāo)記嵌入的維度相同,因此我們可以將它們簡(jiǎn)單地拼接在一起,作為輸入提供給大語(yǔ)言模型(LLM)。為了方便參考,以下再次展示了本節(jié)開(kāi)頭的圖示。

為什么多模態(tài)AI是下一個(gè)風(fēng)口?深度解讀新一代LLM-AI.x社區(qū)

將圖像塊標(biāo)記投影到與文本標(biāo)記嵌入相同維度后,拼接為標(biāo)準(zhǔn)LLM的輸入。順便提一下,此部分討論的圖像編碼器通常是預(yù)訓(xùn)練的視覺(jué)Transformer(ViT)。一個(gè)常見(jiàn)的選擇是CLIP或OpenCLIP。

然而,方法A也有一些變體可以直接處理圖像塊,例如Fuyu模型,如下圖所示。

為什么多模態(tài)AI是下一個(gè)風(fēng)口?深度解讀新一代LLM-AI.x社區(qū)

如上圖所示,F(xiàn)uyu模型直接將輸入的圖像塊送入線性投影層(或嵌入層),通過(guò)自身學(xué)習(xí)圖像塊的嵌入,而不像其他模型和方法那樣依賴額外的預(yù)訓(xùn)練圖像編碼器。這種方法顯著簡(jiǎn)化了架構(gòu)和訓(xùn)練流程。

2.2 方法B:跨模態(tài)注意力架構(gòu)

在討論了統(tǒng)一嵌入解碼架構(gòu)的方法并理解了圖像編碼的基本概念后,我們來(lái)探討另一種實(shí)現(xiàn)多模態(tài)LLM的方法:跨模態(tài)注意力架構(gòu),如下圖所示。

為什么多模態(tài)AI是下一個(gè)風(fēng)口?深度解讀新一代LLM-AI.x社區(qū)

在上圖所示的跨模態(tài)注意力架構(gòu)中,我們?nèi)匀皇褂们懊嬗懻摰膱D像編碼器設(shè)置。然而,不同的是,這種方法不是將圖像塊編碼作為L(zhǎng)LM的輸入,而是通過(guò)多頭注意力層中的跨注意力機(jī)制將輸入圖像塊連接起來(lái)。

這一思想可以追溯到2017年提出的經(jīng)典Transformer架構(gòu)(Attention Is All You Need論文),如下圖所示。

為什么多模態(tài)AI是下一個(gè)風(fēng)口?深度解讀新一代LLM-AI.x社區(qū)

需要注意的是,上圖中原始的Attention Is All You Need Transformer最初是為語(yǔ)言翻譯開(kāi)發(fā)的。因此,它由一個(gè)文本編碼器(圖的左側(cè))和一個(gè)文本解碼器(圖的右側(cè))組成,用于生成翻譯結(jié)果。在多模態(tài)LLM的背景下,編碼器部分被圖像編碼器取代,但核心思想保持一致。

跨注意力是如何工作的?我們來(lái)看一個(gè)概念圖,展示了常規(guī)自注意力機(jī)制內(nèi)部的運(yùn)行方式。

為什么多模態(tài)AI是下一個(gè)風(fēng)口?深度解讀新一代LLM-AI.x社區(qū)

在上圖中,輸入為 x,而 W_q 是生成查詢(Query, Q)的權(quán)重矩陣。同樣,K 表示鍵(Key),V 表示值(Value)。A 是注意力分?jǐn)?shù)矩陣,Z 則是輸入 x 轉(zhuǎn)換后的輸出上下文向量。

在跨注意力中,與自注意力不同,我們有兩個(gè)不同的輸入來(lái)源,如下圖所示。

為什么多模態(tài)AI是下一個(gè)風(fēng)口?深度解讀新一代LLM-AI.x社區(qū)

跨注意力的示意圖,在跨注意力中,可能存在兩個(gè)不同的輸入 x_1 和 x_2。如前兩幅圖所示,在自注意力中,我們處理的是同一個(gè)輸入序列。而在跨注意力中,我們混合或結(jié)合了兩個(gè)不同的輸入序列。

在經(jīng)典 Transformer 架構(gòu)(Attention Is All You Need 論文)中,兩個(gè)輸入 x_1 和 x_2 分別對(duì)應(yīng)于編碼器模塊輸出的序列(x_2)和解碼器部分正在處理的輸入序列(x_1)。在多模態(tài)LLM的上下文中,x_2 是圖像編碼器的輸出。(請(qǐng)注意,查詢通常來(lái)自解碼器,而鍵和值通常來(lái)自編碼器。)

值得注意的是,在跨注意力中,兩個(gè)輸入序列 x_1 和 x_2 的元素?cái)?shù)量可以不同,但它們的嵌入維度必須匹配。如果我們?cè)O(shè)置 x_1 = x_2,那么這相當(dāng)于自注意力。

三、統(tǒng)一解碼器與跨注意力模型的訓(xùn)練

在討論了多模態(tài)設(shè)計(jì)的兩大主要選擇后,讓我們簡(jiǎn)要談?wù)勀P陀?xùn)練中涉及的三個(gè)主要組件,它們?cè)谙聢D中有所概述。

為什么多模態(tài)AI是下一個(gè)風(fēng)口?深度解讀新一代LLM-AI.x社區(qū)

多模態(tài)LLM的不同組件概覽,編號(hào)為1-3的組件可以在多模態(tài)訓(xùn)練過(guò)程中凍結(jié)或解凍。與傳統(tǒng)文本LLM的開(kāi)發(fā)類似,多模態(tài)LLM的訓(xùn)練也分為兩個(gè)階段:預(yù)訓(xùn)練 和 指令微調(diào)。然而,與從零開(kāi)始訓(xùn)練不同,多模態(tài)LLM通常以一個(gè)預(yù)訓(xùn)練且已進(jìn)行指令微調(diào)的文本LLM作為基礎(chǔ)模型開(kāi)始訓(xùn)練。

對(duì)于圖像編碼器,通常使用 CLIP,并在整個(gè)訓(xùn)練過(guò)程中保持不變,盡管也有例外。

在預(yù)訓(xùn)練階段,通常將LLM部分凍結(jié),只訓(xùn)練投影器(通常是一個(gè)線性層或一個(gè)小型多層感知機(jī),MLP)。由于投影器的學(xué)習(xí)能力有限(通常僅包含一到兩層),LLM通常會(huì)在多模態(tài)指令微調(diào)階段(階段2)解凍,以實(shí)現(xiàn)更全面的更新。但在基于跨注意力的模型(方法B)中,跨注意力層在整個(gè)訓(xùn)練過(guò)程中都是解凍的。

在介紹了兩種主要方法(方法A:統(tǒng)一嵌入解碼架構(gòu)和方法B:跨模態(tài)注意力架構(gòu))后,可能會(huì)問(wèn)哪種方法更有效。答案取決于具體的權(quán)衡。

  • 統(tǒng)一嵌入解碼架構(gòu)(方法A)通常更容易實(shí)現(xiàn),因?yàn)樗恍枰獙?duì)LLM架構(gòu)本身進(jìn)行修改。
  • 跨模態(tài)注意力架構(gòu)(方法B)通常被認(rèn)為在計(jì)算效率上更優(yōu),因?yàn)樗粫?huì)通過(guò)額外的圖像標(biāo)記超載輸入上下文,而是將它們稍后引入跨注意力層。

此外,如果在訓(xùn)練期間凍結(jié)LLM參數(shù),該方法還能保持原始文本LLM的性能。

四、最新的多模態(tài)模型與方法

在本文的剩余部分,將回顧關(guān)于多模態(tài)LLM的文獻(xiàn)。這并非多模態(tài)LLM的歷史性概覽或全面綜述。以下是這些論文的詳細(xì)內(nèi)容:

4.1 The Llama 3 Herd of Models

Meta AI 在 2024 年 7 月 31 日發(fā)布了 Llama 3 Herd of Models 論文,這標(biāo)志著 Llama 3 系列多模態(tài)模型的推出。雖然在論文發(fā)布時(shí)未正式發(fā)布模型,但 Llama 3.2 系列模型于 9 月 25 日正式宣布并開(kāi)放使用。

Llama 3.2 系列包括 110 億和 900 億參數(shù)版本,采用此前描述的 基于跨注意力的方法(方法B),具體結(jié)構(gòu)如下圖所示。

為什么多模態(tài)AI是下一個(gè)風(fēng)口?深度解讀新一代LLM-AI.x社區(qū)

Llama 3.2 多模態(tài)模型架構(gòu)(圖注來(lái)自 Llama 3 論文:https://arxiv.org/abs/2407.21783)。

不同于多模態(tài)LLM開(kāi)發(fā)中通常凍結(jié)圖像編碼器的做法,Llama 3.2 研究團(tuán)隊(duì)反其道而行之,他們選擇更新圖像編碼器的參數(shù),而保持語(yǔ)言模型的參數(shù)不變。這是為了保留文本模型的能力,使得 110 億和 900 億參數(shù)的多模態(tài)模型可以直接替代文本模型 Llama 3.1 8B 和 70B,用于純文本任務(wù)。訓(xùn)練過(guò)程:

  • 訓(xùn)練從 Llama 3.1 文本模型開(kāi)始,添加圖像編碼器和投影器(在此稱為“適配器”)后,先在圖像-文本數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練。
  • 接著,進(jìn)行類似 Llama 3 僅文本模型的指令和偏好微調(diào)。

研究團(tuán)隊(duì)選擇不使用預(yù)訓(xùn)練的圖像編碼器(如 CLIP),而是從零開(kāi)始訓(xùn)練一個(gè)視覺(jué)Transformer。具體來(lái)說(shuō),他們采用經(jīng)典 ViT 架構(gòu)中的 ViT-H/14(包含 6.3 億參數(shù)),并在 25 億圖像-文本對(duì)數(shù)據(jù)集上進(jìn)行了五輪訓(xùn)練,然后將其連接到 LLM。

此外,由于跨注意力層引入了大量參數(shù),這些層只添加到每四個(gè) Transformer 塊中:

  • 對(duì)于 8B 模型,增加了 30 億參數(shù)。
  • 對(duì)于 70B 模型,增加了 200 億參數(shù)。

4.2 Molmo 和 PixMo:開(kāi)源權(quán)重與數(shù)據(jù)的多模態(tài)模型

2024 年 9 月 25 日,Molmo 和 PixMo 論文提出了一種開(kāi)源模式,承諾開(kāi)放模型權(quán)重、數(shù)據(jù)集以及源碼。Molmo(Multimodal Open Language Model)是模型名稱,而 PixMo(Pixels for Molmo)是數(shù)據(jù)集的名稱。

為什么多模態(tài)AI是下一個(gè)風(fēng)口?深度解讀新一代LLM-AI.x社區(qū)

Molmo 解碼器僅方法(方法A)架構(gòu)(圖注來(lái)自論文:https://arxiv.org/abs/2409.17146)。
Molmo 使用現(xiàn)成的 CLIP 作為圖像編碼器,并通過(guò)“連接器”(即“投影器”)對(duì)齊圖像特征和語(yǔ)言模型。訓(xùn)練策略:

  • 采用簡(jiǎn)化的訓(xùn)練流程,避免多個(gè)預(yù)訓(xùn)練階段。
  • 統(tǒng)一更新基礎(chǔ)LLM、連接器和圖像編碼器的參數(shù)。

Molmo 提供多種基礎(chǔ)LLM選項(xiàng):

  • OLMo-7B-1024(完全開(kāi)源的模型骨干);
  • OLMoE-1B-7B(專家混合架構(gòu),最為高效);
  • Qwen2 7B(性能優(yōu)于 OLMo-7B-1024 的開(kāi)源權(quán)重模型);
  • Qwen2 72B(最佳性能的開(kāi)源權(quán)重模型)。

4.3 NVLM:開(kāi)放的前沿級(jí)多模態(tài)LLM

NVIDIA 于 2024 年 9 月 17 日發(fā)布了 NVLM: Open Frontier-Class Multimodal LLMs 論文,該研究探討了三種方法:

  • 方法A:統(tǒng)一嵌入解碼架構(gòu)(NVLM-D);
  • 方法B:跨模態(tài)注意力架構(gòu)(NVLM-X);
  • 混合方法:NVLM-H,將兩種方法的優(yōu)勢(shì)結(jié)合。

為什么多模態(tài)AI是下一個(gè)風(fēng)口?深度解讀新一代LLM-AI.x社區(qū)

NVLM 的三種多模態(tài)方法概覽(圖注來(lái)自論文:https://arxiv.org/abs/2409.11402)。

如下圖所總結(jié),NVLM-D 對(duì)應(yīng)方法 A,NVLM-X 對(duì)應(yīng)方法 B(如前文所述)。混合模型(NVLM-H)的概念是結(jié)合兩種方法的優(yōu)勢(shì):輸入一張圖像縮略圖后,通過(guò)跨注意力機(jī)制動(dòng)態(tài)引入若干圖像塊,以捕捉更精細(xì)的高分辨率細(xì)節(jié)。

簡(jiǎn)而言之,研究團(tuán)隊(duì)發(fā)現(xiàn)以下結(jié)論:

  • NVLM-X 在處理高分辨率圖像時(shí)展現(xiàn)出優(yōu)越的計(jì)算效率。
  • NVLM-D 在與 OCR 相關(guān)的任務(wù)中達(dá)到了更高的準(zhǔn)確性。
  • NVLM-H 結(jié)合了兩種方法的優(yōu)勢(shì)。

與 Molmo 及其他類似方法一樣,他們以僅文本的大語(yǔ)言模型(LLM)為基礎(chǔ)模型,而不是從零開(kāi)始預(yù)訓(xùn)練多模態(tài)模型(這種方式通常效果更好)。此外,他們使用的是經(jīng)過(guò)指令微調(diào)的 LLM,而不是基礎(chǔ)模型。具體來(lái)說(shuō),其核心 LLM 是 Qwen2-72B-Instruct(據(jù)我所知,Molmo 使用的是 Qwen2-72B 的基礎(chǔ)版本)。

在 NVLM-D 方法中,他們訓(xùn)練了所有的 LLM 參數(shù);但對(duì)于 NVLM-X 方法,他們發(fā)現(xiàn)凍結(jié)原始 LLM 的參數(shù),僅在預(yù)訓(xùn)練和指令微調(diào)階段訓(xùn)練跨注意力層效果良好。

對(duì)于圖像編碼器,他們沒(méi)有使用常見(jiàn)的 CLIP 模型,而是使用 InternViT-6B,并在所有階段保持其參數(shù)凍結(jié)。

此外,投影器(projector)使用的是一個(gè)多層感知機(jī)(MLP),而非單一線性層。

4.4 Qwen2-VL:提升視覺(jué)-語(yǔ)言模型的感知能力

前面提到的兩篇論文和模型(Molmo 和 NVLM)都基于 Qwen2-72B LLM。而在這篇論文中,Qwen 研究團(tuán)隊(duì)正式發(fā)布了一種多模態(tài) LLM Qwen2-VL,全稱為 Enhancing Vision-Language Model’s Perception of the World at Any Resolution(提升視覺(jué)-語(yǔ)言模型對(duì)任意分辨率圖像的感知能力),發(fā)布時(shí)間為 2024 年 10 月 3 日。

這項(xiàng)工作的核心在于其所謂的“Naive Dynamic Resolution”(樸素動(dòng)態(tài)分辨率)機(jī)制。這種機(jī)制允許模型處理不同分辨率的圖像,而無(wú)需簡(jiǎn)單的降采樣,從而能夠輸入原始分辨率的圖像。

為什么多模態(tài)AI是下一個(gè)風(fēng)口?深度解讀新一代LLM-AI.x社區(qū)

Qwen 多模態(tài)模型概覽:Qwen2-VL 模型能夠原生地處理各種不同分辨率的輸入圖像。(圖注來(lái)自 Qwen2-VL 論文:https://arxiv.org/abs/2409.12191)。

這種原生分辨率輸入通過(guò)對(duì) ViT(視覺(jué) Transformer)進(jìn)行修改實(shí)現(xiàn),具體方法是移除原有的絕對(duì)位置嵌入(absolute position embeddings),并引入 2D-RoPE(二維旋轉(zhuǎn)位置嵌入)。

研究團(tuán)隊(duì)使用了一個(gè)經(jīng)典的視覺(jué)編碼器,其參數(shù)量為 6.75 億,并結(jié)合了不同大小的 LLM 骨干模型,具體如表所示。

為什么多模態(tài)AI是下一個(gè)風(fēng)口?深度解讀新一代LLM-AI.x社區(qū)

模型的訓(xùn)練分為以下三個(gè)階段:
1. 預(yù)訓(xùn)練階段:僅訓(xùn)練圖像編碼器。
2. 全參數(shù)解凍階段:解凍所有參數(shù)(包括 LLM),統(tǒng)一預(yù)訓(xùn)練。
3. 指令微調(diào)階段:凍結(jié)圖像編碼器,僅微調(diào) LLM。

4.5 Pixtral 12B

Pixtral 12B(2024 年 9 月 17 日發(fā)布)是 Mistral AI 推出的首個(gè)多模態(tài)模型,采用了 方法 A:統(tǒng)一嵌入解碼架構(gòu)。遺憾的是,目前尚未提供技術(shù)論文或報(bào)告,但 Mistral 團(tuán)隊(duì)在博客文章中分享了一些有趣的細(xì)節(jié)。

一個(gè)引人注目的決定是,他們沒(méi)有使用預(yù)訓(xùn)練的圖像編碼器,而是從零開(kāi)始訓(xùn)練了一個(gè)具有 4 億參數(shù)的圖像編碼器。對(duì)于 LLM 的主干模型,他們選擇了 12 億參數(shù)的 Mistral NeMo 模型。

與 Qwen2-VL 類似,Pixtral 也原生支持可變圖像大小,如下圖所示。

通過(guò)這種設(shè)計(jì),Pixtral 展現(xiàn)了其在多模態(tài)輸入處理上的靈活性,無(wú)需依賴固定分辨率或降采樣。此特點(diǎn)使其在處理多樣化的圖像輸入任務(wù)時(shí)具備顯著優(yōu)勢(shì)。

為什么多模態(tài)AI是下一個(gè)風(fēng)口?深度解讀新一代LLM-AI.x社區(qū)

Pixtral 支持不同圖像尺寸的處理(圖注來(lái)自 Pixtral 博客文章:https://mistral.ai/news/pixtral-12b/)。

4.6 MM1.5:多模態(tài) LLM 微調(diào)方法、分析與洞見(jiàn)

MM1.5: Methods, Analysis & Insights from Multimodal LLM Fine-tuning 論文(2024 年 9 月 30 日發(fā)布)提供了一些實(shí)用的微調(diào)技巧,并介紹了一種多模態(tài)的專家混合模型(Mixture-of-Experts,MoE)以及類似于 Molmo 的稠密模型。這些模型的參數(shù)規(guī)模從 10 億到 300 億不等,覆蓋了多種大小的模型需求。

該論文中的模型重點(diǎn)采用了 方法 A:統(tǒng)一嵌入 Transformer 架構(gòu),這一架構(gòu)能夠有效地結(jié)構(gòu)化輸入,優(yōu)化多模態(tài)學(xué)習(xí)的表現(xiàn)。

此外,論文還進(jìn)行了多項(xiàng)有趣的消融研究,探討了以下內(nèi)容:

  • 數(shù)據(jù)混合方式:不同數(shù)據(jù)類型的組合對(duì)模型性能的影響;
  • 坐標(biāo)標(biāo)記(coordinate tokens)的作用:在多模態(tài)模型中用于表示輸入邊界框等信息,研究其對(duì)學(xué)習(xí)能力和推理結(jié)果的影響。

這些研究不僅為多模態(tài) LLM 的設(shè)計(jì)提供了理論支持,還為模型開(kāi)發(fā)者在微調(diào)過(guò)程中提供了實(shí)踐指導(dǎo)。

為什么多模態(tài)AI是下一個(gè)風(fēng)口?深度解讀新一代LLM-AI.x社區(qū)

MM1.5 方法示意圖MM1.5 方法中引入了額外的 坐標(biāo)標(biāo)記(coordinate tokens),用于表示輸入圖像中邊界框的位置信息。(圖注來(lái)自 MM1.5 論文:https://arxiv.org/abs/2409.20566。)

4.7 Aria: 開(kāi)放的多模態(tài)原生專家混合模型

Aria: An Open Multimodal Native Mixture-of-Experts Model 論文(2024 年 10 月 8 日發(fā)布)提出了一種專家混合模型(Mixture-of-Experts, MoE)的方法,與 Molmo 和 MM1.5 系列中的變體類似。

Aria 模型的參數(shù)構(gòu)成:
? 模型總參數(shù)量:24.9 億。
? 分配給每個(gè)文本標(biāo)記的參數(shù):3.5 億。
? 圖像編碼器(SigLIP)的參數(shù)量:438 萬(wàn)。

模型架構(gòu)

Aria 基于 跨模態(tài)注意力方法(Cross-Attention Approach),并采用以下整體訓(xùn)練流程:
1. 完全從零開(kāi)始訓(xùn)練 LLM 骨干網(wǎng)絡(luò):與其他通常以預(yù)訓(xùn)練文本模型為基礎(chǔ)的方法不同,Aria 從頭開(kāi)始構(gòu)建 LLM。
2. 預(yù)訓(xùn)練 LLM 骨干網(wǎng)絡(luò)和視覺(jué)編碼器:在早期階段同時(shí)對(duì)語(yǔ)言和圖像處理能力進(jìn)行優(yōu)化。

設(shè)計(jì)特點(diǎn)

Aria 模型充分利用跨模態(tài)注意力機(jī)制,能夠有效整合文本和圖像信息。其訓(xùn)練流程強(qiáng)調(diào)從零開(kāi)始構(gòu)建,表明研究團(tuán)隊(duì)試圖通過(guò)精細(xì)控制訓(xùn)練過(guò)程來(lái)進(jìn)一步優(yōu)化模型性能。這種方法與其他基于預(yù)訓(xùn)練模型的方法形成了鮮明對(duì)比,為多模態(tài) LLM 的研究提供了另一種思路。

4.8 Baichuan-Omni

Baichuan-Omni 技術(shù)報(bào)告(2024 年 10 月 11 日發(fā)布)介紹了 Baichuan-Omni 模型,這是一種具有 70 億參數(shù)的多模態(tài) LLM,基于 方法 A:統(tǒng)一嵌入解碼架構(gòu),如圖所示。

為什么多模態(tài)AI是下一個(gè)風(fēng)口?深度解讀新一代LLM-AI.x社區(qū)

Baichuan-Omni 能夠處理多種輸入模態(tài)。(圖注來(lái)自 Baichuan-Omni 論文:??https://arxiv.org/abs/2410.08565)??

Baichuan-Omni 的訓(xùn)練采用三階段方法:
1. 投影器訓(xùn)練(Projector training):
? 初始階段,僅訓(xùn)練投影器模塊,同時(shí)凍結(jié)視覺(jué)編碼器和語(yǔ)言模型(LLM)。
2. 視覺(jué)編碼器訓(xùn)練(Vision encoder training):
? 解凍視覺(jué)編碼器并進(jìn)行訓(xùn)練,而 LLM 仍然保持凍結(jié)狀態(tài)。
3. 全模型訓(xùn)練(Full model training):
? 最后階段,解凍 LLM,允許整個(gè)模型進(jìn)行端到端訓(xùn)練。

模型特點(diǎn):
? 使用 SigLIP 視覺(jué)編碼器。
? 集成了 AnyRes 模塊,通過(guò)下采樣技術(shù)處理高分辨率圖像。
? 雖然報(bào)告未明確說(shuō)明 LLM 的骨干網(wǎng)絡(luò),但根據(jù)模型參數(shù)規(guī)模和命名規(guī)則,推測(cè)其基于 Baichuan 7B LLM。

Baichuan-Omni 的模塊化訓(xùn)練流程以及對(duì)高分辨率圖像的支持,使其在多模態(tài)任務(wù)中具有較強(qiáng)的適應(yīng)性和靈活性。

4.9 Emu3: Next-Token Prediction is All You Need

Emu3: Next-Token Prediction is All You Need 論文(2024 年 9 月 27 日發(fā)布)提出了一種替代擴(kuò)散模型的全新圖像生成方法,完全基于 Transformer 解碼器架構(gòu)。盡管從經(jīng)典意義上說(shuō),Emu3 并非嚴(yán)格意義上的多模態(tài) LLM(即更關(guān)注圖像生成而非圖像理解),但其研究非常有趣,展示了使用 Transformer 解碼器完成圖像生成的可能性,而這一任務(wù)傳統(tǒng)上由擴(kuò)散模型主導(dǎo)。(值得注意的是,此前也有類似的嘗試,例如 Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation。)

模型特點(diǎn):Emu3 專注于基于 Transformer 解碼器的圖像生成架構(gòu),展現(xiàn)了 Transformer 在擴(kuò)散模型主導(dǎo)任務(wù)中的潛在優(yōu)勢(shì)。這種方法為圖像生成任務(wù)開(kāi)辟了新的路徑,挑戰(zhàn)了傳統(tǒng)方法的主導(dǎo)地位。

為什么多模態(tài)AI是下一個(gè)風(fēng)口?深度解讀新一代LLM-AI.x社區(qū)

Emu3 主要是一種用于圖像生成的大語(yǔ)言模型(LLM),是擴(kuò)散模型的替代方案。(來(lái)自 Emu3 論文的注釋圖:https://arxiv.org/abs/2409.18869)。

研究人員從零開(kāi)始訓(xùn)練了 Emu3 模型,并通過(guò)直接偏好優(yōu)化(Direct Preference Optimization,DPO)將模型調(diào)整到符合人類偏好的方向。

該模型的架構(gòu)包含一個(gè)受 SBER-MoVQGAN 啟發(fā)的視覺(jué)分詞器,核心的大語(yǔ)言模型架構(gòu)基于 Llama 2,但完全從頭開(kāi)始訓(xùn)練。

4.10 Janus:解耦視覺(jué)編碼實(shí)現(xiàn)統(tǒng)一的多模態(tài)理解與生成

此前我們主要關(guān)注用于圖像理解的多模態(tài)大語(yǔ)言模型,并以 Emu3 為例介紹了一個(gè)圖像生成的模型。現(xiàn)在,《Janus:解耦視覺(jué)編碼實(shí)現(xiàn)統(tǒng)一的多模態(tài)理解與生成》(2024年10月17日發(fā)表)引入了一個(gè)框架,在單一的大語(yǔ)言模型骨干中統(tǒng)一多模態(tài)理解和生成任務(wù)。

Janus 的一個(gè)關(guān)鍵特性是解耦視覺(jué)編碼路徑,以滿足理解任務(wù)和生成任務(wù)的不同需求。研究人員指出,圖像理解任務(wù)需要高維語(yǔ)義表示,而圖像生成任務(wù)則需要圖像的詳細(xì)局部信息和全局一致性。通過(guò)分離這些路徑,Janus 能夠有效管理兩者的差異化需求。

該模型采用 SigLIP 視覺(jué)編碼器(類似于 Baichuan-Omni 中的編碼器)處理視覺(jué)輸入。在圖像生成中,模型使用矢量量化(Vector Quantized,VQ)分詞器完成生成過(guò)程。Janus 的基礎(chǔ)大語(yǔ)言模型是 DeepSeek-LLM,擁有13億參數(shù)。

為什么多模態(tài)AI是下一個(gè)風(fēng)口?深度解讀新一代LLM-AI.x社區(qū)

Janus 的統(tǒng)一解碼器架構(gòu)概覽(來(lái)自 Janus 論文的注釋圖:https://arxiv.org/abs/2410.13848)

Janus 模型的訓(xùn)練過(guò)程分為三個(gè)階段,如下圖所示。

為什么多模態(tài)AI是下一個(gè)風(fēng)口?深度解讀新一代LLM-AI.x社區(qū)

Janus 模型的三階段訓(xùn)練過(guò)程示意圖(來(lái)自 Janus 論文的注釋圖:https://arxiv.org/abs/2410.13848)。

  • 第一階段:僅訓(xùn)練投影層和圖像輸出層,而 LLM、理解編碼器和生成編碼器保持凍結(jié)狀態(tài)。
  • 第二階段:解凍 LLM 主干和文本輸出層,允許在理解和生成任務(wù)上進(jìn)行統(tǒng)一的預(yù)訓(xùn)練。
  • 第三階段:解凍整個(gè)模型,包括 SigLIP 圖像編碼器,進(jìn)行監(jiān)督微調(diào),使模型能夠充分整合和優(yōu)化其多模態(tài)能力。

總結(jié)

在公共基準(zhǔn)上比較大語(yǔ)言模型(LLM)和多模態(tài)大語(yǔ)言模型的性能是一項(xiàng)具有挑戰(zhàn)性的任務(wù),因?yàn)槠毡榇嬖诘臄?shù)據(jù)污染問(wèn)題,這意味著測(cè)試數(shù)據(jù)可能已包含在訓(xùn)練數(shù)據(jù)中。

此外,不同模型的架構(gòu)組件差異巨大,因此進(jìn)行公平的性能比較非常困難。不過(guò),特別值得稱贊的是 NVIDIA 團(tuán)隊(duì)開(kāi)發(fā)了不同版本的 NVLM 模型,這至少使得解碼器架構(gòu)和交叉注意力方法之間的比較成為可能。

無(wú)論如何,這篇文章的主要結(jié)論是:多模態(tài)大語(yǔ)言模型可以通過(guò)多種不同的方式成功構(gòu)建。 下圖總結(jié)了本文涉及的不同模型、其子組件以及訓(xùn)練方法的概覽。

為什么多模態(tài)AI是下一個(gè)風(fēng)口?深度解讀新一代LLM-AI.x社區(qū)

本文轉(zhuǎn)載自??芝士AI吃魚(yú)??,作者: 芝士AI吃魚(yú) 

標(biāo)簽
已于2024-12-26 14:28:23修改
收藏 1
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
国产在线综合网| 亚洲在线观看网站| 福利片在线看| 久久国产精品无码网站| 色综合视频网站| www.超碰97| 亚洲伊人精品酒店| 精品欧美激情精品一区| 亚洲精品人成| 精品毛片一区二区三区| 亚洲尤物精选| 麻豆一区二区在线观看| 美国黄色一级毛片| 成人污污www网站免费丝瓜| 亚洲综合色区另类av| 欧美激情第六页| 国产精选久久久| 免费视频一区二区三区在线观看| 日韩亚洲一区二区| 国产又黄又粗又猛又爽的视频 | 丰满少妇一级片| 日韩精品午夜视频| 色综合久久久久久中文网| 免费黄色在线视频| 日韩精品成人| 欧美日韩日日摸| 久久精品免费一区二区| 18videosex性欧美麻豆| 欧美极品美女视频| 久久资源亚洲| 国产综合在线播放| 国产一区二区视频在线| 国产91在线播放| 日韩欧美a级片| 亚洲视频在线免费| 一区二区三区动漫| 亚洲蜜桃精久久久久久久久久久久| 成人国产精品久久| 欧美在线不卡视频| 久久久久人妻精品一区三寸| 超碰97国产精品人人cao| 亚洲欧美欧美一区二区三区| 亚洲人一区二区| 国内三级在线观看| 91蝌蚪porny成人天涯| www.久久艹| www.好吊色| 国产一区二区精品久久99| 国产精品日韩在线| 波多野结衣一区二区在线| av不卡免费看| 午夜精品久久久99热福利| 强乱中文字幕av一区乱码| 欧美3p在线观看| 在线视频欧美日韩| 国产精品久久久久久久av| 深夜福利久久| 亚洲人在线视频| 精品人妻一区二区三区香蕉 | a国产在线视频| 亚洲亚洲精品在线观看| 青草网在线观看| 后进极品白嫩翘臀在线播放| 亚洲最色的网站| 日韩成人三级视频| 国产网红在线观看| 亚洲国产视频一区| 国产白丝袜美女久久久久| 678在线观看视频| 欧美日韩免费在线观看| 韩国一区二区av| 日韩高清在线| 欧美精品九九99久久| 国内av一区二区| 香蕉免费一区二区三区在线观看 | 夜夜操天天操亚洲| 男人日女人视频网站| f2c人成在线观看免费视频| 午夜久久福利影院| 欧美成人黑人猛交| 日本a人精品| 日韩精品一区二区三区在线观看| 大尺度做爰床戏呻吟舒畅| 日韩丝袜视频| 在线视频日本亚洲性| 色婷婷在线视频观看| 影音先锋中文字幕一区| 日韩av免费一区| 一卡二卡三卡在线观看| 国产乱理伦片在线观看夜一区| 97超碰人人看人人| 青青久在线视频| 国产精品久久久久久久岛一牛影视| 免费的av在线| 无遮挡爽大片在线观看视频| 欧美日韩精品高清| 亚洲成年人av| 青青草成人影院| 美女视频黄免费的亚洲男人天堂| 精品成人免费视频| 久久狠狠亚洲综合| 久久国产精品高清| 四虎久久免费| 污片在线观看一区二区| www.久久久精品| 国产精品白浆| 中文字幕精品一区二区精品| 国产无码精品在线播放| 蜜臀国产一区二区三区在线播放| 成人精品一二区| 深爱激情五月婷婷| 亚洲男同性视频| 欧美日韩在线中文| 日本超碰一区二区| 伊人成人开心激情综合网| 中文字幕一区二区三区手机版| 男人的天堂久久精品| 精品免费国产| 七七久久电影网| 欧美日免费三级在线| 这里只有精品在线观看视频 | 屁屁影院ccyy国产第一页| 456亚洲精品成人影院| 精品欧美一区二区在线观看| 激情高潮到大叫狂喷水| 久久久国产精品一区二区中文| 不卡视频一区二区| 二区三区在线观看| 欧美视频一区在线| 欧美熟妇精品黑人巨大一二三区| 2023国产精品久久久精品双| 国产精品99免视看9| 五月天久久久久久| 亚洲国产精品天堂| 一区二区三区人妻| 7777久久香蕉成人影院| 国产精品欧美风情| 国产在线观看精品一区| 黑人狂躁日本妞一区二区三区 | 久久精品人人做人人综合| 欧美又粗又长又爽做受| 精品视频在线播放一区二区三区 | 好看的中文字幕在线播放| 91麻豆精品国产自产在线| 日韩不卡av在线| 日韩综合小视频| 日韩精品一区二区三区外面 | 日韩欧美国产免费播放| 日韩Av无码精品| 精品1区2区3区4区| 国产精品一区二区三区四区五区| 牛牛精品视频在线| 欧美大片在线观看| 国产精品99无码一区二区| 成人在线视频首页| 欧美 国产 综合| 人人香蕉久久| 国产xxx69麻豆国语对白| 男人的天堂在线| 欧洲人成人精品| 国产精品久久免费观看| 久久精品av麻豆的观看方式| 在线观看成人一级片| 日韩av综合| 国内精品模特av私拍在线观看| 亚洲精品中文字幕成人片| 亚洲午夜一区二区| 黄色短视频在线观看| 久久久久.com| 伊人av成人| 国产一区一区| 久久久久亚洲精品国产| 日夜干在线视频| 欧美日韩一级片网站| 亚洲一二三在线观看| 国产精品一区二区在线看| 日本一本中文字幕| 亚州精品视频| 国产精品男人的天堂| 51xtv成人影院| 亚洲精品天天看| 亚洲自拍偷拍另类| 亚洲宅男天堂在线观看无病毒| www.超碰97| 九九国产精品视频| 日本熟妇人妻xxxx| blacked蜜桃精品一区| 亚洲va欧美va在线观看| 1234区中文字幕在线观看| 国产亚洲人成网站在线观看| 97人妻人人澡人人爽人人精品| 亚洲电影一区二区三区| 中文字幕 自拍| 国产成人综合视频| 成人一区二区三| 91精品高清| 免费久久一级欧美特大黄| 亚洲一区二区小说| 欧美亚洲成人网| 18av在线播放| 国产亚洲精品美女久久久| www.综合色| 欧美色电影在线| 国产精品第二十页| 自拍偷拍国产亚洲| 国产精品久久久久无码av色戒| 国产一区二区三区在线观看免费视频 | 日韩黄色免费观看| 久久先锋影音av鲁色资源网| 天天色天天综合网| 视频一区欧美日韩| 一级黄色录像免费看| 国产精品欧美在线观看| 91精品国产高清久久久久久91裸体 | 热久久最新网址| 免费电影一区二区三区| 国产精品加勒比| 久久久久久久性潮| 欧美中文字幕在线播放| 日韩三级电影视频| 日韩中文字幕在线精品| 国产在线黄色| 日韩高清免费在线| 成人乱码一区二区三区| 91精品婷婷国产综合久久性色 | 欧美福利在线视频| 久久久久久一二三区| 日本一卡二卡在线| 丁香啪啪综合成人亚洲小说 | 成人免费福利片| 毛片毛片毛片毛片毛| 久久精品国产精品亚洲精品| 农村妇女精品一二区| 亚洲免费网址| 99视频在线免费播放| 亚洲成人原创| www插插插无码视频网站| 国产精品hd| 中文字幕色呦呦| 欧美成人日韩| 日本黄xxxxxxxxx100| 婷婷亚洲图片| 欧美h视频在线观看| 日本一区二区高清不卡| 日韩经典在线视频| av伊人久久| 一本一道久久a久久精品综合| 欧美禁忌电影| 日韩欧美一区二区三区四区| 欧美美乳视频| 日韩免费一区二区三区| 欧洲grand老妇人| 先锋影音一区二区三区| 成人影视亚洲图片在线| 亚洲一二三区在线| 国产精品毛片一区二区在线看| 一本二本三本亚洲码| 欧美一区二区| 欧美中日韩在线| 亚洲精品孕妇| 国产精品宾馆在线精品酒店| 性欧美长视频| 污网站免费在线| 国产综合久久久久影院| 黑人无套内谢中国美女| 懂色av一区二区三区免费观看| 蜜桃视频无码区在线观看| bt7086福利一区国产| 日本黄色网址大全| 中文字幕欧美区| 免费三级在线观看| 亚洲成人www| 伊人中文字幕在线观看 | 欧美精品无码一区二区三区| 青青国产91久久久久久| 在线视频日韩欧美| 成人网在线播放| 91久久免费视频| 国产精品久久久久久久岛一牛影视| 老湿机69福利| 亚洲www啪成人一区二区麻豆| 久久久精品视频网站| 欧美猛男gaygay网站| 日韩一卡二卡在线| 中文在线不卡视频| 调教一区二区| 国产91精品在线播放| 国产精品白丝久久av网站| 国产在线一区二| 日韩啪啪电影网| 成人免费在线网| 美腿丝袜亚洲三区| 国产一线在线观看| 国产精品看片你懂得| 国产一国产二国产三| 欧美性做爰猛烈叫床潮| 亚洲爱爱综合网| 在线视频日本亚洲性| 91探花在线观看| 国产日产欧美a一级在线| 老司机凹凸av亚洲导航| 伊人久久大香线蕉av一区| 亚洲一级在线| 女人扒开双腿让男人捅| 国产拍欧美日韩视频二区| 久久久99精品| 欧美体内she精视频| 天天干在线观看| 久久影视电视剧免费网站| 桃花岛成人影院| 国产欧美日韩综合一区在线观看| 久久中文视频| 免费男同深夜夜行网站 | 欧美性猛片aaaaaaa做受| 三级视频在线看| 久久国产精品亚洲| 欧美天堂一区| 欧美日韩一区在线视频| 国产一区日韩欧美| 最新免费av网址| 91麻豆成人久久精品二区三区| 九九九在线视频| 欧美精品自拍偷拍| 1769在线观看| 欧美一级黑人aaaaaaa做受| 2021年精品国产福利在线| 国产精品亚洲天堂| 免费不卡在线视频| 五月天精品视频| 精品久久久久久久大神国产| 蜜桃av中文字幕| 久久99精品视频一区97| 国产亚洲久久| 中文字幕免费在线不卡| 免费不卡在线观看| 91香蕉国产视频| 欧美三电影在线| 亚洲欧美视频一区二区| 国产精品久久久久久久av大片| 伊人久久大香线蕉无限次| 少妇av一区二区三区无码| 成人性视频免费网站| 久久免费黄色网址| 日韩欧美一二三四区| 超碰免费在线播放| 51国偷自产一区二区三区| 久久久久久影院| 免费高清视频在线观看| 亚洲免费色视频| 亚洲成a人片在线| 欧美极品少妇xxxxⅹ喷水| xvideos.蜜桃一区二区| 日韩成人手机在线| 99精品视频一区| 免费观看成人毛片| 亚洲色图15p| 亚洲mmav| 曰韩不卡视频| 国产精品一区二区你懂的| 久久久久久久国产精品毛片| 欧美精品一区二区久久婷婷| 在线看片国产福利你懂的| 久久久综合香蕉尹人综合网| 久久九九免费| 国产三级aaa| 亚洲精品在线三区| 性欧美hd调教| 免费在线观看污污视频| 国产99精品在线观看| 日韩少妇高潮抽搐| 亚洲欧美精品一区二区| 国产精品久久久久久久久久齐齐| 亚洲午夜精品久久久久久浪潮| 国产伦精品一区二区三区视频青涩| 青青草原国产视频| 亚洲精品福利在线观看| 日本精品另类| 免费cad大片在线观看| 成人福利视频在线| 亚洲精品国产欧美在线观看| 久久亚洲精品一区二区| 国产精品超碰| 午夜久久久精品| 亚洲sss视频在线视频| 美国成人毛片| 91在线精品播放| 性欧美xxxx大乳国产app| 国产日产精品一区二区三区的介绍| 日韩欧美一二三| 亚洲永久av| 国产在线无码精品| 久久亚洲免费视频| 国产熟女一区二区三区五月婷| 91av视频在线播放| 婷婷中文字幕一区| 男女黄床上色视频| 欧美大片顶级少妇| 日韩影片中文字幕| 97中文字幕在线| 中文一区二区完整视频在线观看|