精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

使用Pytorch構建視覺語言模型(VLM)

人工智能
本文將介紹 VLM 的核心組件和實現細節,可以讓你全面掌握這項前沿技術。我們的目標是理解并實現能夠通過指令微調來執行有用任務的視覺語言模型。

視覺語言模型(Vision Language Model,VLM)正在改變計算機對視覺和文本信息的理解與交互方式。本文將介紹 VLM 的核心組件和實現細節,可以讓你全面掌握這項前沿技術。我們的目標是理解并實現能夠通過指令微調來執行有用任務的視覺語言模型。

總體架構

VLM 的總體架構包括:

  1. 圖像編碼器(Image Encoder):用于從圖像中提取視覺特征。本文將從 CLIP 中使用的原始視覺 Transformer。
  2. 視覺-語言投影器(Vision-Language Projector):由于圖像嵌入的形狀與解碼器使用的文本嵌入不同,所以需要對圖像編碼器提取的圖像特征進行投影,匹配文本嵌入空間,使圖像特征成為解碼器的視覺標記(visual tokens)。這可以通過單層或多層感知機(MLP)實現,本文將使用 MLP。
  3. 分詞器和嵌入層(Tokenizer + Embedding Layer):分詞器將輸入文本轉換為一系列標記 ID,這些標記經過嵌入層,每個標記 ID 被映射為一個密集向量。
  4. 位置編碼(Positional Encoding):幫助模型理解標記之間的序列關系,對于理解上下文至關重要。
  5. 共享嵌入空間(Shared Embedding Space):文本嵌入與來自位置編碼的嵌入進行拼接(concatenate),然后傳遞給解碼器。
  6. 解碼器(Decoder-only Language Model):負責最終的文本生成。

上圖是來自CLIP 論文的方法示意圖,主要介紹文本和圖片進行投影

上,我們使用圖像編碼器從圖像中提取特征,獲得圖像嵌入,通過視覺-語言投影器將圖像嵌入投影到文本嵌入空間,與文本嵌入拼接后,傳遞給自回歸解碼器生成文本。

VLM 的關鍵在于視覺和文本信息的融合,具體步驟如下:

  1. 通過編碼器提取圖像特征(圖像嵌入)。
  2. 將這些嵌入投影以匹配文本的維度。
  3. 將投影后的特征與文本嵌入拼接。
  4. 將組合的表示輸入解碼器生成文本。

深度解析:圖像編碼器的實現

圖像編碼器:視覺 Transformer

為將圖像轉換為密集表示(圖像嵌入),我們將圖像分割為小塊(patches),因為 Transformer 架構最初是為處理詞序列設計的。

從零開始實現視覺 Transformer,我們需要創建一個 PatchEmbeddings 類,接受圖像并創建一系列小塊。該過程對于使 Transformer 架構能夠有效地處理視覺數據至關重要,特別是在后續的注意力機制中。實現如下:

class PatchEmbeddings(nn.Module):  
     def __init__(self, img_size=96, patch_size=16, hidden_dim=512):  
         super().__init__()  
         self.img_size = img_size  
         self.patch_size = patch_size  
         self.num_patches = (img_size // patch_size) ** 2  
           
         # 無重疊卷積用于提取小塊  
         self.conv = nn.Conv2d(  
             in_channels=3,  
             out_channels=hidden_dim,  
             kernel_size=patch_size,  
             stride=patch_size  
        )  
           
         # 使用 Xavier/Glorot 初始化權重  
         nn.init.xavier_uniform_(self.conv.weight)  
         if self.conv.bias is not None:  
             nn.init.zeros_(self.conv.bias)  
     def forward(self, X):  
         """  
        參數: 
            X: 輸入張量,形狀為 [B, 3, H, W]  
        返回: 
            小塊嵌入,形狀為 [B, num_patches, hidden_dim]  
        """  
         if X.size(2) != self.img_size or X.size(3) != self.img_size:  
             raise ValueError(f"輸入圖像尺寸必須為 {self.img_size}x{self.img_size}")  
               
         X = self.conv(X)  # [B, hidden_dim, H/patch_size, W/patch_size]  
         X = X.flatten(2)  # [B, hidden_dim, num_patches]  
         X = X.transpose(1, 2)  # [B, num_patches, hidden_dim]  
         return X

在上述代碼中,輸入圖像通過卷積層被分解為 (img_size // patch_size) 2** 個小塊,并投影為具有通道維度為 512 的向量(在 PyTorch 實現中,三維張量的形狀通常為 [B, T, C])。

注意力機制

視覺編碼器和語言解碼器的核心都是注意力機制。關鍵區別在于解碼器使用因果(掩碼)注意力,而編碼器使用雙向注意力。以下是對單個注意力頭的實現:

class Head(nn.Module):  
     def __init__(self, n_embd, head_size, dropout=0.1, is_decoder=False):  
         super().__init__()  
         self.key = nn.Linear(n_embd, head_size, bias=False)  
         self.query = nn.Linear(n_embd, head_size, bias=False)  
         self.value = nn.Linear(n_embd, head_size, bias=False)  
         self.dropout = nn.Dropout(dropout)  
         self.is_decoder = is_decoder  
       
     def forward(self, x):  
         B, T, C = x.shape  
         k = self.key(x)  
         q = self.query(x)  
         v = self.value(x)  
           
         wei = q @ k.transpose(-2, -1) * (C ** -0.5)  
           
         if self.is_decoder:  
             tril = torch.tril(torch.ones(T, T, dtype=torch.bool, device=x.device))  
             wei = wei.masked_fill(tril == 0, float('-inf'))  
           
         wei = F.softmax(wei, dim=-1)  
         wei = self.dropout(wei)  
         out = wei @ v  
         return out

視覺-語言投影器

投影器模塊在對齊視覺和文本表示中起關鍵作用。我們將其實現為一個多層感知機(MLP):

class MultiModalProjector(nn.Module):  
     def __init__(self, n_embd, image_embed_dim, dropout=0.1):  
         super().__init__()  
         self.net = nn.Sequential(  
             nn.Linear(image_embed_dim, 4 * image_embed_dim),  
             nn.GELU(),  
             nn.Linear(4 * image_embed_dim, n_embd),  
             nn.Dropout(dropout)  
        )  
       
     def forward(self, x):  
         return self.net(x)

綜合實現

最終的 VLM 類將所有組件整合在一起:

class VisionLanguageModel(nn.Module):  
     def __init__(self, n_embd, image_embed_dim, vocab_size, n_layer,  
                  img_size, patch_size, num_heads, num_blks,  
                  emb_dropout, blk_dropout):  
         super().__init__()  
         num_hiddens = image_embed_dim  
         assert num_hiddens % num_heads == 0  
           
         self.vision_encoder = ViT(  
             img_size, patch_size, num_hiddens, num_heads,  
             num_blks, emb_dropout, blk_dropout  
        )  
           
         self.decoder = DecoderLanguageModel(  
             n_embd, image_embed_dim, vocab_size, num_heads,  
             n_layer, use_images=True  
        )  
       
     def forward(self, img_array, idx, targets=None):  
         image_embeds = self.vision_encoder(img_array)  
           
         if image_embeds.nelement() == 0 or image_embeds.shape[1] == 0:  
             raise ValueError("ViT 模型輸出為空張量")  
               
         if targets is not None:  
             logits, loss = self.decoder(idx, image_embeds, targets)  
             return logits, loss  
         else:  
             logits = self.decoder(idx, image_embeds)  
             return logits

訓練及注意事項

在訓練 VLM 時,需要考慮以下重要因素:

預訓練策略:現代 VLM 通常使用預訓練的組件:

  • 視覺編碼器:來自 CLIP 或 SigLIP
  • 語言解碼器:來自 Llama 或 GPT 等模型
  • 投影器模塊:初始階段僅訓練此模塊

訓練階段:

  • 階段 1:在凍結的編碼器和解碼器下預訓練,僅更新投影器
  • 階段 2:微調投影器和解碼器以適應特定任務
  • 可選階段 3:通過指令微調提升任務性能

數據需求:

  • 大規模的圖像-文本對用于預訓練
  • 任務特定的數據用于微調
  • 高質量的指令數據用于指令微調

總結

通過從零開始實現視覺語言模型(VLM),我們深入探討了視覺和語言處理在現代人工智能系統中的融合方式。本文詳細解析了 VLM 的核心組件,包括圖像編碼器、視覺-語言投影器、分詞器、位置編碼和解碼器等模塊。我們強調了多模態融合的關鍵步驟,以及在實現過程中需要注意的訓練策略和數據需求。

構建 VLM 不僅加深了我們對視覺和語言模型內部機制的理解,還為進一步的研究和應用奠定了基礎。隨著該領域的迅速發展,新的架構設計、預訓練策略和微調技術不斷涌現。我們鼓勵讀者基于本文的實現,探索更先進的模型和方法,如采用替代的視覺編碼器、更復雜的投影機制和高效的訓練技術,以推動視覺語言模型的創新和實際應用。

責任編輯:華軒 來源: DeepHub IMBA
相關推薦

2024-12-13 15:53:58

VLM小型視覺語言模型LLM

2024-11-27 16:06:12

2024-06-11 09:11:05

2025-03-21 08:00:00

大型語言模型視覺語言微調

2023-04-19 08:00:00

人工智能視覺語言模型

2025-10-20 09:09:00

2025-08-20 09:13:00

2025-11-18 08:50:54

AI模型算法

2023-11-09 13:00:00

模型訓練

2024-09-26 16:51:23

2024-03-25 12:39:00

AI數據

2025-06-30 08:25:00

智能體AI模型

2023-03-09 06:31:14

視覺語言模型人工智能

2025-04-23 15:25:27

語言模型Eagle 2.5英偉達

2024-10-21 08:24:29

Florence-2視覺語言模型VLM

2021-09-28 14:14:13

人工智能機器學習技術

2023-09-27 07:39:57

大型語言模型MiniGPT-4

2024-08-21 13:16:30

2022-07-28 12:18:40

視覺語言模型

2024-06-04 09:25:51

點贊
收藏

51CTO技術棧公眾號

成人永久aaa| 免费亚洲精品视频| 亚洲美女搞黄| 亚洲 自拍 另类 欧美 丝袜| 91中文字幕在线视频| 神马久久av| 亚洲综合免费观看高清完整版在线| 国产精品高清在线观看| 538国产视频| 岛国av在线网站| 日韩1区在线| 色一情一乱一乱一91av| 精品婷婷色一区二区三区蜜桃| 欧美日韩免费做爰视频| 国产精品日本一区二区三区在线 | 亚洲一区二区中文字幕在线观看| 欧美xxx.com| 一二三区精品| 亚洲第一视频网站| 18禁免费观看网站| 免费国产精品视频| 夜夜夜久久久| 久久久国产精品一区| 在线一区二区不卡| 国产农村妇女毛片精品| 午夜小视频在线播放| 亚洲成人精品| 欧美一区二区视频在线观看| 午夜在线视频免费观看| 国产精品国产一区二区三区四区 | 欧美123区| 久久久久久久久久久久久女国产乱| 97超级碰碰碰久久久| 艳妇乳肉亭妇荡乳av| av大全在线观看| 日韩av中字| 国产亚洲一区二区三区| 国产精品电影久久久久电影网| 久久久久久久久久久97| 精品嫩草影院| 色婷婷国产精品久久包臀| 久久国产精品一区二区三区| 五月天激情国产综合婷婷婷| 狠狠爱成人网| 日韩激情片免费| 国产精品视频网址| 黄色网址在线免费看| 99精品人妻无码专区在线视频区| 久久久久91| www.久久久久| 欧美一级片在线免费观看| 国产原创一区| 亚洲制服欧美中文字幕中文字幕| 伊人色综合影院| 你懂的网站在线| 国产福利不卡视频| 亚洲美女一区二区三区| 一区二区三区久久精品| 午夜视频在线网站| av男人的天堂在线观看| 国产日韩欧美高清| 欧美精品一区二区三区在线四季| 中文亚洲av片在线观看| 国产精品v日韩精品v欧美精品网站 | 一级黄色特级片| 疯狂撞击丝袜人妻| 一区二区三区伦理| 91免费精品国自产拍在线不卡| 国产精品久久久久久亚洲调教| 国产精品va无码一区二区三区| 婷婷亚洲综合| 亚洲男人天堂2023| 善良的小姨在线| 日韩电影免费观| 色狠狠av一区二区三区| 欧美午夜性生活| 青娱乐国产视频| 色偷偷偷在线视频播放| 1区2区3区国产精品| 精品欧美日韩在线| 男人天堂网在线观看| 国产丝袜美腿一区二区三区| 少妇精品久久久久久久久久| 少妇无码一区二区三区| 美女在线观看视频一区二区| 国产91成人video| 久草免费在线观看视频| 久久影视一区| 国产一区二区三区网站| 中文字幕在线免费不卡| 97久久人人超碰caoprom欧美 | 99国产精品久久久久久久| 欧美一级大片视频| 在线视频 中文字幕| 在线精品福利| 日韩中文字幕第一页| 91精品少妇一区二区三区蜜桃臀| 欧美99在线视频观看| 一区三区二区视频| 极品美妇后花庭翘臀娇吟小说| 亚洲有吗中文字幕| 中文字幕成人在线| 男人天堂av电影| 奇米777国产一区国产二区| 日韩情涩欧美日韩视频| 久久久精品视频国产| 日本欧美高清| 精品自在线视频| 国产这里有精品| 香蕉久久夜色精品国产| 97在线视频国产| 国产免费av一区二区| 亚洲国产影院| 97国产suv精品一区二区62| 真实新婚偷拍xxxxx| 不卡免费追剧大全电视剧网站| 99re在线| 蜜桃视频污在线观看| 欧美激情中文字幕一区二区| 日韩免费三级| 超碰免费在线| 中文字幕亚洲在| 日韩黄色片视频| 九七电影院97理论片久久tvb| 精品99999| 亚洲国产果冻传媒av在线观看| 久久久久久美女精品| 国产99久久久欧美黑人 | 裸体素人女欧美日韩| 亚洲综合国产精品| 六月婷婷中文字幕| 91性感美女视频| 日本高清视频免费在线观看| 国产亚av手机在线观看| 精品久久久久久久久久久久久久 | 日本视频一区二区不卡| 超碰在线人人爱| 少妇精品高潮欲妇又嫩中文字幕| 18成人在线观看| 污污的网站18| 欧美精品一区二区久久| 亚洲精品视频网上网址在线观看| 亚洲精品国产91| 久久久久电影| 国产有码一区二区| 日韩在线视频免费| 亚洲午夜久久久久中文字幕久| 欧美污视频网站| 欧美日韩一区二区三区不卡视频| 欧美福利视频在线| jizz国产在线| 国产a久久麻豆| 欧美污视频久久久| 成人av观看| 91精品国产高清一区二区三区蜜臀| 99精品欧美一区二区| 日韩精品每日更新| 999国产在线| 尤物视频在线看| 日韩欧美亚洲另类制服综合在线 | av电影在线观看一区| 亚洲韩国在线| 日韩一级特黄| 日韩理论片久久| 久久久久女人精品毛片九一| 久久久综合九色合综国产精品| 国产av不卡一区二区| 粉嫩一区二区三区在线观看| 久久成人亚洲精品| 国产精品va无码一区二区三区| 久久久久亚洲综合| 国产嫩草在线观看| 亚洲字幕久久| 久久精品magnetxturnbtih| 色尼玛亚洲综合影院| 色琪琪综合男人的天堂aⅴ视频| 日韩特黄一级片| 国产精品69久久久久水密桃| 欧美国产视频一区| 久久精品国产精品亚洲毛片| 久久亚洲精品成人| 天堂网在线资源| 欧美无乱码久久久免费午夜一区| bl动漫在线观看| 欧美一区国产在线| 国产一区二区三区四区五区在线 | 亚洲va久久久噜噜噜久久| 久久精品99无色码中文字幕| 精品人妻伦一二三区久久 | 欧美激情网站| 中文字幕亚洲欧美| 国精品人妻无码一区二区三区喝尿| 欧美日韩中文字幕在线视频| 日本人dh亚洲人ⅹxx| 久久国产精品久久w女人spa| 亚洲三区视频| 免费污视频在线一区| 欧美成人午夜视频| 91在线你懂的| 欧美日韩在线另类| 久久亚洲AV成人无码国产野外| 欧美精品一卡| 亚洲一区二区自拍| 亚洲优女在线| 亚洲男人天堂网| 国产美女明星三级做爰| 欧美午夜电影在线| 男女羞羞免费视频| 欧美高清在线精品一区| 欧美三级理论片| 国内揄拍国内精品久久| 亚洲国产精品毛片| 美日韩黄色大片| 亚洲一区国产精品| 久久婷婷五月综合色丁香| 2019最新中文字幕| 午夜成年人在线免费视频| 欧美大片一区二区| 中文av免费观看| 粉嫩老牛aⅴ一区二区三区| 污污的视频在线免费观看| 国内国产精品久久| 麻豆视频传媒入口| 不卡一区综合视频| 成人写真福利网| 性欧美ⅴideo另类hd| 一区二区三区国产视频| 亚洲色图另类小说| 精品黑人一区二区三区久久| 日本一区二区不卡在线| 91一区二区三区在线观看| 亚洲熟妇av一区二区三区| 国产伊人精品| 男人日女人的bb| 亚洲高清影视| 艳母动漫在线免费观看| 日韩精品一区二区三区免费观看| 久久亚裔精品欧美| 任你弄精品视频免费观看| 国产精品一区二区三区免费 | 亚洲.国产.中文慕字在线| 国产乱了高清露脸对白| 国产成人精品亚洲777人妖| 色噜噜狠狠一区二区三区狼国成人 | 亚洲成人免费在线视频| 亚洲av无码乱码国产精品| 午夜久久久影院| 久久精品www人人爽人人| 一区二区在线观看免费视频播放| 日本一二三四区视频| 蜜臀a∨国产成人精品| 狠狠热免费视频| 奇米综合一区二区三区精品视频| 麻豆av一区二区三区久久| 欧美亚洲大陆| 免费久久久一本精品久久区| 自拍偷拍一区| 午夜免费电影一区在线观看| 日韩精品影视| 裸体大乳女做爰69| 午夜日韩福利| 国产毛片视频网站| 性色一区二区三区| 国产理论在线播放| 极品少妇一区二区| 中文字幕永久免费| 26uuu亚洲综合色| 精品成人无码一区二区三区| 国产精品色呦呦| 国产麻豆天美果冻无码视频| 国内精品国产成人| 第一页在线视频| 秋霞电影网一区二区| 一级片视频免费观看| 狠狠色伊人亚洲综合成人| 亚洲精品久久久久久| 91婷婷韩国欧美一区二区| 日韩一级av毛片| 中文字幕一区二区三区精华液| 欧美三级日本三级| 欧美日韩亚洲一区二| 依依成人在线视频| 精品国产不卡一区二区三区| 免费a在线观看| 久久精品久久久久电影| 超碰在线99| 国产欧美在线看| 国产精品男女| 超碰在线97av| 怕怕欧美视频免费大全| 国产精品一区二区三区不卡| 中文字幕中文字幕精品| 午夜啪啪福利视频| 国产精品美女久久久浪潮软件| 国产一二三区在线播放| 男人的天堂亚洲在线| 网站在线你懂的| 久久午夜国产精品| 外国一级黄色片| 有坂深雪av一区二区精品| 色婷婷av国产精品| 91精品国产一区二区三区| 三级视频在线| 亚洲天堂成人在线| 国产在线你懂得| 影音先锋日韩有码| 丁香花电影在线观看完整版 | 波多野结衣一区二区在线| 欧美一区二区三区在线视频| 日本人妖在线| 欧美国产日韩一区| 亚洲毛片在线免费| 成人深夜直播免费观看| 中文有码一区| 男女视频网站在线观看| 国内精品免费**视频| 国产三级在线观看完整版| 国产精品久久久久久久久免费桃花| 国产精品99精品无码视| 午夜精品成人在线视频| 国产精品嫩草影院桃色| 在线视频欧美日韩精品| 亚洲性色av| 久久精品ww人人做人人爽| 亚洲小说区图片区| 香蕉网在线视频| 亚洲欧洲在线观看av| 在线黄色av网站| 在线精品视频视频中文字幕| 亚洲私拍视频| 欧美1o一11sex性hdhd| 99av国产精品欲麻豆| 又黄又色的网站| 一区二区免费看| www.日本在线观看| 久久国产精品首页| 国产乱码精品一区二区三区亚洲人| 四虎影院一区二区三区| 首页国产欧美久久| 在线观看av免费观看| 国产精品久久久久久久第一福利 | 精品国产不卡一区二区三区| 亚洲夜夜综合| aa成人免费视频| 伊人久久大香线蕉综合热线| 少妇搡bbbb搡bbb搡打电话| 一个色综合网站| 免费a级片在线观看| 57pao成人国产永久免费| 亚洲女娇小黑人粗硬| 凹凸日日摸日日碰夜夜爽1| 精品一区二区三区在线播放 | 欧美激情欧美激情在线五月| 精品国产乱码一区二区三区| 精品国产综合久久| 国产欧美日本| 久久精品一区二区免费播放| 欧美日韩一区二区免费视频| 你懂的在线网址| 国产精品美女www| 91精品国产乱码久久久久久久| www激情五月| 亚洲小说欧美激情另类| 午夜视频福利在线| 国产精品电影网| 欧美一区成人| 人妻换人妻a片爽麻豆| 国产精品国模大尺度视频| 国产一区二区小视频| 欧美放荡办公室videos4k| 亚洲第一福利专区| 亚洲xxxx2d动漫1| 亚洲精品久久嫩草网站秘色| 黑人精品一区二区三区| 26uuu另类亚洲欧美日本一| 精品国产一区二区三区av片| 久久久精品高清| 午夜久久久久久| av在线电影网| 99re国产| 久久久久免费| www.99re7| 日韩美女av在线| 国产精品一区二区精品| 国产午夜福利在线播放| 国产精品系列在线播放| 三级黄色片在线观看| 在线国产亚洲欧美| 免费一级在线观看| 成人免费看黄网站| 亚洲精品色图| 亚洲女人毛茸茸高潮| 精品国产免费久久| 99re66热这里只有精品4| 六十路精品视频| 黑人巨大精品欧美黑白配亚洲| 奇米影视第四色777| 日韩在线观看视频免费| 精品一区二区男人吃奶| 日本人69视频|