精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

英偉達NVLM多模態大模型細節和數據集 原創

發布于 2024-12-19 11:22
瀏覽
0收藏

前期筆者介紹了OCR-free的多模態大模型,可以參考:??【多模態&文檔智能】OCR-free感知多模態大模型技術鏈路及訓練數據細節??,其更偏向于訓練模型對于密集文本的感知能力。本文看一看英偉達出品的多模態大模型NVLM-1.0系列,雖然暫未開源,但該文章給出了NVLM的詳細細節,值得一讀。

NVLM-1.0方法

英偉達NVLM多模態大模型細節和數據集-AI.x社區

NVLM-1.0包括三種不同的架構:

  1. NVLM-D,一種解碼器架構;
  2. NVLM-X,一種基于交叉注意力(X-attention)的架構;
  3. NVLM-H,一種混合架構。

共享視覺路徑

所有NVLM模型共享一個視覺路徑。使用InternViT-6B-448px-V1-5作為默認的視覺編碼器,并在整個訓練階段保持其凍結狀態。該視覺編碼器以固定的448x448像素分辨率處理圖像,生成1024個輸出標記。采用動態高分辨率(DHR)方法來處理不同分辨率的圖像輸入。具體的如下圖,圖像被分割成最多6個瓦片(tile),每個瓦片對應448x448像素。然后,每個瓦片被送入InternViT-6B進行處理,生成1024個標記。這些標記通過下采樣操作減少到256個標記,這么做可以降低處理開銷。

英偉達NVLM多模態大模型細節和數據集-AI.x社區

英偉達NVLM多模態大模型細節和數據集-AI.x社區

上述兩張圖都是動態DHR的處理過程,圍繞圖像的預處理,包括歸一化、縮放、裁剪、根據寬高比動態處理等操作,構建了一套完整的流程,代碼邏輯如下:

import torch
from PIL import Image
import torchvision.transforms as T
from torchvision.transforms.functional import InterpolationMode

IMAGENET_MEAN = (0.485, 0.456, 0.406)
IMAGENET_STD = (0.229, 0.224, 0.225)


def build_transform(input_size):
    MEAN, STD = IMAGENET_MEAN, IMAGENET_STD
    transform = T.Compose([
        T.Lambda(lambda img: img.convert('RGB') if img.mode != 'RGB'else img),
        T.Resize((input_size, input_size), interpolatinotallow=InterpolationMode.BICUBIC),
        T.ToTensor(),
        T.Normalize(mean=MEAN, std=STD)
    ])
    return transform


def find_closest_aspect_ratio(aspect_ratio, target_ratios, width, height, image_size):
    best_ratio_diff = float('inf')
    best_ratio = (1, 1)
    area = width * height
    for ratio in target_ratios:
        target_aspect_ratio = ratio[0] / ratio[1]
        ratio_diff = abs(aspect_ratio - target_aspect_ratio)
        if ratio_diff < best_ratio_diff:
            best_ratio_diff = ratio_diff
            best_ratio = ratio
        elif ratio_diff == best_ratio_diff:
            if area > 0.5 * image_size * image_size * ratio[0] * ratio[1]:
                best_ratio = ratio
    return best_ratio


def dynamic_preprocess(image, min_num=1, max_num=6, image_size=448, use_thumbnail=True):
    orig_width, orig_height = image.size
    aspect_ratio = orig_width / orig_height

    target_ratios = set(
        (i, j) for n in range(min_num, max_num + 1) for i in range(1, n + 1) for j in range(1, n + 1) if
        i * j <= max_num and i * j >= min_num)
    target_ratios = sorted(target_ratios, key=lambda x: x[0] * x[1])

    target_aspect_ratio = find_closest_aspect_ratio(
        aspect_ratio, target_ratios, orig_width, orig_height, image_size)

    target_width = image_size * target_aspect_ratio[0]
    target_height = image_size * target_aspect_ratio[1]
    blocks = target_aspect_ratio[0] * target_aspect_ratio[1]

    resized_img = image.resize((target_width, target_height))
    processed_images = []
    for i in range(blocks):
        box = (
            (i % (target_width // image_size)) * image_size,
            (i // (target_width // image_size)) * image_size,
            ((i % (target_width // image_size)) + 1) * image_size,
            ((i // (target_width // image_size)) + 1) * image_size
        )
        split_img = resized_img.crop(box)
        processed_images.append(split_img)
    assert len(processed_images) == blocks
    if use_thumbnail and len(processed_images) != 1:
        thumbnail_img = image.resize((image_size, image_size))
        processed_images.append(thumbnail_img)
    return processed_images


def load_image(image_file, input_size=448, max_num=6):
    image = Image.open(image_file).convert('RGB')
    transform = build_transform(input_size=input_size)
    images = dynamic_preprocess(image, image_size=input_size, use_thumbnail=True, max_num=max_num)
    pixel_values = [transform(image) for image in images]
    pixel_values = torch.stack(pixel_values)
    return pixel_values

文中引入了三種tile標簽:

  • 無標簽:簡單連接,沒有tile標簽,這是InternVL-1.5的設計。
  • 一維扁平化tile tag:<tile_1>、<tile_2>、...、<tile_6>、<tile_global>。
  • 二維網格tag:<tile_x0_y0>、<tile_x1_y0>、...、<tile_xW_yH>、<tile_global>,其中<tile_xi_yj>的{i:j}可以是{1:1, 1:2, 1:3, 1:4, 1:5, 1:6, 2:1, 2:2, 2:3, 3:1, 3:2, 4:1, 5:1, 6:1}中的任何一個。
  • 二維邊界框標簽: (x0, y0), (x1, y1) 、...、 (xW, yH), (xW+1, yH+1) ,其中(xi, yj)和(xi+1, yj+1)分別是整個高分辨率圖像中該特定tile的(左、上)和(右、下)坐標。

實驗可以看到,其中DHR + 1-D tag取得了最佳的性能。

英偉達NVLM多模態大模型細節和數據集-AI.x社區

英偉達NVLM多模態大模型細節和數據集-AI.x社區

NVLM-D: 解碼器架構

NVLM-D模型類似于之前的解碼器架構多模態LLMs(如:)。通過一個兩層MLP將預訓練的視覺編碼器連接到LLM。訓練NVLM-D涉及兩個階段:預訓練和SFT。在預訓練階段,MLP需要先進行訓練,同時保持視覺編碼器和LLM主干凍結。在SFT階段,MLP和LLM都被訓練以學習新的視覺-語言任務,而視覺編碼器保持凍結狀態。為了防止LLM在多模態SFT訓練期間退化文本性能,引入了一個高質量的文本SFT數據集。

NVLM-X: 基于X-attention的模型

NVLM-X使用門控交叉注意力來處理圖像token。與Flamingo模型不同,NVLM-X不使用感知重采樣器,而是直接通過交叉注意力層處理圖像標記。在SFT階段,解凍LLM主干,并混合高質量文本SFT數據集以保持強大的文本性能。

NVLM-H: 混合模型

NVLM-H結合了解碼器架構和基于X-attention的架構的優點。將圖像token分為兩部分:縮略圖token和常規瓦片token。縮略圖標記通過自注意力層處理,而常規瓦片標記通過交叉注意力層處理。這種設計提高了高分辨率圖像的處理能力,同時顯著提高了計算效率。

模型配置和訓練方法

所有NVLM模型的訓練過程包括兩個階段:預訓練和監督微調(SFT)。在預訓練階段,凍結LLM主干和視覺編碼器,只訓練模態對齊模塊。在SFT階段,保持視覺編碼器凍結,同時訓練LLM和模態對齊模塊。

LLM和視覺模型選擇

  • LLM:對于NVLM-D、NVLM-X和NVLM-H 72B模型,使用Qwen2-72B-Instruct作為LLM。為了計算效率,還使用了較小的Nous-Hermes-2-Yi-34B進行更快的消融研究和實驗。
  • 視覺編碼器:所有NVLM模型都使用InternViT-6B-448px-V1-5作為視覺編碼器。

模態對齊模塊

  • NVLM-D: 使用兩層MLP將視覺編碼器和背景語言模型連接起來。隱藏維度為12800→20480→7168(34B模型)和12800→29568→8192(72B模型)。
  • NVLM-X: 圖像特征首先通過一層MLP投影到背景語言模型的隱藏維度,然后插入門控X-attention層。具體配置為12800→7168(34B模型)和12800→8192(72B模型)。
  • NVLM-H: 使用兩層MLP和X-attention層作為模態對齊模塊。縮略圖圖像標記直接輸入到背景語言模型解碼器中,而常規圖像塊則通過X-attention層進行處理。

訓練超參數

  • 預訓練階段

英偉達NVLM多模態大模型細節和數據集-AI.x社區

  • SFT階段

英偉達NVLM多模態大模型細節和數據集-AI.x社區

訓練數據

  • 預訓練數據集

英偉達NVLM多模態大模型細節和數據集-AI.x社區

  • SFT數據集

英偉達NVLM多模態大模型細節和數據集-AI.x社區

  • 文本SFT數據集
    包括ShareGPT、SlimOrca、EvolInstruct、GPTeacher、AlpacaGPT4、UltraInteract、OrcaMathWordProblems、MathInstruct、MetaMath、GlaiveCodeAssistant、Magicoder、WizardCoder、GlaiveCodeAssistant等。并使用OpenAI模型GPT-4o和GPT-4o-mini進一步優化響應質量,并進行數據去污染,確保不包含基準測試數據集中的提示。
  • SFT數據構建格式

英偉達NVLM多模態大模型細節和數據集-AI.x社區

  • 預訓練中使用的各種任務的訓練格式示例。綠色< image >tag表示插入視覺特征的位置。藍色文本代表與損失相關的真實值。
  • 英偉達NVLM多模態大模型細節和數據集-AI.x社區

  • SFT中使用的ChatML模板示例。綠色< image >標簽指示插入視覺特征的位置。藍色文本代表與損失相關的真實值。
  • 實驗結果

    重點關注多模態推理、視覺上下文中的數學推理、自然圖像理解、場景-文本閱讀、圖表理解、文檔理解、現實世界感知和OCR能力。

    英偉達NVLM多模態大模型細節和數據集-AI.x社區

    英偉達NVLM多模態大模型細節和數據集-AI.x社區

    英偉達NVLM多模態大模型細節和數據集-AI.x社區

    參考文獻

    • NVLM: Open Frontier-Class Multimodal LLMs,https://arxiv.org/pdf/2409.11402


    本文轉載自公眾號大模型自然語言處理  作者:余俊暉

    原文鏈接:??https://mp.weixin.qq.com/s/QtawR9aG-ABO8cZ67KlVvA??

    ?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
    收藏
    回復
    舉報
    回復
    相關推薦
    亚洲国产电影在线观看| 妖精视频成人观看www| 欧美日韩国产bt| 精品日韩在线播放| 无码国产精品96久久久久| 一区二区中文字| 日韩欧美久久一区| 国产精品欧美激情在线观看| 国产视频第一区| 国产尤物一区二区| 456亚洲影院| 永久av免费网站| 精品综合久久88少妇激情| 在线免费观看不卡av| 国产女人18毛片| 日本在线丨区| 国产成人自拍网| 日本电影亚洲天堂| 久操视频免费在线观看| 精品国内自产拍在线观看视频| 91精品国产综合久久久久| 男女激情无遮挡| 日本高清视频在线播放| 久久综合色播五月| 91九色偷拍| 影音先锋国产资源| 亚洲免费一区二区| 欧美激情在线狂野欧美精品| 欧美激情久久久久久久| 日韩精品免费一区二区三区竹菊| 91麻豆精品国产综合久久久久久| 欧美激情视频免费看| 成人免费高清| 中文字幕不卡在线观看| 欧美lavv| 少妇人妻精品一区二区三区| 国产一区欧美一区| 国产精品久久一区主播| 国产精品久久久久久久妇| 午夜精品av| 精品国产视频在线| 亚洲区自拍偷拍| 人体久久天天| 欧美不卡一区二区| 亚洲综合在线一区二区| 亚洲国产伊人| 欧美视频第二页| 91在线视频观看免费| 咪咪网在线视频| 亚洲超碰精品一区二区| 成人在线免费观看视频网站| 黄色网页在线免费看| 中文一区一区三区高中清不卡| 久久久久久国产精品一区| 日批免费在线观看| 成人黄色国产精品网站大全在线免费观看| 亚洲最大激情中文字幕| 99久久精品国产一区二区成人| 久久精品国产精品亚洲红杏| 国产精品免费一区豆花| 亚洲男人天堂网址| 日韩国产精品91| 国产精品91久久久| 这里只有精品免费视频| 日韩精品福利网| 国产精品久久久久久久久久99| 五月婷婷六月婷婷| 日本欧美一区二区三区乱码 | 在线黄色网页| 一区二区三区在线视频播放| 精品国产一区二区三区无码| a级大胆欧美人体大胆666| 五月开心婷婷久久| 国产在线青青草| 欧美色999| 欧美日韩一区精品| 香蕉视频在线观看黄| 高清日韩中文字幕| 亚洲午夜av电影| 成人欧美一区二区三区黑人一| 午夜精品毛片| 久久久久久久久久久成人| 自拍偷拍欧美亚洲| 日韩专区在线视频| 成人福利免费观看| 欧美一级性视频| 国产欧美综合在线观看第十页| 欧美精品中文字幕一区二区| 成年人在线观看| 亚洲黄色av一区| 欧洲黄色一级视频| 日韩成人在线一区| 精品国产乱码久久久久久浪潮| 成人精品在线观看视频| 久久精品高清| 久久久久久久国产精品视频| 亚洲国产精品无码久久久| 精油按摩中文字幕久久| 国产伦精品一区二区三区高清| 日韩亚洲视频在线观看| 中文字幕一区二区三区蜜月| 国产精品成人久久电影| aaaa欧美| 欧美精品一区二区三区在线| 中文字幕在线观看免费高清 | 日韩av在线播放不卡| 精品亚洲美女网站| 精品免费国产二区三区| 69视频在线观看免费| 中文字幕午夜精品一区二区三区| 91精品国产高清久久久久久| 91精品中文字幕| 91丨porny丨国产| 麻豆映画在线观看| 在线观看精品| 精品99999| 九九精品视频免费| 久久精品毛片| 激情欧美一区二区三区中文字幕| 午夜视频在线免费观看| 精品日本美女福利在线观看| 在线观看中文av| 日本欧美肥老太交大片| 91精品国产91久久久久久不卡| 国产视频在线观看免费| 国产视频一区在线播放| 奇米影视亚洲色图| 日韩在线亚洲| 日韩视频在线观看免费| 国产精华7777777| 91丨九色丨黑人外教| a级片一区二区| 久久91视频| 亚洲最新视频在线| 69视频免费看| 91丨porny丨中文| 精品视频在线观看一区| 99精品中文字幕在线不卡| 日韩中文字幕精品| 中文区中文字幕免费看| 久久综合色之久久综合| 日本www在线播放| 国产精品高潮呻吟久久久久| 欧美激情综合色| 亚洲AV无码乱码国产精品牛牛| 亚洲人成网站色在线观看| 九九精品久久久| 色狮一区二区三区四区视频| 国产精欧美一区二区三区| 精品推荐蜜桃传媒| 欧美性猛交xxxx乱大交3| 捆绑凌虐一区二区三区| 亚洲一区日韩在线| 欧美精品久久| 中文字幕高清在线播放| 日韩精品在线视频观看| 伊人手机在线视频| 久久久久久亚洲综合影院红桃| 欧美精品一区免费| 国产探花一区在线观看| 国产精品极品尤物在线观看| 二区在线观看| 欧美日韩国产一区二区三区地区| 欧美福利在线视频| 国内精品不卡在线| 国产精品无码电影在线观看| 澳门成人av| 9.1国产丝袜在线观看| 深夜福利免费在线观看| 欧美性xxxx极品高清hd直播| 在线国产视频一区| 久久66热re国产| 日韩中文字幕亚洲精品欧美| 国内精品国产成人国产三级粉色 | 亚洲欧美小视频| 国产一区二区三区黄视频| 欧美日韩中文字幕在线播放| 丁香婷婷成人| 国产91免费看片| 欧美激情办公室videoshd| 欧美一级黄色片| 日韩欧美高清在线观看| 久久久久久97三级| 亚洲天堂国产视频| 亚洲大胆在线| 日韩av在线电影观看| 成人免费91| 国语对白做受69| melody高清在线观看| 欧美一区二区三区喷汁尤物| 日韩精品一卡二卡| 国产精品丝袜在线| aaa黄色大片| 久久一区激情| 成人在线免费观看网址| 亚洲最好看的视频| 3d动漫啪啪精品一区二区免费| 2020av在线| 日韩专区在线观看| 人妻精品无码一区二区| 欧美日韩在线直播| 日本学生初尝黑人巨免费视频| 中文字幕不卡在线播放| 精品无码人妻少妇久久久久久| 久久久久国产精品一区三寸| 亚洲小视频在线播放| 啪啪亚洲精品| 国产区一区二区| 亚洲日本中文| 日本精品视频在线观看| 男女视频在线| 色噜噜亚洲精品中文字幕| 亚洲欧美一区二区三| 欧美精品tushy高清| 中文字幕高清在线免费播放| 亚洲美腿欧美偷拍| 一级片久久久久| 91丨九色丨蝌蚪富婆spa| 日批视频在线看| 久久97超碰色| 一级黄色香蕉视频| 国产精品久久国产愉拍| 欧美这里只有精品| 欧美国产一区二区三区激情无套| 蜜桃麻豆www久久国产精品| 婷婷激情成人| 国产精品久久久久久婷婷天堂| 在线天堂资源www在线污| 欧美富婆性猛交| 精品自拍一区| 日韩中文在线中文网三级| 嫩草研究院在线观看| 亚洲国产天堂久久国产91 | 精品中文字幕一区二区| 老头吃奶性行交视频| 新狼窝色av性久久久久久| av在线播放天堂| 国产精品大片| 99久热在线精品视频| 1024精品久久久久久久久| 亚洲一区影院| 日韩精品一区二区三区免费观影 | 欧美成人自拍| 日韩欧美三级电影| av一区二区在线观看| 免费中文日韩| 久久99视频| 日韩妆和欧美的一区二区| 亚洲v天堂v手机在线| 久热国产精品视频一区二区三区| 任我爽精品视频在线播放| 精品在线不卡| 亚洲人成网站77777在线观看 | 日韩欧美午夜| 亚洲午夜在线观看| 久久精品播放| 五月天在线免费视频| 综合一区二区三区| 国产精品视频网站在线观看| 狠狠色丁香久久综合频道| 精品少妇在线视频| 国产美女一区| 午夜欧美福利视频| 精品在线一区二区| 欧美性猛交xx| 91丝袜美腿高跟国产极品老师 | 欧美高跟鞋交xxxxhd| 国产精品偷拍| 日本最新高清不卡中文字幕| 麻豆精品蜜桃| 成人免费淫片视频软件| 日韩一级淫片| 国产欧美亚洲日本| 国产一区2区| 正在播放国产精品| 国精品一区二区| 国产一区视频免费观看| 理论片日本一区| 无套内谢丰满少妇中文字幕| 成人一级视频在线观看| 一区二区三区少妇| 国产精品毛片大码女人| 欧美日韩国产精品综合| 亚洲一区av在线| 国产性生活视频| 91精品国产综合久久国产大片| 人成网站在线观看| 中文字幕九色91在线| 国产福利视频在线观看| 992tv成人免费视频| 欧美高清你懂的| 国产一区二区三区av在线| 国产在线观看91一区二区三区| 椎名由奈jux491在线播放| 日韩视频在线一区二区三区| 91香蕉视频污版| 高清视频一区二区| 亚洲а∨天堂久久精品2021| 一区二区在线观看视频| 激情五月婷婷网| 精品毛片乱码1区2区3区| 狠狠色伊人亚洲综合网站l| 九九热99久久久国产盗摄| 欧美日韩123区| 成人欧美一区二区三区在线观看| 国产不卡av一区二区| 国产精品久久久影院| 青青青爽久久午夜综合久久午夜| 性xxxxxxxxx| 国产精品女同一区二区三区| 国产污片在线观看| 91麻豆精品国产91| 国产福利在线| 668精品在线视频| 欧洲精品99毛片免费高清观看 | 国产精品久久久久久久久久久久 | 欧美r级电影在线观看| gogogo高清在线观看免费完整版| 国模精品视频一区二区| 国产精品**亚洲精品| 日本一区二区三区视频免费看| 影音先锋中文字幕一区| 天天看片天天操| 国产天堂亚洲国产碰碰| 在线观看免费av片| 亚洲高清色综合| 污视频免费在线观看| 国产在线精品播放| 精品国产一区二区三区久久久蜜臀| 黄色一级视频片| 成人永久免费视频| 国产亚洲成人av| 欧美一二三在线| 国产在线观看91| 国产男人精品视频| 欧美三级三级| 99视频精品免费| 国产亚洲人成网站| 青青草视频在线观看免费| 亚洲精品资源在线| 在线观看涩涩| 欧美区高清在线| 国产精品综合色区在线观看| 精品一区二区视频在线观看 | 99超碰在线观看| 亚洲精品自在久久| 神马久久午夜| 女女同性女同一区二区三区91| 香蕉久久a毛片| 女~淫辱の触手3d动漫| 日韩欧美在线观看视频| 极品美乳网红视频免费在线观看| 日本伊人精品一区二区三区介绍| 中文字幕中文字幕精品| 国产视频在线视频| 国产精品欧美极品| 国产视频在线观看免费| 欧美高清性猛交| www.亚洲一二| 国内外成人激情视频| 久久久久久久精| 一区二区自拍偷拍| 久久久av一区| 亚洲码欧美码一区二区三区| 国产人妻777人伦精品hd| 久久久久久毛片| 最近中文字幕在线观看| 精品国内自产拍在线观看| 欧美午夜在线播放| 国产精品国产亚洲精品看不卡| 91在线码无精品| 欧美性猛交xxxx乱大交hd| 久久久精品美女| 成功精品影院| 三级4级全黄60分钟| 中文一区一区三区高中清不卡| 国产乱码久久久| 欧美精品国产精品日韩精品| 亚州国产精品| 亚洲天堂2018av| 亚洲高清免费观看高清完整版在线观看 | 一本到三区不卡视频| 在线观看国产原创自拍视频| 亚洲影视九九影院在线观看| 亚洲美女视频在线免费观看| 天天躁日日躁aaaxxⅹ| 8v天堂国产在线一区二区| 黑人极品ⅴideos精品欧美棵| 欧美精品欧美精品系列c| 国产真实乱对白精彩久久| 日韩字幕在线观看| 中文字幕日韩在线观看| 成人爽a毛片| 中文字幕国产传媒| 亚洲va国产va欧美va观看| 成人影视在线播放| 高清视频一区| 免费看黄色91| 97人人澡人人爽人人模亚洲| 中文字幕亚洲一区在线观看 |