精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

多模態視覺-語言大模型的架構演進

發布于 2024-5-16 10:02
瀏覽
0收藏

多模態視覺-語言大模型的架構演進-AI.x社區

本文回顧了多模態LLM (視覺-語言模型) 近一年來的模型架構演進,對其中有代表性的工作進行了精煉總結,截止2024.04,持續更新ing...


A Survey on Multimodal Large Language Models(arxiv.org/abs/2306.13549)
Awesome-Multimodal-Large-Language-Models(github.com/BradyFU/Awesome-Multimodal-Large-Language-Models)


這篇綜述一張圖總結了多模態LLM的典型架構:

多模態視覺-語言大模型的架構演進-AI.x社區

BLIP

【2022.01發布】https://arxiv.org/abs/2201.12086


統一視覺-語言理解和生成,使用captioner+filter高效利用互聯網有噪數據

模型架構:

  • Image/text encoder: ITC loss對齊視覺和語言表征,基于ALBEF提出的momentum distillation
  • Image-grounded text encoder: ITM loss建模視覺-語言交互,區分positive/negative圖文對,使用hard negative mining挖掘更高相似度的負例優化模型
  • Image-grounded text decoder: LM loss實現基于圖像的文本解碼,將雙向self-attention替換為causal self-attention

多模態視覺-語言大模型的架構演進-AI.x社區

BLIP的bootstrapping訓練過程:

多模態視覺-語言大模型的架構演進-AI.x社區

BLIP-2

【2023.01發布】https://arxiv.org/abs/2301.12597


使用相對輕量的Q-Former連接視覺-語言模態,通過兩階段訓練:第1階段基于凍住的視覺編碼器,第2階段基于凍住的LLM

多模態視覺-語言大模型的架構演進-AI.x社區

第1階段:同樣優化ITC/ITM/LM loss,使用不同的self-attention mask,query和text端共享self-attention參數,使得可學習的query embedding提取與text語義最相關的視覺表征;使用BERT-base初始化,32個768維的query作為信息瓶頸

  • ITC:計算每個query與text的相似度,取最大的;使用batch內negatives,不再使用momentum queue
  • ITM:對每個query與text的分類logits取平均,使用hard negatives mining挖掘難負例
  • LM:text token和frozen image encoder不能直接交互,要求query能提取有益的視覺特征

多模態視覺-語言大模型的架構演進-AI.x社區

第2階段:可基于decoder-only/encoder-decoder LLM進行適配,FC層對齊維度

多模態視覺-語言大模型的架構演進-AI.x社區

LLaVA

【2023.04發布】https://arxiv.org/abs/2304.08485

  • 使用僅文本模態的GPT-4生成視覺-語言指令遵循數據,用于微調多模態LLM

使用圖片的dense captions和bounding boxes作為prompt,可以生成對話、細節描述、復雜推理等指令

  • CLIP ViT-L/14 + Vicuna,使用簡單的線性層進行映射
  • 更復雜的:Flamingo中gated cross-attention,BLIP-2中的Q-former

多模態視覺-語言大模型的架構演進-AI.x社區

多模態視覺-語言大模型的架構演進-AI.x社區

  • LLaVA模型的兩階段訓練


stage1. 預訓練特征對齊:凍住vision encoder和LLM,只訓練projection,學習一個兼容的visual tokenizer


stage2. 端到端微調:凍住vision encoder,在單輪/多輪對話數據上微調projection和LLM

MiniGPT-4

【2023.04發布】https://arxiv.org/abs/2304.10592


stage1. 預訓練:使用image-text pair微調linear projection layer,vision encoder和LLM保持凍住


stage2. 指令微調:指令格式為:###Human: <Img><ImageFeature></Img><Instruction>###Assistant:

多模態視覺-語言大模型的架構演進-AI.x社區

InstructBLIP

【2023.05發布】https://arxiv.org/abs/2305.06500


stage1. 預訓練:BLIP-2(使用image-text pairs進行兩階段訓練)


stage2. 指令微調:只微調instruction-aware Q-former,凍住vision encoder和LLM

支持FlanT5(encoder-decoder)和Vicuna(decoder-only)

多模態視覺-語言大模型的架構演進-AI.x社區

Qwen-VL 【2023.08發布】https://arxiv.org/abs/2308.12966


支持中英雙語、多圖像輸入


Qwen-7B + OpenCLIP ViT-bigG,輸入圖像直接resize到視覺編碼器輸入


位置感知的VL adapter:使用基于Q-former的單層的cross-attention,將圖像特征維度壓


縮到256,在query-key pairs中引入2D絕對位置編碼增強位置信息


圖像輸入:<img>256-dim圖像特征</img>


bounding box輸入輸出:<box>(X_topleft, Y_topleft), (X_bottomright, Y_bottomright)</box>, <ref>…</ref>標記box所指內容


三階段訓練:


stage1. 預訓練:基于大規模、弱標注、網絡爬取的圖像-文本對,輸入分辨率224x224,凍住LLM,訓練ViT和Q-former,主要目的是模態對齊


stage2. 多任務預訓練:基于7種下游視覺-語言理解任務的高質量、細粒度標注數據訓練,輸入分辨率448x448,圖像/文本數據交錯,訓練整個模型


stage3. 指令微調:提升指令遵循和多輪對話能力,凍住ViT,訓練LLM和Q-former

多模態視覺-語言大模型的架構演進-AI.x社區

Qwen-VL-Plus和Qwen-VL-Max提升了視覺推理能力、圖像細節的識別/提取/分析能力(尤其是文本導向的任務)、支持高分辨率和極端縱橫比的輸入圖像;在部分中文場景超過了GPT-4V和Gemini

InternLM-XComposer

【2023.09發布】https://arxiv.org/abs/2309.15112


交錯圖文構成:自動在輸出文本中插入合適的圖片


EVA-CLIP ViT + InternLM-7B + Q-former (將圖像特征壓縮到64個embedding)


兩階段訓練:


stage1. 預訓練:凍住ViT,訓練LLM和Q-former


stage2. 監督微調:包括多任務訓練和指令微調,凍住ViT和LLM,訓練Q-former,對LLM進行LoRA微調,增強指令遵循和圖文混排能力

多模態視覺-語言大模型的架構演進-AI.x社區

Fuyu-8B

【2023.10發布】https://huggingface.co/adept/fuyu-8b


模型架構和訓練過程簡單,易于scaling;支持任意圖像分辨率;推理速度快


decoder-only的transformer,沒有專門的圖像編碼器;image patch直接線性映射到transformer第一層

多模態視覺-語言大模型的架構演進-AI.x社區

LLaVA-1.5

【2023.10發布】https://arxiv.org/abs/2310.03744


仍使用MLP作為模態連接,突出了訓練的數據高效性

多模態視覺-語言大模型的架構演進-AI.x社區

CogVLM

【2023.11發布】https://arxiv.org/abs/2311.03079


深度視覺-語言模態融合,而不影響LLM原有的語言能力:凍住LLM和ViT,在attention和FFN層訓練一份視覺專家模塊

多模態視覺-語言大模型的架構演進-AI.x社區

CogAgent

【2023.12發布】https://arxiv.org/abs/2312.08914


針對GUI場景的多模態理解和導引,使用高分辨率-低分辨率雙編碼器,支持1120x1120的屏幕輸入


高分辨率分支使用更輕量的ViT,基于cross-attention將高分辨率圖像特征與LLM每層進行融合

多模態視覺-語言大模型的架構演進-AI.x社區

VILA

【2023.12發布】https://arxiv.org/abs/2312.07533


探索了視覺-語言模型訓練的設計選擇:

  1. 預訓練階段凍住LLM雖然能取得較好的zero-shot性能,但上下文學習能力依賴對LLM的微調
  2. 圖文交錯的預訓練數據是有益的,只用圖文數據對效果不夠好
  3. 將純文本的指令微調數據加入SFT階段有助于緩解純文本任務的能力退化,同時也能夠增強視覺-語言任務的準確性

多模態視覺-語言大模型的架構演進-AI.x社區

LLaVA-Next

【2024.01發布】https://llava-vl.github.io/blog/2024-01-30-llava-next/


相對于LLaVA-1.5,保持了極簡的設計和數據高效性:

  1. 提高了輸入圖像的分辨率 (4x),支持3種縱橫比:672x672, 336x1344, 1344x336
  2. 更好的視覺推理和OCR能力:更好的指令微調數據配比
  3. 更好的多場景視覺對話:更好的世界知識和邏輯推理
  4. 更高效的部署和推理:SGLang


動態高分辨率:視覺編碼器支持336x336的圖像輸入,對于672x672的圖像,按照{2,2}的grid split成4個圖像patch過encoder,downsample到336x336也過encoder,特征拼接作為visual tokens輸入到LLM中

多模態視覺-語言大模型的架構演進-AI.x社區

收集高質量用戶數據,包括真實場景中反映用戶更廣泛意圖的指令數據,利用GPT-4V進行數據構造


多模態文檔/圖表數據,增強文檔OCR和圖表理解能力

多模態視覺-語言大模型的架構演進-AI.x社區

InternLM-XComposer2

【2024.01發布】https://arxiv.org/abs/2401.16420


提出了新的模態對齊方法partial LoRA:只在image token上添加LoRA參數,保證預訓練語言知識的完整性,這樣一個更輕量的視覺編碼器同樣有效


OpenAI CLIP ViT-L/14 + InternLM2-7B + partial LoRA (rank=256)

多模態視覺-語言大模型的架構演進-AI.x社區

多模態視覺-語言大模型的架構演進-AI.x社區

兩階段訓練:


stage1. 預訓練:凍住LLM,微調ViT和partial LoRA模塊,包括通用語義對齊(理解圖像基本內容)、世界知識對齊(進行復雜的知識推理)、視覺能力增強(OCR、物體定位、圖表理解)


stage2. 監督微調:微調整個模型,包括多任務訓練、自由形式圖文排布

InternLM-XComposer2-4KHD

2024.04發布了4KHD版本:https://arxiv.org/abs/2404.06512


支持動態分辨率(336px → 4K (3840x1600)):改進了patch division范式,保持訓練圖像原有的縱橫比,自動變化patch數目,基于336x336的ViT配置layout


動態圖像劃分:將輸入圖像resize and pad到336的整數倍寬高


結合圖像的global和local視角:global視角由輸入直接resize到336x336,使用sep token分隔兩種視角的token


圖像2D結構的換行符:可學習的\n token分隔圖像token行

多模態視覺-語言大模型的架構演進-AI.x社區

Mini-Gemini

【2024.03發布】https://arxiv.org/abs/2403.18814


使用雙視覺編碼器提取低分辨率embedding作為query,高分辨率特征區域作為key/value,兩者之間做cross-attention,輸出挖掘的tokens作為prompt前綴,輸入到LLM做推理,外接圖像解碼器生成圖像(SDXL)

多模態視覺-語言大模型的架構演進-AI.x社區

本文轉自 AI生成未來 ,作者:Dreamweaver


原文鏈接:??https://mp.weixin.qq.com/s/Cn5x8t3PtZLZWWHnb2PKoQ??

已于2024-5-16 10:10:28修改
收藏
回復
舉報
回復
相關推薦
日韩精品分区| 国产精品视频在线观看免费| 免费视频亚洲| 欧美日韩不卡在线| 日本天堂免费a| 四虎精品在线| 激情久久五月天| 国内精品久久久久久中文字幕| 素人fc2av清纯18岁| 亚洲成人高清| 日韩欧美国产黄色| 亚洲激情啪啪| 亚洲精品国偷拍自产在线观看蜜桃 | 精品51国产黑色丝袜高跟鞋| 成人av中文字幕| 国产伦精品免费视频| 久久久久久久久久91| 波多野结衣在线观看一区二区三区 | 国产成人无码精品久久久性色| 日本在线视频观看| 久久亚洲捆绑美女| 亚洲综合av影视| 337p粉嫩色噜噜噜大肥臀| 欧美日本久久| 爽爽爽爽爽爽爽成人免费观看| 国产一级黄色录像| 亚洲伊人伊成久久人综合网| 午夜精品久久久久久久久久久 | 亚洲影院在线看| 国产黄网在线观看| 9国产精品视频| 欧美黄色三级网站| 免费成年人视频在线观看| 国产一区二区三区91| 亚洲国产精品视频在线观看 | 97久久精品一区二区三区的观看方式| 欧美日韩中文字幕在线| www.亚洲视频.com| 91亚洲天堂| 亚洲日穴在线视频| 亚洲人一区二区| 国产一级在线观看| 91麻豆免费视频| 精品国产免费人成电影在线观... 精品国产免费久久久久久尖叫 | 天天综合国产| 在线观看日韩欧美| 国产精成人品免费观看| 啪啪亚洲精品| 亚洲色图第三页| 精品国产av无码| 亚洲人成网站77777在线观看| 亚洲国产精品小视频| 亚洲欧美日韩偷拍| 精品素人av| 亚洲电影免费观看高清完整版在线| 永久av免费在线观看| 激情不卡一区二区三区视频在线| 欧美日本免费一区二区三区| 不卡的av中文字幕| 成人av在线播放| 91精品国产综合久久精品麻豆| 成人不卡免费视频| 免费看一区二区三区| 日韩手机在线导航| 怡红院一区二区| 精品淫伦v久久水蜜桃| 日韩精品亚洲元码| 国产人妻一区二区| 成人免费在线播放| 播播国产欧美激情| 免费一级全黄少妇性色生活片| 欧美日韩国产欧| 97久久久久久| 无码一区二区三区| 蜜乳av一区二区| 亚洲精品免费在线视频| 懂色av一区二区三区四区 | 国产精品815.cc红桃| 国内精品久久久久久久影视简单| 在线亚洲午夜片av大片| 午夜爽爽爽男女免费观看| 亚洲小说欧美另类婷婷| 欧美又大又硬又粗bbbbb| 成人一二三四区| 国产精品综合一区二区三区| 久久66热这里只有精品| 成人在线高清视频| 一区二区三区蜜桃网| 成人黄色片视频| 白嫩亚洲一区二区三区| 精品国内二区三区| 国产精品国产三级国产专业不| 亚洲澳门在线| 欧美在线不卡区| 一级黄色短视频| 成人免费不卡视频| 日韩福利二区| 波多野结衣乳巨码无在线观看| 色婷婷国产精品| 亚洲一级片免费观看| 最新国产一区| 欧美大片免费看| 免费av中文字幕| 成人黄色小视频在线观看| 日本精品免费| av成人福利| 欧美日韩不卡一区| 国产精品亚洲无码| 亚洲网站在线| 92国产精品视频| 黄色影院在线播放| 亚洲成人精品一区| 亚洲精品在线视频播放| 啄木系列成人av电影| 九九热最新视频//这里只有精品| 色老头在线视频| 成人免费视频视频在线观看免费 | 91九色国产视频| 日本成人一区| 亚洲第一在线综合网站| 欧美精品 - 色网| av一区二区在线播放| 97久久精品人搡人人玩| 亚洲av无码乱码国产麻豆| 国产精品国产自产拍在线| 亚洲精品乱码久久久久久自慰| 一区二区三区国产好| 俺去亚洲欧洲欧美日韩| 中文字幕91爱爱| 久久综合九色综合欧美98 | av有码在线观看| 欧美精品久久久久久久多人混战 | 自拍av一区二区三区| 亚洲精品中文字幕无码蜜桃| 香蕉久久精品| 性欧美在线看片a免费观看| 国产99视频在线| 最新国产成人在线观看| 五月婷婷之婷婷| 精品一区av| 国产精品www网站| 欧美美女搞黄| 91久久一区二区| 久久精品无码一区| 日本在线不卡一区| 欧美一区二区三区在线免费观看| 亚洲精品mv| 亚洲精品一区二区三区婷婷月| 羞羞影院体验区| 91麻豆免费看| 91看片就是不一样| 欧美理论在线播放| 国产精品一区二区久久| 麻豆影院在线观看| 91精品婷婷国产综合久久竹菊| 性欧美疯狂猛交69hd| 韩国女主播成人在线观看| 欧美爱爱视频网站| 日本免费一区二区视频| 欧美寡妇偷汉性猛交| 国产综合无码一区二区色蜜蜜| 亚洲一区二区三区三| 国产伦精品一区三区精东| 99国产精品自拍| 欧美日产一区二区三区在线观看| а√天堂资源国产精品| 日韩中文在线不卡| www.久久色| 午夜精品一区二区三区三上悠亚| 亚洲一区二区三区蜜桃| 蜜桃视频在线观看一区二区| 久久最新免费视频| 国产欧美日韩精品一区二区免费| 精品国偷自产在线| a天堂中文在线观看| 亚洲一区二区视频| www.88av| 免费在线观看精品| 亚洲欧美激情另类校园| 日本福利片在线观看| 国产不卡高清在线观看视频| www国产91| 国产精品无码天天爽视频| 亚洲国产精品自拍| 91激情视频在线观看| 国产精品一区二区三区乱码| 轻点好疼好大好爽视频| 国产欧美日韩精品一区二区三区 | 一区二区三区日韩在线| 97精品人妻一区二区三区香蕉 | 一区二区三区动漫| www.黄色小说.com| 欧亚一区二区三区| 国产亚洲色婷婷久久99精品| 国产视频在线观看一区二区三区| 一级片免费在线观看视频| 欧美有码视频| 日本视频一区在线观看| 日本在线视频一区二区三区| 日本国产精品视频| 在线观看免费视频你懂的| 亚洲欧美激情一区| 99久久久国产精品无码网爆| 偷拍与自拍一区| 欧美风情第一页| 久久精品水蜜桃av综合天堂| www.com日本| 精一区二区三区| 国产 福利 在线| 国产精品毛片久久| 欧美一区二区三区四区在线观看地址 | 女王人厕视频2ⅴk| 免费久久99精品国产自在现线| 国产奶头好大揉着好爽视频| 欧美女王vk| 国产一区二区三区无遮挡| www久久久| 国产精品视频精品视频| 黄视频网站在线观看| 欧美大尺度激情区在线播放| av成人手机在线| 亚洲一区999| 亚洲欧洲视频在线观看| 精品国产免费视频| 精品国产无码一区二区| 欧美高清视频一二三区| 午夜精品免费观看| 性久久久久久久久| 豆国产97在线 | 亚洲| 亚洲欧美国产高清| 成人黄色短视频| 久久无码av三级| av漫画在线观看| 麻豆91在线观看| 午夜肉伦伦影院| 136国产福利精品导航网址| 日韩第一页在线观看| 日韩精品免费一区二区三区| 欧美乱偷一区二区三区在线| 欧美重口另类| 狼狼综合久久久久综合网| 免费成人三级| 麻豆成人av| 伊人成综合网yiren22| 中文字幕亚洲在线| 欧美偷拍视频| 日韩hd视频在线观看| 五月激情丁香婷婷| 日韩二区三区在线| 色播色播色播色播色播在线| 日韩精品免费观看| 日产精品久久久久久久性色| 亚洲精品网站在线播放gif| 久久伊伊香蕉| 最近2019好看的中文字幕免费| 尤物在线视频| 久久综合网hezyo| 18+视频在线观看| 欧美激情视频免费观看| а√天堂8资源在线| 欧美中文字幕在线播放| 欧美电影免费观看网站| 国产精品免费在线免费| 四虎永久精品在线| av成人午夜| 久久动漫网址| 日本一区二区三区四区高清视频| 欧美日韩老妇| 国产精品av免费观看| 亚洲国产一区二区三区a毛片| 中国丰满人妻videoshd| 人人狠狠综合久久亚洲| 日韩 国产 一区| 成人黄色一级视频| 国产伦理片在线观看| 亚洲三级电影网站| 成年人免费看毛片| 欧美手机在线视频| 亚洲精品久久久久久久久久 | 色呦呦国产精品| 国产精品乱码久久久| 亚洲精品一区二区三区99| 日本私人网站在线观看| 日韩最新av在线| 爱看av在线| 国产精品丝袜视频| 大型av综合网站| 视频在线一区二区三区| 欧美日韩国产欧| 国内自拍视频网| 国产精品99久久久| 国产精品天天干| 亚洲国产日韩综合久久精品| 在线免费观看av网址| 91精品国产乱码久久蜜臀| 艳母动漫在线看| 久久成人一区二区| 欧美一区久久久| 北条麻妃高清一区| 欧美一二区在线观看| 亚洲国产精品成人天堂| 美女网站视频久久| 内射中出日韩无国产剧情| 中文字幕日韩一区二区| 国产www在线| 日韩欧美中文字幕制服| av在线三区| 欧美一级淫片videoshd| 日韩精品成人| 视频三区二区一区| 国产日韩欧美高清免费| 色黄视频免费看| 中文字幕不卡的av| 人人爽人人爽人人片av| 日韩欧美视频一区| 麻豆传媒视频在线观看免费| 日本成熟性欧美| 天堂99x99es久久精品免费| 国产 欧美 日本| 狠狠色狠狠色综合日日91app| 国产色视频一区二区三区qq号| 亚洲一区二区三区四区在线| 国产精品视频无码| 色爱av美腿丝袜综合粉嫩av| japanese23hdxxxx日韩| 精品综合在线| 影音国产精品| 91porn在线| 一区二区三区日韩精品| 国产毛片毛片毛片毛片毛片| 这里只有视频精品| 国产精品亚洲一区二区三区在线观看| 国产伦精品一区二区三区在线| 欧美视频在线观看| 91人妻一区二区三区| 伊人夜夜躁av伊人久久| 99久久婷婷国产一区二区三区| 最近2019年好看中文字幕视频| 日韩高清不卡| 亚洲v国产v在线观看| 免费观看在线色综合| 久久视频精品在线观看| 91福利在线观看| 国产裸舞福利在线视频合集| 国产91在线播放九色快色| 亚洲va久久| 日av中文字幕| 国产亚洲精品资源在线26u| 一级特黄免费视频| 在线成人激情视频| 欧美一区二区三区婷婷| 亚洲一区精彩视频| 韩国精品一区二区| 久草网站在线观看| 精品久久久久久久人人人人传媒| 精品一性一色一乱农村| 国产福利久久| 国产精品美女久久久| 精品人妻互换一区二区三区| 欧洲精品中文字幕| 日本免费在线观看| 成人欧美一区二区三区视频xxx| 亚洲毛片一区| 在线观看日本中文字幕| 欧美日韩不卡在线| 女子免费在线观看视频www| 精品一区二区久久久久久久网站| 中日韩男男gay无套| 一区二区精品免费| 欧美精品18+| jizz一区二区三区| 欧美久久在线| 狠狠色综合色综合网络| 日本学生初尝黑人巨免费视频| 国产视频自拍一区| 成人亚洲综合| 800av在线免费观看| 91美女片黄在线观看| 一区二区三区日| 久久久久久久久久久91| 欧美日韩伦理在线免费| 中文字幕一二三区| 色系网站成人免费| 国产午夜精品久久久久免费视| 国内视频一区| 久久精品国产一区二区| 国产无码精品视频| 色婷婷久久av| 欧美a大片欧美片| 亚洲视频第二页| 亚洲一二三区在线观看| 国产对白叫床清晰在线播放| 亚洲自拍偷拍第一页| 日韩中文字幕一区二区三区| 国产性xxxx| 在线观看国产精品91| 久久人人爽人人爽人人片av不| 久久久久久久久久久久91| 亚洲va韩国va欧美va| 思思99re6国产在线播放|