精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

到底什么是視覺語言模型?(分類/訓練/評估)

發布于 2024-6-20 12:11
瀏覽
0收藏

5月27日,Meta發布了Vision Language Model行業研究的綜述論文《An Introduction to Vision-Language Modeling》。全文干貨滿滿,但篇幅過長,所以筆者把每一章節放到獨立的文章中,方便對VLM領域感興趣的同學們一邊讀一邊翻譯一邊消化,覺得有用就一鍵三連吧~

*本文只摘譯精華部分,需要了解全文的請至文末跳轉至原文鏈接閱讀。*樓主會用GPTs翻譯形成初稿,然后自己精讀后完成終稿,力求每一句話自己都能理解后再輸出譯文。

引言

近年來,語言建模技術取得了顯著進展。許多大型語言模型(LLMs),如Llama或ChatGPT,現在能夠解決各種任務,其使用變得越來越普及。這些模型過去主要處理文本輸入,但現在擴展到了視覺輸入。將視覺與語言結合將開啟許多關鍵應用,這些應用對當前的AI技術革命至關重要。盡管已有多項工作將大型語言模型擴展到視覺領域,但語言與視覺的結合尚未完全解決。例如,大多數模型在理解空間關系或計數時存在困難,除非進行復雜的工程處理并依賴額外的數據標注。許多視覺語言模型(VLMs) 也缺乏對屬性和順序的理解。它們經常忽略輸入prompt的一部分,導致需要進行大量提示工程以產生期望的結果。此外,一些模型還可能產生不需要或不相關的內容。因此,開發可靠的模型仍然是一個非常活躍的研究領域。


這篇文章介紹了VLMs的基礎知識。作者將解釋什么是VLMs,它們是如何訓練的,以及如何根據不同的研究目標有效地評估VLMs。這篇文章不應被視為對VLMs的全面調查或指南,也因此不打算引用VLM研究領域的每一項工作,不會捕捉到該領域的每一個最佳實踐。相反,本文的目的是提供一個清晰易懂的VLM研究入門,并強調該領域的有效研究實踐。這篇介紹對希望進入該領域的學生或其他領域的研究人員特別有用。


文章首先介紹不同的VLM訓練范式,討論對比學習方法如何改變了該領域;接著介紹利用掩碼策略或生成組件的方法;最后介紹使用預訓練主干(如LLMs)的VLMs。將VLMs分類并非易事,因為它們大多有重疊的組件。然而,作者希望我們的分類能夠幫助新研究人員導航該領域,并揭示VLMs背后的內部機制。


文章接下來介紹了訓練VLMs的典型方法。例如本文討論了:哪些數據集適合不同的研究目標?哪種數據整理策略最有效?用戶是否需要訓練一個文本編碼器,還是可以利用預訓練的LLM?對比學習損失是否足以理解視覺,還是生成組件是關鍵?該章節還介紹了一些常用的技術,以提高模型性能以及改進對齊和基礎。


雖然提供訓練模型的方法是更好理解VLMs需求的關鍵步驟,但提供這些模型的穩健和可靠評估同樣重要。許多用于評估VLMs的基準最近被引入。然而,這些基準中的一些具有研究人員應該注意的基本局限性。通過討論VLM基準的優缺點,作者希望能闡明改進用戶對VLMs理解的挑戰。該章節首先討論評估VLMs視覺語言能力的基準,然后介紹如何衡量偏見。


下一代的VLMs將能夠通過將視頻映射到語言來理解視頻。然而,視頻存在一些圖像沒有的不同挑戰。計算成本當然要高得多,但還有其他關于如何通過文本映射時間維度的考慮。通過揭示從視頻中學習的當前方法,作者希望突出需要解決的當前研究挑戰。

通過降低進入VLM研究的門檻,Meta團隊希望為更負責任的VLM開發奠定基礎,同時推動視覺理解的邊界。

VLM的分類

隨著深度學習在計算機視覺和自然語言處理領域的顯著進展,已經有多個將這兩個領域結合的嘗試。本文重點介紹了基于transformers的最新技術,作者將這些最新的嘗試分為四種不同的訓練范式(見圖1)。

到底什么是視覺語言模型?(分類/訓練/評估)-AI.x社區

圖1:VLMs的分類

  • 第一種是對比訓練,這是一種常用策略,利用正負樣本對進行訓練。VLM通過預測正樣本對的相似表示和負樣本對的不同表示來進行訓練。
  • 第二種是掩碼方法,通過給定部分未掩碼文本來重建被掩碼的圖像塊。同樣,通過在標題中掩碼詞語,可以訓練VLM在給定未掩碼圖像的情況下重建這些詞語。
  • 基于預訓練模型的VLMs通常利用開源的LLMs(如Llama)來學習圖像編碼器(也可以是預訓練的)和LLM之間的映射。學習預訓練模型之間的映射通常比從頭開始訓練文本和圖像編碼器的計算成本更低。
  • 雖然大多數方法利用中間表示或部分重建,生成式VLMs通過生成圖像或標題進行訓練。由于這些模型的特點,它們通常訓練成本最高。


需要強調的是,這些范式并不互斥,許多方法結合了對比、掩碼和生成標準。對于每種范式,本文僅介紹一兩個模型,以便讀者對這些模型的設計有一個高層次的了解。詳見以下傳送門:


Meta最新Vision-Language Model研究綜述(一)——VLMs的分類(https://zhuanlan.zhihu.com/p/700599618)

VLM的訓練

最近的研究已經揭示了擴展計算能力對提高深度神經網絡性能的重要性。受到這些擴展規律的啟發,最近的許多研究都集中在增加計算資源和擴大規模,以學習更好的模型。這導致了像CLIP這樣的模型,它在極高計算預算下訓練了4億張圖像。即使是它的開源版本OpenCLIP,也在256到600個GPU上訓練了多天或多周,具體取決于模型的大小。然而,最近的研究表明,通過使用數據管理流程,可以突破Scaling Laws的限制。


本文中首先討論數據在模型訓練中的重要性,并介紹一些用于創建VLM訓練數據集的方法。然后討論一些常用的軟件、工具和技巧,以更高效地訓練VLM。由于訓練VLM的方法有多種,本文還會探討在特定情況下應選擇哪種類型的模型。最后,本文還會介紹一些提高基準的方法,即正確映射文本與視覺線索的能力。此外,作者還介紹了使用人類偏好來改進模型對齊的技術。VLM經常用于讀取和翻譯文本,因此也會介紹一些增強VLM OCR能力的方法,還會討論一些常見的微調方法。

到底什么是視覺語言模型?(分類/訓練/評估)-AI.x社區

圖2:訓練VLM時需要注意的重要因素。


圖2展示了一些訓練VLM時的重要因素。數據是訓練VLM的核心要素之一,為了學習涵蓋廣泛概念的優質模型,必須擁有多樣化且平衡的數據集。同時,刪除大型數據集中的重復數據非常重要,這不僅可以節省大量計算時間,還能減少模型記憶風險。此外,修剪數據也是關鍵步驟,需要確保圖像的標題確實反映了其內容。提高標題質量對于增強VLM的性能也至關重要。


正確關聯VLM中的詞匯和具體概念是另一個關鍵步驟。常見的方法包括使用邊界框或負面標題。最后,對齊模型的輸出與人類預期答案也是必不可少的步驟,以確保模型生成的回答符合人類的期望。


詳見以下傳送門:

Meta最新Vision-Language Model研究綜述(二)——VLMs的訓練 (https://zhuanlan.zhihu.com/p/700728458)

VLM的評估

因為VLM的主要能力是將文本與圖像匹配,所以評估其視覺語言能力,確保詞語確實對應于視覺線索,至關重要。早期評估VLM的任務包括圖像描述和視覺問答(VQA)。此外,還有評估模型從圖像中理解和讀取文本能力的文本中心VQA任務。另一種常見評估方法是基于零樣本預測,例如ImageNet分類任務,這對于評估VLM的世界知識是否足夠非常重要。更近期的基準如Winoground則測量視覺語言組合推理能力。鑒于VLM模型常會顯示偏見或幻覺,因此評估這些問題同樣重要。

到底什么是視覺語言模型?(分類/訓練/評估)-AI.x社區

圖3:評估VLM的不同方法

圖3展示了評估VLMs的常用方法,視覺問答是最常用的一種。盡管這種方法通過精確字符串匹配來比較模型的答案和標準答案,但這可能會低估模型的實際性能。推理評估方法包括給VLM提供一個標題列表,并讓其選擇最可能的一個。在這一類中,兩個常用的基準是Winoground和ARO。最近,人們還可以使用密集的人工注釋來評估模型將標題準確映射到圖像相應部分的能力。最后,還可以使用像PUG這樣的合成數據生成不同配置的圖像,以評估VLM在特定變化下的魯棒性。


詳見以下傳送門:

Meta最新Vision-Language Model研究綜述(三)——VLMs的評估 (https://zhuanlan.zhihu.com/p/700943845)

從圖像擴展到視頻

迄今為止,本主要關注的是在靜態視覺數據(圖像)上訓練和評估的VLMs。然而,視頻數據帶來了新的挑戰和潛在的新能力,例如理解物體的運動和動態,或在時間和空間上定位物體和動作。文本到視頻檢索、視頻問答和視頻生成迅速成為計算機視覺的核心任務。


視頻的時間維度在存儲、GPU內存和訓練方面帶來了幀率的挑戰。例如,如果每幀都被視為圖像,那么24幀每秒的視頻需要24倍的存儲和處理能力。這需要在視頻VLMs中進行權衡。例如,可以使用壓縮格式的視頻(如H.264編碼)并在數據加載器中即時解碼;從圖像編碼器初始化視頻編碼器;以及在視頻編碼器中引入空間/時間池化或掩碼機制。非端到端的VLMs通過離線提取視頻特征并訓練使用視頻特征而不是像素幀的模型,以處理長視頻數據。


與圖像-文本模型類似,早期的視頻-文本模型通過自監督準則從頭開始訓練視覺和文本組件。但與圖像模型不同,對比視頻-文本模型并不是首選方法,早期更傾向于視頻和文本的早期融合和時間對齊,因為在表示中更多的時間粒度比計算視頻的全局表示更有趣。最近,視頻-語言模型也出現了類似于圖像-語言模型的趨勢:使用預訓練的LLMs并與視頻編碼器對齊,增強LLMs的視頻理解能力。現代技術如視覺指令微調也常用于并適應于視頻數據處理。


詳見以下傳送門:

Meta最新Vision-Language Model研究綜述(四)——從圖像擴展到視頻 (https://zhuanlan.zhihu.com/p/701035253)

總結

將視覺映射到語言仍然是一個活躍的研究領域。從對比學習方法到生成方法,有許多訓練VLMs的途徑。然而,高昂的計算和數據成本往往成為多數研究人員的障礙。這促使研究人員更多地利用預訓練的LLMs或圖像編碼器,僅學習模態之間的映射。不論使用何種技術來訓練VLMs,一些通用的考慮因素仍需注意。大規模高質量的圖像和描述是提升模型性能的重要因素。改進模型的基礎能力以及使模型符合人類偏好,也是提升模型可靠性的關鍵步驟。


為了評估模型性能,已經引入了多個基準來衡量視覺語言和推理能力;然而,其中許多基準存在嚴重的局限性,例如僅能通過利用語言先驗知識來解決問題。將圖像與文本綁定并不是VLMs的唯一目標;視頻也是一種重要的模態,可以用來學習表示。然而,在實現良好的視頻表示學習之前,仍有許多挑戰需要克服。VLMs的研究仍然非常活躍,因為還有許多關鍵組件需要完善,以使這些模型更加可靠。


本文轉自  AI生成未來 ,作者:呂阿華


原文鏈接:??https://mp.weixin.qq.com/s/tMRfiDG_MldVlv-5GzBLMQ??

收藏
回復
舉報
回復
相關推薦
久久久噜噜噜久久久| 91精品午夜视频| 欧洲一区二区在线观看| 99re热视频| 欧美+亚洲+精品+三区| 亚洲国产成人在线视频| 国产亚洲综合视频| 国产最新在线| 26uuu久久综合| 91精品久久久久久久久青青| 日本三级免费看| 久久免费大视频| 亚洲黄在线观看| 亚洲理论中文字幕| 天天综合网站| 亚洲综合色噜噜狠狠| 品久久久久久久久久96高清| 亚洲欧美强伦一区二区| 日本色综合中文字幕| 久久久久久伊人| 免费观看特级毛片| 亚洲欧洲av| 精品国产区一区| 天堂中文av在线| 欧美片第一页| 婷婷亚洲久悠悠色悠在线播放 | 日本三级免费观看| 18加网站在线| 国产精品久久午夜| 欧美高清一区二区| 亚洲欧美激情国产综合久久久| 蜜臀久久99精品久久久久宅男| 91av在线播放视频| 久久久久成人网站| 亚洲一区色图| 日韩中文字幕免费看| 乐播av一区二区三区| 国产精品任我爽爆在线播放| 日韩一区二区在线看片| 国产成年人视频网站| av免费在线一区| 欧美中文字幕一区二区三区亚洲| 91传媒久久久| 三级在线观看视频| 黄色一区二区在线| 老太脱裤让老头玩ⅹxxxx| 色呦呦呦在线观看| 亚洲乱码国产乱码精品精的特点 | 亚洲AV无码国产成人久久| 99这里只有精品视频| 精品少妇一区二区三区在线播放| 日本r级电影在线观看| 亚洲一区二区av| 91精品国产综合久久久久| 九九热精品国产| 99精品女人在线观看免费视频| 欧美日韩精品高清| 91小视频在线播放| 亚洲精品在线播放| 亚洲第一网站免费视频| 欧洲熟妇的性久久久久久| 一区二区在线免费播放| 精品捆绑美女sm三区| 欧类av怡春院| 国产日产一区| 自拍亚洲一区欧美另类| 久久精品一区二区三区四区五区| 亚洲国产精品日韩专区av有中文| 久久综合久久八八| 日本网站在线免费观看| 久久xxxx| 国产日韩精品在线播放| 国产视频www| 国产成人免费视频精品含羞草妖精| www日韩av| 性猛交xxxx| 中文字幕第一页久久| 天堂av免费看| 91资源在线观看| 色综合久久综合网欧美综合网| 无人在线观看的免费高清视频 | 欧美黄色视屏| 狠狠久久五月精品中文字幕| 99视频精品免费| 免费观看亚洲天堂| 亚洲激情第一页| 国产免费嫩草影院| 亚洲欧洲一级| 国产日韩欧美日韩| 亚洲欧美黄色片| 国产精品拍天天在线| 青青草视频在线视频| 国产精品一区二区av影院萌芽| 欧美精品一卡二卡| avtt香蕉久久| 无码一区二区三区视频| 91黄色8090| 国产特黄一级片| 26uuu精品一区二区| 国产日本欧美在线| 欧美电影免费看| 精品欧美一区二区在线观看| 久久午夜精品视频| 国产精品乱看| 96国产粉嫩美女| 成人免费视频| 五月婷婷久久丁香| 国产资源中文字幕| 精品久久久久久久| 91高清免费在线观看| 91久久国语露脸精品国产高跟| 91网站在线播放| 大地资源网在线观看免费官网| 午夜日韩成人影院| 亚洲国产私拍精品国模在线观看| 成人黄色短视频| 亚洲一区视频| 国产成人免费观看| 黄色视屏免费在线观看| 色先锋久久av资源部| 亚洲午夜久久久久久久久| 我不卡手机影院| 国产精品普通话| 秋霞av在线| 欧美日韩另类字幕中文| 国产伦精品一区二区三区妓女下载| 欧美日韩一二三四| 日韩免费在线视频| 亚洲AV成人无码一二三区在线| 玉足女爽爽91| 一级片免费在线观看视频| 岳的好大精品一区二区三区| 欧美精品第一页在线播放| 国产日韩欧美中文字幕| 亚洲天堂精品在线观看| 亚洲欧洲日本精品| 色偷偷综合网| 国产日韩欧美在线播放| caoporn国产精品免费视频| 色婷婷综合久久久久中文一区二区| 精品中文字幕在线播放| 亚洲美女黄网| 精品国产第一页| 国产777精品精品热热热一区二区| 欧美大片日本大片免费观看| avove在线播放| 国产成人av福利| 妞干网视频在线观看| 超碰在线成人| 97视频免费观看| 十九岁完整版在线观看好看云免费| 疯狂做受xxxx高潮欧美日本| 午夜av免费看| 久久先锋影音| 亚洲高清不卡一区| 97精品资源在线观看| 久久夜色撩人精品| 亚洲成人777777| 精品国产福利在线| 受虐m奴xxx在线观看| 日本欧洲一区二区| 在线一区高清| 香蕉免费一区二区三区在线观看 | 亚洲在线视频一区二区| 在线成人免费| 久久久久久久国产精品视频| 秋霞欧美在线观看| 色综合天天综合| 538精品视频| 国产精品一区二区三区乱码| 国产av熟女一区二区三区| 好吊妞视频这里有精品 | 亚洲人a成www在线影院| 欧美 亚洲 另类 激情 另类| 亚洲日本在线观看| 无码成人精品区在线观看| 午夜宅男久久久| 中文字幕久久综合| 欧美黑人做爰爽爽爽| 日本久久久久久| 男人天堂久久久| 亚洲а∨天堂久久精品9966| 老熟妇一区二区三区| 国产精品家庭影院| 五月开心播播网| 久久精品国产亚洲一区二区三区| 大荫蒂性生交片| 久久综合亚洲| 产国精品偷在线| 日韩成人亚洲| 欧美黄网免费在线观看| 国产福利电影在线| 日韩欧美综合一区| 波多野结衣人妻| 亚洲一区二区av在线| 极品人妻videosss人妻| 懂色av一区二区在线播放| 国产欧美高清在线| 国语精品一区| 亚洲日本一区二区三区在线不卡| 都市激情亚洲欧美| 成人动漫网站在线观看| 忘忧草在线影院两性视频| 久久精品视频在线观看| 黄色小视频在线免费观看| 精品美女一区二区| 一级特黄aaa大片| 一本久道中文字幕精品亚洲嫩| 曰本女人与公拘交酡| 国产精品欧美一区二区三区| aaaaa一级片| 国产成人av一区二区三区在线| 美女少妇一区二区| 久久综合九色| 欧美日韩精品在线一区二区| 欧美3p在线观看| 日本高清一区| 四虎884aa成人精品最新| 成人免费视频视频在| 一级欧美视频| 国产欧美一区二区三区在线看| 在线亚洲人成| 91精品国产高清久久久久久久久 | 成人久久一区| 免费看成人午夜电影| 粉嫩的18在线观看极品精品| 91在线网站视频| 日韩午夜视频在线| 国产精品久久久久免费a∨| 欧美成人精品一区二区男人小说| 97在线观看免费| 国产精品69xx| 久久久久久com| 超碰在线97国产| 欧美成人三级视频网站| 色多多视频在线观看| 丝袜美腿精品国产二区| 91激情在线| 在线播放国产一区中文字幕剧情欧美| 日本ー区在线视频| 亚洲最新视频在线| 风间由美一区| 伊人久久久久久久久久久久久 | 欧美老肥婆性猛交视频| 乱人伦中文视频在线| 精品国内亚洲在观看18黄 | 久久99性xxx老妇胖精品| 久久精品ww人人做人人爽| 日韩大胆成人| 日本精品一区二区三区高清 久久| 蜜桃一区二区三区| 午夜精品短视频| 天天超碰亚洲| 最新av网址在线观看| 欧美成人日本| 大伊香蕉精品视频在线| 在线视频亚洲| 男女无套免费视频网站动漫| 久久国产精品无码网站| 热久久久久久久久| 成人h动漫精品一区二区| 久久久久成人精品无码中文字幕| 91美女片黄在线观看91美女| 99久久精品免费视频| 中文字幕永久在线不卡| 69av视频在线| 欧美日韩亚洲一区二区| 久久久久久久久久一级| 欧美日韩国产首页在线观看| 国产高清在线免费| 亚洲国产精品久久精品怡红院| 女人偷人在线视频| 久久香蕉国产线看观看av| av资源在线| 国产欧美一区二区白浆黑人| 97品白浆高清久久久久久| 麻豆成人在线播放| 国产高清一区| 欧美日韩性生活片| 日本不卡免费在线视频| 亚洲成人福利视频| 久久久久久久久一| 卡通动漫亚洲综合| 欧美日韩精品在线视频| 国产精品毛片久久久久久久av| 精品对白一区国产伦| 国产毛片在线| 欧美激情亚洲另类| 国产极品久久久久久久久波多结野| 亚洲自拍偷拍福利| 免费电影一区二区三区| 中文字幕色呦呦| 美女网站久久| 美女网站视频在线观看| 国产精品免费看片| 日韩经典在线观看| 91麻豆精品国产91久久久使用方法 | 欧美一区二区三区四区在线观看地址 | 特级西西444www高清大视频| 精品国产一区二区三区久久影院| 风间由美一区| 91av国产在线| 日韩欧美中文在线观看| 亚洲国产欧美不卡在线观看| 日韩视频免费| 超碰人人cao| 中文字幕一区二区三区色视频 | 日韩av片在线| 激情成人在线视频| 亚洲免费不卡视频| 精品国产拍在线观看| 中文字幕 在线观看| 成人资源av| 五月开心六月丁香综合色啪| 国产成人精品视频ⅴa片软件竹菊| 国产高清视频一区| 久草福利资源在线| 欧美吞精做爰啪啪高潮| 亚洲av激情无码专区在线播放| 九九热视频这里只有精品| 成人精品国产亚洲| 欧美日本韩国在线| 99精品视频免费| 国产日韩视频一区| 亚洲欧美国产三级| 中文字幕有码视频| 国产一区二区久久精品| 午夜精品久久久久久久久久蜜桃| 久久99久久99精品蜜柚传媒| 一区在线播放| 无码任你躁久久久久久老妇| 亚洲午夜精品网| 亚洲欧美激情国产综合久久久| 久久99久久久久久久噜噜| 国产精品日韩精品在线播放| 一区二区三区四区欧美日韩| 免费看日韩精品| 日韩一卡二卡在线观看| 欧美性猛交xxxx黑人交| 成年人在线观看视频| 国产精品入口福利| 日韩片欧美片| 亚洲欧洲日本精品| 亚洲欧美怡红院| 精品国产av 无码一区二区三区| 日韩一级裸体免费视频| 国产激情综合| 五月天激情图片| 国产成人精品免费看| 精品无码人妻一区二区三| 亚洲第一精品福利| sm捆绑调教国产免费网站在线观看| 国产伦精品一区二区三毛| 国产欧美三级| 99久久人妻无码精品系列| 色狠狠av一区二区三区| av在线收看| 97中文在线观看| 亚洲私人影院| 精品人妻一区二区三区视频| 在线视频一区二区三区| 黄a在线观看| 国产精品亚洲一区| 国产色综合网| 欧美精品日韩在线| 56国语精品自产拍在线观看| 欧美videos另类精品| 久久青青草原| 免费高清不卡av| 久草网视频在线观看| 国产婷婷成人久久av免费高清| 成人亚洲综合| 亚洲爆乳无码精品aaa片蜜桃| 97久久精品人人澡人人爽| 在线观看亚洲黄色| 久久影视电视剧免费网站| 极品国产人妖chinesets亚洲人妖 激情亚洲另类图片区小说区 | 在线精品一区二区三区| 在线看国产日韩| а√天堂官网中文在线| 精品婷婷色一区二区三区蜜桃| 石原莉奈在线亚洲二区| 精品国产欧美日韩不卡在线观看| 精品88久久久久88久久久| 欧美成a人片在线观看久| 天天爱天天做天天操| 99国产精品久| 国产色视频在线| 国产xxx69麻豆国语对白| 欧美久久九九| 国产黄色大片免费看| 欧美岛国在线观看| 色8久久影院午夜场| 熟女熟妇伦久久影院毛片一区二区| 成人黄色在线网站| 亚洲天堂免费av| 欧美在线视频一区二区| 欧美日韩影院| 精品在线观看一区| 日韩av在线网址|