精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Llama 3.2 Vision & Molmo:多模態(tài)開源生態(tài)系統(tǒng)基礎(chǔ) 原創(chuàng)

發(fā)布于 2024-11-1 10:15
瀏覽
0收藏

編者按: 視覺功能的融入對模型能力和推理方式的影響如何?當(dāng)我們需要一個(gè)既能看懂圖像、又能生成文本的 AI 助手時(shí),是否只能依賴于 GPT-4V 這樣的閉源解決方案?

我們今天為大家分享的這篇文章,作者的核心觀點(diǎn)是:多模態(tài)語言模型領(lǐng)域正處于快速發(fā)展階段,Llama 3.2 Vision 和 Molmo 等開源模型的出現(xiàn)為構(gòu)建開放的多模態(tài)生態(tài)系統(tǒng)奠定了重要基礎(chǔ)。

本文分享了來自 Meta 的 Llama 3.2 Vision 和 AI2 的 Molmo 模型的主要技術(shù)架構(gòu)及其特點(diǎn),同時(shí)比較了它們與眾多多模態(tài)大模型的性能表現(xiàn)。文中介紹在多數(shù)視覺領(lǐng)域測試中, Molmo 表現(xiàn)更優(yōu),Llama 3.2 V 在 MMMU 等文本相關(guān)任務(wù)中表現(xiàn)更好,目前多模態(tài)模型的開源定義仍需進(jìn)一步探討和完善,但 Molmo 是目前最接近開源的視覺模型。同時(shí)還探究了視覺功能的融入對模型能力和推理方式的影響。

盡管目前在評估工具、數(shù)據(jù)集等方面還存在不足,但開源模型已經(jīng)展現(xiàn)出與閉源模型相媲美的潛力,這預(yù)示著多模態(tài) AI 領(lǐng)域即將迎來新的發(fā)展機(jī)遇。

作者 | Nathan Lambert

編譯 | 岳揚(yáng)

多模態(tài)語言模型領(lǐng)域相比純語言模型,顯得定義更為不明確、未解決的問題更多,同時(shí)也有更多空間讓人們發(fā)揮創(chuàng)意。在語言模型領(lǐng)域,存在一系列明確的任務(wù)和行為,那些前沿實(shí)驗(yàn)室正試圖通過例如 OpenAI o1 這樣的創(chuàng)新訓(xùn)練方法,在最為棘手的推理問題上取得突破。然而,無論是前沿實(shí)驗(yàn)室(frontier labs)還是小型實(shí)驗(yàn)室(small labs),都在探索多模態(tài)模型的應(yīng)用方向。AI如何“感知”和理解外部世界?擁有一系列強(qiáng)大的開放式模型(open models)對于該領(lǐng)域全面且公開、透明的發(fā)展至關(guān)重要——這是實(shí)現(xiàn)積極成果的兩個(gè)關(guān)鍵條件(譯者注:這兩個(gè)條件應(yīng)當(dāng)是指全面、公開透明的發(fā)展)。

目前,多模態(tài)語言模型研究大多是通過 late-fusion 模型進(jìn)行的,即基于語言主干網(wǎng)絡(luò)(language backbone)和圖像編碼器(image encoder)(很可能也是 GPT-4V 所使用的方法)進(jìn)行初始化。 這種對基礎(chǔ)語言模型的微調(diào)方式雖然成本較高,但實(shí)際上計(jì)算成本并沒有人們想象的那么難以承受。雖然存在多種模型架構(gòu)[1],但由于 late-fusion 這一架構(gòu)的穩(wěn)定性和可預(yù)測性,成為了當(dāng)下研究的熱門選擇。Molmo 和 Llama 3.2 V 就是通過這種方法訓(xùn)練而成的。

通過在多模態(tài)數(shù)據(jù)集上預(yù)訓(xùn)練的 early-fusion 模型來擴(kuò)展數(shù)據(jù)的預(yù)期效果尚未顯現(xiàn)。或許只有當(dāng)這些模型在 GPT-5 級別的計(jì)算集群上進(jìn)行測試時(shí),它們的真正優(yōu)勢才會顯現(xiàn)出來。

Late-fusion 的多模態(tài)方法激發(fā)了我們對如何將基礎(chǔ)語言模型轉(zhuǎn)型升級為多樣化輸出形式的深入探索。回顧過去幾年我們在模型微調(diào)領(lǐng)域所采用的各種技術(shù),從 RLHF 開始,到多模態(tài) late-fusion 模型,再到像 o1 這樣的創(chuàng)新模型,我們意識到模型還有大量表達(dá)潛能等待我們?nèi)グl(fā)掘。一些基本問題仍然值得關(guān)注,比如“多模態(tài)訓(xùn)練會對 GSM8k 或 IFEval 這樣的標(biāo)準(zhǔn)文本評測基準(zhǔn)造成何種影響?”在對模型進(jìn)行視覺方面的微調(diào)之后,那些主要用于評估模型知識水平的標(biāo)準(zhǔn)測試,例如 MMLU(Massive Multitask Language Understanding)測試,并沒有發(fā)生較大變化。

這個(gè)領(lǐng)域?qū)ξ襾碚f同樣新穎。本文的主要介紹對象是 Ai2 的一個(gè)重要模型版本——Molmo[2](開放式多模態(tài)語言模型),以及 Meta 的新模型 Llama 3.2 Vision。兩者都推出了一套不同規(guī)模的四個(gè)模型。它們的性能表現(xiàn)相當(dāng),但 Molmo 在開放程度上更勝一籌。

Meta 發(fā)布了 Llama 3.2 的早期版本,包括 1B、3B、11B-Vision 和 90B-Vision[3],并在博客文章中透露了一些訓(xùn)練過程的細(xì)節(jié)[4](文章中還有相關(guān)鏈接)。11B 模型可能是基于 Llama 3 8B 模型的改進(jìn)版,而 90B 模型則是在 Llama 3 70B 模型的基礎(chǔ)上發(fā)展而來的。

Ai2 推出了基于 Qwen 2 72B 打造的 Molmo 72B,基于 Qwen 2 7B 的 Molmo-7B-D,即將問世的基于 OLMo 7B 版本的 Molmo-O,以及基于 OLMoE 并擁有 1B 活躍參數(shù)的 Molmo-E。

Molmo 系列模型采用 Apache 2.0 許可協(xié)議,而 Meta 模型則采用了 Llama 3.2 社區(qū)許可協(xié)議,該許可協(xié)議對模型的使用施加了一些較為嚴(yán)格的限制。

這不禁讓人思考,人工智能領(lǐng)域的發(fā)展將何去何從。實(shí)際上,重頭戲是 1B 和 3B 參數(shù)規(guī)模的 Llama 模型。小型語言模型的市場需求持續(xù)攀升,而且隨著這些模型能力的不斷提升,市場潛力還在不斷擴(kuò)大。我會反復(fù)探討這一話題,但今天我們聚焦的是多模態(tài)。

01 Llama Vision:面向大眾開發(fā)者的多模態(tài)模型

自 Llama 3 報(bào)告[5]發(fā)布以來,Meta 已經(jīng)明確表示這些模型不久將面世(歐盟地區(qū)除外)。Meta 正在將它們應(yīng)用到 Meta AI 以及旗下的增強(qiáng)現(xiàn)實(shí)(AR)/虛擬現(xiàn)實(shí)(VR)設(shè)備,例如 RayBan 智能眼鏡。這些模型非常可靠,比封閉實(shí)驗(yàn)室的小型模型更勝一籌,后者的活躍參數(shù)通常估計(jì)在 60B 范圍內(nèi)。

Llama 3.2 Vision & Molmo:多模態(tài)開源生態(tài)系統(tǒng)基礎(chǔ)-AI.x社區(qū)

關(guān)于這些模型的具體信息相對較少。若歐盟地區(qū)的用戶嘗試從 Meta AI 的官方頁面下載模型,將會看到我在 HuggingFace 平臺上看到的地理限制鎖??。

Llama 3.2 Vision & Molmo:多模態(tài)開源生態(tài)系統(tǒng)基礎(chǔ)-AI.x社區(qū)

其他用戶可在 Meta AI 中獲取這些模型。不過還有個(gè)更重要的消息,還有一些具有更豐富文檔和更高開放性的模型可供使用(且不受地理限制)。

02 Molmo:與 Llama Vision 相當(dāng)?shù)囊粋€(gè)(大部分)開源的模型

Molmo 是 Ai2 最新推出的開源語言模型[6],它附有一份初步的技術(shù)報(bào)告[7],用戶可以免費(fèi)體驗(yàn)?zāi)P?demo[8],而且即將公開相應(yīng)的數(shù)據(jù)集。該項(xiàng)目的宗旨是構(gòu)建開源語言模型,讓任何人都有機(jī)會參與或理解構(gòu)建現(xiàn)代 AI 模型的最關(guān)鍵部分。Molmo 模型是在 Qwen2 和 OLMo 的架構(gòu)基礎(chǔ)上,結(jié)合了 CLIP 編碼器[9]進(jìn)行訓(xùn)練的。但盡管有了這個(gè)數(shù)據(jù)開放的 CLIP 版本[10],研究團(tuán)隊(duì)并沒有選擇這個(gè)版本,而是放棄使用它,轉(zhuǎn)而選擇另一種版本,因?yàn)楹笳呦掠涡阅芨吭健U堊⒁猓琈istral 的 Pixtral 模型[11]和 Llama 模型都訓(xùn)練了自己的編碼器。相關(guān)博客文章清晰地闡述了這些組成部分是如何協(xié)同工作的:

該模型架構(gòu)采用了將語言模型與圖像編碼器結(jié)合的簡潔而標(biāo)準(zhǔn)的設(shè)計(jì)。整個(gè)模型由四個(gè)主要部分組成: (1) 一個(gè)預(yù)處理器,將輸入的單張圖像轉(zhuǎn)換成一系列不同尺度(multiscale)和不同裁剪方式(multi-crop)的圖像集合; (2) 一個(gè) ViT 圖像編碼器,獨(dú)立地將這些圖像轉(zhuǎn)換成一系列視覺 tokens; (3) 一個(gè)連接器,負(fù)責(zé)將視覺 tokens 轉(zhuǎn)換為適合語言模型輸入的維度,并通過池化技術(shù)減少視覺 tokens 數(shù)量; (4) 一個(gè)僅包含解碼器的 Transformer 大語言模型(LLM)。

論文中對該模型結(jié)構(gòu)進(jìn)行了詳細(xì)的概述。

Llama 3.2 Vision & Molmo:多模態(tài)開源生態(tài)系統(tǒng)基礎(chǔ)-AI.x社區(qū)

請留意,在這些模型的兩個(gè)訓(xùn)練階段中,所有的模型參數(shù)都會得到更新,而不是保持不變。此外,這些模型在訓(xùn)練過程中并未采用RLHF(基于人類反饋的強(qiáng)化學(xué)習(xí))或偏好調(diào)優(yōu)技術(shù)(preference tuning)。就我們針對視覺模型所設(shè)定的基準(zhǔn)測試而言,Molmo 模型在性能上可與 GPT、Claude 以及 Gemini 模型相媲美。

Llama 3.2 Vision & Molmo:多模態(tài)開源生態(tài)系統(tǒng)基礎(chǔ)-AI.x社區(qū)

相較于 Llama 3.2 V 模型,Molmo 在多數(shù)視覺領(lǐng)域的表現(xiàn)更勝一籌。以下是對各個(gè)基準(zhǔn)測試得分情況的概述:

  • MMMU測試中,Llama模型的得分高出6分;
  • MathVista測試中,Molmo模型的得分領(lǐng)先1分;
  • ChatQA測試中,Molmo模型的得分高出2分;
  • AI2D測試中,Molmo模型的得分領(lǐng)先4分;
  • DocVQA測試中,Molmo模型的得分高出3分;
  • 而在VQAv2測試中,兩者的得分相近,或者 Molmo 稍占優(yōu)勢(Llama 3.2 的博客文章中對這一處的報(bào)告不夠明確)。

以下是 Reddit 上的用戶 LocalLlama[12] 對評估結(jié)果的獨(dú)立復(fù)現(xiàn)。

Llama 3.2 Vision & Molmo:多模態(tài)開源生態(tài)系統(tǒng)基礎(chǔ)-AI.x社區(qū)

依我看,這一點(diǎn)也基本符合各組織的追求目標(biāo),Llama 3.2 V 在文本方面表現(xiàn)更佳,或許優(yōu)勢還相當(dāng)明顯,但在圖像方面,Molmo 則更勝一籌。特別是在識別圖像中的指向性特征和讀取時(shí)鐘等任務(wù)上,Molmo 的表現(xiàn)尤為出色。

正如我將在本文后續(xù)部分進(jìn)一步探討的,基準(zhǔn)測試并不能全面反映這些模型的實(shí)力。Molmo 對開源和科學(xué)界做出了巨大貢獻(xiàn),但探討這些模型的行為特性同樣重要。Molmo 具備一項(xiàng)獨(dú)特的功能,是其同等級模型所不具備的 —— 那就是能夠指向參考圖片中的特定像素。 例如,我向 Molmo 詢問了一張我的照片中自行車的位置[13]。

Llama 3.2 Vision & Molmo:多模態(tài)開源生態(tài)系統(tǒng)基礎(chǔ)-AI.x社區(qū)

這種指向性功能是多模態(tài)模型在 web agents 應(yīng)用中最顯著的優(yōu)點(diǎn)。一旦在模型訓(xùn)練時(shí)融入了足夠的 web 數(shù)據(jù),它就能迅速掌握瀏覽所有常規(guī)網(wǎng)頁的能力。

當(dāng)模型被要求對同一張圖片進(jìn)行描述時(shí),它給出了一個(gè)相當(dāng)詳盡的描述[14],而且相當(dāng)標(biāo)準(zhǔn):

圖片是一張 Zoom 通話的截屏,圖片被黑色邊框和白色內(nèi)框所環(huán)繞。在右上角,有一個(gè)小窗口顯示另一位參與者,他留著胡須,戴著眼鏡和耳機(jī),身穿一件黑色T恤。他坐在壁爐前,壁爐臺上擺放著照片和書籍。主畫面中的年輕男子有著短短的棕色頭發(fā)和藍(lán)色的眼睛,面帶微笑,穿著一件點(diǎn)綴著白色圓點(diǎn)的藍(lán)色襯衫。他坐在一個(gè)白色墻壁、帶窗臺窗戶的房間里,背后是一個(gè)黑色的架子。架子上陳列著各式物品,墻上還掛著一個(gè)自行車輪胎。屋內(nèi)還擺放了幾幅裝框的畫作。屏幕頂端顯示著文件名……

這種詳細(xì)的描述得益于新數(shù)據(jù)集 PixMo 的直接影響,該數(shù)據(jù)集被用于訓(xùn)練 Molmo 模型。PixMo 的價(jià)值遠(yuǎn)遠(yuǎn)超出這些早期模型。這個(gè)數(shù)據(jù)集的創(chuàng)新之處在于,它讓標(biāo)注人員通過音頻而非文字來對圖片做出回應(yīng)(類似于這篇關(guān)于局部化敘述的研究[15]),這使得他們的數(shù)據(jù)標(biāo)注更加富有創(chuàng)造性和描述性。事實(shí)上,數(shù)據(jù)標(biāo)注人員們非常喜歡這些任務(wù)(比如提供指向數(shù)據(jù)),以至于他們主動要求完成更多任務(wù)。激發(fā)數(shù)據(jù)標(biāo)注人員的高度參與度是任何人工數(shù)據(jù)流程(human data pipeline)的目標(biāo),而這在我所見過的案例中是前所未有的。這個(gè)數(shù)據(jù)集有數(shù)百萬個(gè)樣例,涉及各種各樣的圖像。

我們所掌握的有關(guān) Llama 3.2 V 的少數(shù)技術(shù)細(xì)節(jié)之一是,它是在 “6B(圖像,文本)對” 上進(jìn)行訓(xùn)練的,其中大部分可能是合成數(shù)據(jù)。而 Molmo 則是通過主要由人類產(chǎn)生的數(shù)百萬份數(shù)據(jù)進(jìn)行訓(xùn)練。

對于 OLMo 模型,包括 Molmo 在內(nèi),最關(guān)鍵的差異化因素和戰(zhàn)略是其開放性(openness)。隨著對“開源 AI”定義的討論進(jìn)行,像這些多模態(tài)模型(例如 CLIP)就是很好的案例,可以用來檢驗(yàn)或“壓力測試”我們對開源 AI 的理解。以下是對 Molmo 模型及其同類模型的開放性比較 —— Llama 3.2 V 的開放性與其他所有權(quán)重開源模型(open-weight models)相似。

Llama 3.2 Vision & Molmo:多模態(tài)開源生態(tài)系統(tǒng)基礎(chǔ)-AI.x社區(qū)

這些模型都采用了沒有開放數(shù)據(jù)的視覺編碼器(主要是 OpenAI 的 CLIP),但也有開源的替代方案。公開圖像數(shù)據(jù)風(fēng)險(xiǎn)較高(可能會涉及像 CSAM 這樣的敏感問題),而且過程復(fù)雜。Molmo 模型是基于非開源模型進(jìn)行微調(diào)的(并對參數(shù)進(jìn)行了更新),根據(jù)開源倡議的最新定義,它們并不能算作開源。但如果 Molmo 只是公開數(shù)據(jù)的嵌入,而不是原始圖像或文本數(shù)據(jù),那么這種做法是否能讓模型滿足開源要求。這就引出了一個(gè)問題:當(dāng)核心權(quán)重保持不變并且公開嵌入數(shù)據(jù)時(shí),模型的開源性是否依舊符合標(biāo)準(zhǔn)?

這與根據(jù)其他語言模型(包括非公開模型)的合成輸出訓(xùn)練出的模型可被視為開源的定義是一樣的。在同時(shí)使用多個(gè)模型和數(shù)據(jù)流的領(lǐng)域,開源 AI 的定義還需要進(jìn)一步的探討。 對于僅使用文本進(jìn)行預(yù)訓(xùn)練的模型,其“開源”定義原則上是合理的,只需要在一些細(xì)節(jié)上做出調(diào)整。然而,當(dāng)涉及到微調(diào)和多模態(tài)時(shí),情況變得更加復(fù)雜,因此還需要更多的討論。

基于這些原因,我不會直接宣稱“Molmo 是開源的”,但它無疑是目前最為接近開源的視覺模型。從定義上講,生態(tài)系統(tǒng)中最開放的實(shí)驗(yàn)室在戰(zhàn)略上與開源的差距微乎其微。

03 視覺功能的融入對模型能力和推理方式的影響

視覺功能的增加可以被視為一種微調(diào)問題,讓我不禁要問,當(dāng)前頂級模型在處理帶圖像和不帶圖像的相同提示詞時(shí)會有怎樣的表現(xiàn)。在幕后會將 query 路由給不同的模型。對于那些不是 early fusion 模型的,比如 GPT-4 和 Claude,除了推理成本之外,帶有視覺元素幾乎肯定會對性能有所影響 —— 否則,所有的模型都將是視覺模型。而對于像 GPT-4o 這樣能夠原生處理圖像數(shù)據(jù)的模型,這一測試并不適用。

最直接的比較方法就是查看模型的標(biāo)準(zhǔn)版本和視覺版本對文本任務(wù)進(jìn)行評估的差異。然而,在目前已經(jīng)發(fā)布的模型中,進(jìn)行這種直接比較的寥寥無幾。即便有,也通常只限于部分評估。在撰寫本文的過程中,我做了一個(gè)還算不錯但并不完全詳盡的調(diào)查,發(fā)現(xiàn)對比數(shù)據(jù)不足,因此沒法用具體的數(shù)字支撐一個(gè)有說服力的論點(diǎn)。我的直覺是,在模型中加入視覺處理會使得模型在訓(xùn)練完成之后通過各種方法(如微調(diào)、優(yōu)化等)實(shí)現(xiàn)的性能提升(我們在 ChatBotArena 等平臺上觀察到的)變得更加難以實(shí)現(xiàn)。

本實(shí)驗(yàn)旨在觀察 GPT-4 和 Claude 3.5 Sonnet 在處理中等難度的推理或編程任務(wù)時(shí),能否在有圖像干擾的情況下正確地忽略非相關(guān)信息。實(shí)驗(yàn)結(jié)果顯示,當(dāng)明確指示模型忽略某些信息時(shí),它們都能輕松做到,并且在后續(xù)詢問圖像相關(guān)問題時(shí),仍能準(zhǔn)確理解圖像內(nèi)容。圖像的引入可能會導(dǎo)致模型更容易出現(xiàn)之前模型在處理類似任務(wù)時(shí)遇到的那些典型問題或錯誤。

我首先提出了一個(gè)我經(jīng)常使用的簡單推理問題:“月球能裝下多少高爾夫球?”無論是附有圖像還是無圖像的 ChatGPT4 ,它們的推理過程幾乎相同,得出的答案也非常接近。

Llama 3.2 Vision & Molmo:多模態(tài)開源生態(tài)系統(tǒng)基礎(chǔ)-AI.x社區(qū)

另一方面,Claude 的視覺系統(tǒng)在這個(gè)例子中(見下圖右側(cè))顯得有些力不從心。Claude 給出的回應(yīng),更像是一種巧妙的回避,而不是像往常那樣嘗試解答這個(gè)常見的概念性問題。

Llama 3.2 Vision & Molmo:多模態(tài)開源生態(tài)系統(tǒng)基礎(chǔ)-AI.x社區(qū)

這個(gè)任務(wù)難度似乎不夠,于是我決定挑戰(zhàn)一個(gè)編程問題,要求 LLM 闡述解題思路,然后為其編寫一個(gè) Python 腳本 —— 一個(gè)語言模型的基本訓(xùn)練腳本。首先未提供給 ChatGPT 相關(guān)圖像,這也在情理之中,對于實(shí)際開發(fā)來說,其作用有限。

Llama 3.2 Vision & Molmo:多模態(tài)開源生態(tài)系統(tǒng)基礎(chǔ)-AI.x社區(qū)

ChatGPT 對帶有圖像的提示詞的回應(yīng)不夠詳盡,也不夠周全。

Llama 3.2 Vision & Molmo:多模態(tài)開源生態(tài)系統(tǒng)基礎(chǔ)-AI.x社區(qū)

而 Claude 所給出的兩次回答在內(nèi)容上幾乎無二致。

Llama 3.2 Vision & Molmo:多模態(tài)開源生態(tài)系統(tǒng)基礎(chǔ)-AI.x社區(qū)

這個(gè)結(jié)論并不讓人意外。模型的圖像輸入不那么成熟,因此我們看到了更多去年常見的典型問題或不足之處。

更值得關(guān)注的問題是未來這種情況會有顯著改善,還是維持現(xiàn)狀?像 o1 這樣的特性獲得的認(rèn)可度,明顯高于更優(yōu)質(zhì)的視覺輸入。在 AI 模型領(lǐng)域,語言仍然是核心, 如果沒有明確的任務(wù)來挑戰(zhàn)視覺的極限 ,就很難證明視覺輸入具有變革性。語言依然是這個(gè)生態(tài)系統(tǒng)的命脈。

對于 Molmo 而言,由于缺乏標(biāo)準(zhǔn)的文本指令調(diào)優(yōu)和 RLHF(基于人類反饋的強(qiáng)化學(xué)習(xí)),在進(jìn)行推理任務(wù)時(shí),給人的感覺與以往熟悉的模型大相徑庭。我們清楚,需要在所有 OLMo 模型上不斷優(yōu)化這類任務(wù)。

Llama 3.2 Vision & Molmo:多模態(tài)開源生態(tài)系統(tǒng)基礎(chǔ)-AI.x社區(qū)

然而,Molmo 還有一些 Claude 和 ChatGPT 所不具備的特殊功能。我們期待這些功能能夠證明其使用價(jià)值。如果想要體驗(yàn)這些模型,還有一個(gè)選擇是 Vision Arena[16],但需要注意的是,它的某些功能接口出現(xiàn)了問題,而且其運(yùn)行速度不及原生的本地應(yīng)用程序。

04 多模態(tài)語言模型:正處于快速發(fā)展階段的前端

Molmo 項(xiàng)目與我之前關(guān)注的純文本模型項(xiàng)目的進(jìn)展相比,最顯著的區(qū)別在于多模態(tài)模型生態(tài)系統(tǒng)的成熟度較低。 尤其是在模型訓(xùn)練完成后的行為研究方面,我們?nèi)鄙僭u估工具、數(shù)據(jù)集、開放的基準(zhǔn)模型 —— 總之,一切都非常缺乏。我在今年年初就這個(gè)問題發(fā)表了自己的看法,特別是對于開放流程(open pipelines)中多模態(tài) RLHF 的不明確性[17],遺憾的是,至今變化不大。這就導(dǎo)致了一個(gè)現(xiàn)象:某些可以說是“開源”的模型幾乎能與像 GPT-4o 這樣的閉源模型相媲美。

需要明確的是,雖然技術(shù)報(bào)告中對模型的基準(zhǔn)測試討論頗多,但與潛在的研究空間相比,這些討論僅僅是觸及了表面。許多評估工作是將傳統(tǒng)語言模型的理念,如解釋概念或識別內(nèi)容,遷移到視覺領(lǐng)域。 而對于視覺模型來說,我們需要的是全新的基準(zhǔn)測試方向。對于視覺語言模型,SWE-Bench 的對等基準(zhǔn)測試會是什么?我推測可能會出現(xiàn) SWE-Bench-Vision,但我們還需要開發(fā)更多無法與文本模型相對應(yīng)的新測試類別。

在使用多模態(tài)模型時(shí),我發(fā)現(xiàn)并不清楚應(yīng)該用它們來做什么。這些模型在信息提取和加工處理等方面確實(shí)強(qiáng)大。我就經(jīng)常用 Claude 或 ChatGPT 來復(fù)制表格內(nèi)容或重新編寫代碼生成圖表。除了前面提到的用途之外,還有很多功能,特別是場景描述(scene captioning),雖然展示出來的時(shí)候非常吸引人,讓人印象深刻,但并不是我們?nèi)粘I钪袝?jīng)常使用到的功能。

曾經(jīng),視覺語言模型的效果并不理想。但現(xiàn)在,它們的性能得到了大大增強(qiáng),更重要的是,它們現(xiàn)在可以被大規(guī)模公開使用,這無疑會促進(jìn)其被更廣泛地采用。而隨著使用率的提升,就有了發(fā)展的反饋回路。以下是對這一論點(diǎn)的詳細(xì)解釋。

Llama 3.2 Vision & Molmo:多模態(tài)開源生態(tài)系統(tǒng)基礎(chǔ)-AI.x社區(qū)

特別是,Meta 采取了將“開源 AI”的品牌與 Llama 模型掛鉤的策略,這一行動提升了 Llama 模型在業(yè)界的可信度,從而促使更多開發(fā)者更加重視此類模型。

在未來的多模態(tài)語言模型中,唯一尚未解決但肯定會重要的應(yīng)用是理解網(wǎng)頁元素。 Web agents 成為了阻礙生成式 AI 產(chǎn)品大規(guī)模部署的最后幾道關(guān)卡之一。 我們之所以尚未見到更多的 web agents,可能是因?yàn)楫?dāng)前的生態(tài)系統(tǒng)過于依賴封閉模型,而這些模型很難獲得執(zhí)行相關(guān)操作所需的權(quán)限(尤其是在企業(yè)級應(yīng)用中)。隨著技術(shù)能力的提升,我們有理由相信,權(quán)重開源模型(open-weight models)將會得到快速的推廣和應(yīng)用。推動多模態(tài)模型發(fā)展的原因似乎更多是市場、技術(shù)、行業(yè)趨勢等方面的因素,而非僅僅是為了推廣本地多模態(tài)模型 —— 這一點(diǎn)我們可以向 Adept 公司進(jìn)行探討。隨著權(quán)重開源模型和近乎開源模型((nearly) open-source models)的增多,AI 領(lǐng)域的加速發(fā)展指日可待。

Thanks for reading!

Hope you have enjoyed and learned new things from this blog!

About the authors

Nathan Lambert

ML researcher making sense of AI research, products, and the uncertain technological future. PhD from Berkeley AI. Experience at Meta, DeepMind, HuggingFace.

END

本期互動內(nèi)容 ??

?Molmo 模型的“像素級指向功能”給您帶來了哪些啟發(fā)?您認(rèn)為這個(gè)功能在未來可能催生什么樣的創(chuàng)新應(yīng)用?

??文中鏈接??

[1]??https://lilianweng.github.io/posts/2022-06-09-vlm??

[2]??https://molmo.allenai.org/blog??

[3]??https://huggingface.co/collections/meta-llama/llama-32-66f448ffc8c32f949b04c8cf??

[4]??https://ai.meta.com/blog/llama-3-2-connect-2024-vision-edge-mobile-devices/?utm_source=twitter&utm_medium=organic_social&utm_content=video&utm_campaign=llama32??

[5]??https://arxiv.org/abs/2407.21783??

[6]??https://www.interconnects.ai/p/olmo??

[7]??https://molmo.allenai.org/paper.pdf??

[8]??https://molmo.allenai.org/??

[9]??https://huggingface.co/openai/clip-vit-large-patch14-336??

[10]??https://github.com/mlfoundations/open_clip??

[11]??https://mistral.ai/news/pixtral-12b/??

[12]??https://www.reddit.com/r/LocalLLaMA/comments/1fpb4m3/molmo_models_outperform_llama_32_in_most_vision/??

[13]??https://molmo.allenai.org/share/963de0d0-9069-4a14-ad5a-8e4bc0863136??

[14]??https://molmo.allenai.org/chat/d1917496-1581-4ca5-8bda-1f4216d1ea1e??

[15]??https://arxiv.org/abs/1912.03098??

[16]??https://huggingface.co/spaces/WildVision/vision-arena??

[17]??https://www.interconnects.ai/i/140525309/multimodal-rlhf-questions-ideas-and-resources??

原文鏈接:

??https://www.interconnects.ai/p/molmo-and-llama-3-vision??


?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
欧美极品jizzhd欧美| 久久99精品视频一区97| 天天操天天爱天天爽| 最新真实国产在线视频| 国产精品91一区二区| 午夜剧场成人观在线视频免费观看| 国产麻豆天美果冻无码视频| 国精品产品一区| 亚洲一区二区四区蜜桃| 欧美婷婷久久| 国产a级免费视频| 先锋影音国产一区| 久久影院免费观看| 国产精品高清无码在线观看| 久久久久毛片免费观看| 色又黄又爽网站www久久| 天天综合五月天| 免费成人av电影| 国产91高潮流白浆在线麻豆| 国产精品高潮视频| 国产精品第九页| 国产精品99一区二区三| 日韩毛片在线观看| 国产麻豆剧传媒精品国产| 456成人影院在线观看| 亚洲一区二区三区四区五区中文 | 无码熟妇人妻av在线电影| 国产永久免费高清在线观看| 成人在线综合网| 成人免费网站在线| 亚洲午夜无码久久久久| 99国产一区| 欧美激情一区二区久久久| 蜜桃av.com| 日韩精品首页| 亚洲一级黄色片| 免费观看一级一片| 久久夜色精品国产噜噜av小说| 91麻豆精品国产91久久久久| 亚洲 欧美 另类人妖| 自拍偷自拍亚洲精品被多人伦好爽| 亚洲h在线观看| 99er在线视频| 亚洲综合影视| 亚洲综合一二区| 午夜啪啪福利视频| 成年人黄视频在线观看| 国产精品不卡在线| 中文字幕一区二区三区在线乱码| 黄色电影免费在线看| 久久久久久久综合日本| 免费日韩av电影| 久久视频这里有精品| 日日夜夜综合网| 国产剧情在线| 麻豆传媒视频在线观看免费| 久久久九九九九| 日韩美女视频免费看| 91大神福利视频| 国产精品99久久久久久久女警| 欧美视频在线观看免费| 欧美亚洲色图视频| av毛片在线免费看| 亚洲免费视频成人| 97av中文字幕| 日韩视频在线观看一区二区三区| 蜜桃视频在线观看网站| 94色蜜桃网一区二区三区| 国产三级精品在线不卡| 风流老熟女一区二区三区| 黄色片视频免费| 热三久草你在线| 精品二区三区线观看| 日本在线xxx| 人人草在线视频| 色综合亚洲欧洲| 九九热免费精品视频| 国产探花在线视频| 欧美激情在线精品一区二区三区| 亚洲午夜小视频| 国产黄色大片免费看| 国产精品久久久久久久久久10秀| 久久精品男人天堂| 中文字幕一区二区三区手机版 | 日韩精品电影网站| xxxxx日韩| 18成人在线观看| 久久99久久99精品| 欧美日韩美女| 666欧美在线视频| 亚洲图片欧美另类| 国产在线日韩精品| 欧美成人午夜激情视频| 奇米影视第四色777| 日韩高清在线一区| 91精品国产综合久久久久久丝袜| 神马久久久久久久久久| 亚洲国产高清不卡| 欧美视频在线观看视频| 奇米777日韩| 欧美一级高清片在线观看| 中文字幕在线永久| 欧美疯狂party性派对| 国语自产精品视频在线看一大j8| 久久精品五月天| 国产成人在线免费| 性欧美精品一区二区三区在线播放| 成人欧美在线| 欧洲精品一区二区| 国产a级黄色片| 99久久九九| 人九九综合九九宗合| 精品久久久免费视频| 国产亚洲自拍一区| 欧美久久在线观看| 97精品资源在线观看| 亚洲全黄一级网站| 久久精品美女视频| 狠狠色丁香婷综合久久| 欧美日韩国产综合视频在线| 在线观看av免费| 欧美午夜电影一区| 精品人妻一区二区三区香蕉| 亚洲香蕉av| 国产精品久久久久久久久久东京 | 亚洲国产精品女人| 精品123区| 亚洲另类欧美自拍| 黄色激情视频在线观看| 久久99国产精品免费网站| 欧美一区二区视频17c| 51漫画成人app入口| 欧美一卡二卡在线| 激情无码人妻又粗又大| 日韩有码一区二区三区| 久久99精品久久久久久三级| 女同一区二区免费aⅴ| 日韩三级在线观看| 日韩va亚洲va欧美va清高| 日本成人中文字幕| 日本不卡一区| 少妇精品视频一区二区免费看| 精品偷拍各种wc美女嘘嘘| 久久精品国产亚洲AV无码男同 | 在线免费观看污| 7777精品伊人久久久大香线蕉的| 日本视频在线免费| 蜜桃91丨九色丨蝌蚪91桃色| 欧美一二三区| 国产综合色区在线观看| 国产亚洲一区精品| 国产黄网在线观看| 国产日韩v精品一区二区| av片中文字幕| 国产欧美高清视频在线| 国产精品久久中文| 国产youjizz在线| 欧美视频完全免费看| 国产一二三四五区| 日本在线观看不卡视频| 亚洲一卡二卡三卡| 精品视频一区二区三区| 欧美日产国产成人免费图片| 亚洲国产av一区二区| 亚洲一二三四在线| 少妇精品一区二区| 久久久久一区| 亚洲一区精彩视频| 日本在线一区二区三区| 欧美激情视频一区二区| 亚洲人午夜射精精品日韩| 欧美视频中文字幕在线| 欧美日韩国产一二三区| 国产一区二区毛片| 无码av天堂一区二区三区| 香蕉视频一区| 国产欧美日韩中文字幕在线| 麻豆传媒在线免费看| 亚洲а∨天堂久久精品9966| 久久亚洲天堂网| 国产精品麻豆一区二区| 亚洲国产精品第一页| 美女诱惑一区| 一级一片免费播放| 秋霞影视一区二区三区| 国产精品美女www| 国产桃色电影在线播放| 国产一区二区三区中文 | 婷婷电影在线观看| 色偷偷偷亚洲综合网另类| 性欧美一区二区三区| 欧美色xxxx| 欧美三级黄色大片| 99久久久久免费精品国产 | 一区二区亚洲欧洲国产日韩| a级片免费观看| 日韩欧美aaa| 在线观看美女av| 久久人人97超碰com| www.com久久久| 亚洲免费网站| 路边理发店露脸熟妇泻火| 中文字幕亚洲影视| 3d蒂法精品啪啪一区二区免费| 中文日产幕无线码一区二区| 久久精品视频免费播放| 欧美91精品久久久久国产性生爱| 欧美一区二区三区系列电影| 精品免费囯产一区二区三区| 亚洲女同一区二区| 精品无人区无码乱码毛片国产 | 欧美日韩亚洲综合| 亚洲精品1区2区3区| 亚洲日本青草视频在线怡红院| 国产交换配乱淫视频免费| 国产成人久久精品77777最新版本| 欧美少妇性生活视频| 黄页网站一区| 天天干天天色天天爽| 欧美丝袜激情| 久久影院理伦片| 8848成人影院| 成人天堂噜噜噜| 成人涩涩视频| 欧美又大粗又爽又黄大片视频| 日本精品600av| 精品国产美女在线| www视频在线观看免费| 精品一区二区三区电影| 内射无码专区久久亚洲| 欧美成人video| 99久久久久久久| 欧美精品一卡二卡| 一本色道久久综合亚洲| 在线观看视频一区二区| 中文字幕视频网站| 欧美天天综合色影久久精品| 懂色av.com| 黄色成人在线免费| 国产精品theporn动漫| 亚洲综合免费观看高清完整版 | 五月婷婷在线观看| 在线精品国产欧美| 国产尤物视频在线| 在线视频中文亚洲| av在线资源站| 少妇高潮久久77777| 91短视频版在线观看www免费| 国产亚洲精品一区二区| 黄网站在线观看| 一区二区三区黄色| 国产经典自拍视频在线观看| 一本色道久久88综合日韩精品| 都市激情一区| 精品国产一区二区在线| 欧美a免费在线| 久久av红桃一区二区小说| 午夜伦理大片视频在线观看| 欧美激情欧美狂野欧美精品| 国产精品一二三产区| 96精品视频在线| 日韩欧美2区| 国产专区欧美专区| 视频精品国内| 国产一区二区不卡视频在线观看| 日韩mv欧美mv国产网站| 秋霞久久久久久一区二区| 欧美综合一区| 黄色影视在线观看| 日韩一区二区免费看| 激情六月丁香婷婷| 久久av资源站| 日本人妻一区二区三区| 91色综合久久久久婷婷| 国产美女永久免费无遮挡| 亚洲欧美日韩中文播放| 欧美成人aaaaⅴ片在线看| 动漫精品一区二区| 中文字字幕在线中文乱码| 欧美一区二区三区四区在线观看| 午夜福利视频一区二区| 在线视频日本亚洲性| 特级毛片在线| …久久精品99久久香蕉国产| 91精品国产66| 国产精品免费一区二区三区| 伊人精品一区| 国内精品国产三级国产99| 亚洲精品女人| 亚洲免费黄色网| 99在线热播精品免费| 欧日韩不卡视频| 午夜电影一区二区三区| 中文字幕在线2018| 亚洲第一视频网站| aaa在线观看| 97人人爽人人喊人人模波多| 四虎成人精品一区二区免费网站| 狠狠色噜噜狠狠色综合久| 99国产精品免费视频观看| 欧美日韩不卡在线视频| 强制捆绑调教一区二区| 亚洲香蕉中文网| 日韩美女啊v在线免费观看| 五月婷婷色丁香| 日韩午夜电影av| 在线免费看a| 青青草精品毛片| 日韩精品三级| 致1999电视剧免费观看策驰影院| 国产日韩欧美一区二区三区在线观看| 五月激情婷婷在线| 国产无一区二区| 91看片在线播放| 欧美成人一区二区三区片免费 | 欧美精品国产精品日韩精品| 欧美黄页在线免费观看| 任我爽在线视频精品一| 亚洲成色精品| 香蕉视频在线观看黄| 国产精品看片你懂得| www.com亚洲| 精品小视频在线| free性欧美16hd| 97人人澡人人爽| 91亚洲一区| 天天色综合天天色| 国产亚洲婷婷免费| 亚洲欧美自拍视频| 亚洲欧洲日韩国产| 女人高潮被爽到呻吟在线观看| 成人免费视频网站| 一区二区日韩欧美| 亚洲欧美日韩一二三区| 中文字幕在线不卡视频| 一区二区自拍偷拍| 中文字幕日韩专区| 日韩免费小视频| 日本一区二区精品| 天堂精品中文字幕在线| 在线免费观看日韩av| 黑人巨大精品欧美一区二区| 日日夜夜精品免费| 91av网站在线播放| 欧美综合精品| 日本一本二本在线观看| 久久久久久久久久美女| 天天干天天操天天爱| 亚洲精品中文字幕女同| 26uuu亚洲电影| 欧美一区二区视频17c| 久色成人在线| 精品亚洲aⅴ无码一区二区三区| 在线精品视频免费观看| 91caoporm在线视频| 成人午夜激情免费视频| 欧美成熟视频| www男人天堂| 大荫蒂欧美视频另类xxxx| 男女污视频在线观看| 国产精品国产三级国产aⅴ9色| 日韩欧美网站| 久久久久亚洲av无码麻豆| 午夜精品123| 国产三级视频在线看| 国产欧美va欧美va香蕉在| 午夜欧美精品| 97香蕉碰碰人妻国产欧美| 日韩欧美在线播放| 婷婷成人激情| 99理论电影网| 美女精品在线| 国产乱子轮xxx农村| 欧美成人高清电影在线| 亚洲最大网站| 强伦女教师2:伦理在线观看| 国产成人av电影| 欧美黑人一区二区| www.日韩系列| 成人偷拍自拍| 激情内射人妻1区2区3区 | 尤物九九久久国产精品的分类| 六九午夜精品视频| 亚洲色欲久久久综合网东京热| www亚洲一区| av网站在线免费看| 555www成人网| 91精品推荐| 色噜噜在线观看| 欧美一区二区三区人| 午夜激情在线播放| 中文字幕在线中文| 91美女精品福利| 精品人妻伦一二三区久久| 欧美亚洲成人网| 国产在线欧美| 天天操天天干天天操天天干| 精品国产髙清在线看国产毛片 | 91精品国产综合久久久久久丝袜| 久久精品日产第一区二区 |