起猛了!小扎又又又帶著他的開源大模型走來了!
Meta Connect 上,擁有視覺能力的 Llama 3.2推出!這是該大模型家族首個開源的多模態模型。
圖片
Llama 3.2 包括小型和中型模型(參數為 11B 億和 90B 億),以及更輕量化的僅文本模型(參數為 1B和 3B),扎克伯格稱其為“能運行在設備上的最佳模型”,并透露未來將在眼鏡設備上使用。
與其前身一樣,Llama 3.2 的 1B 和 3B 模型支持 128K 的上下文長度,在端側模型中可謂遙遙領先。根據Meta透露,這些模型在發布當天就已支持高通(Qualcomm)和聯發科(MediaTek)硬件,并針對 Arm 處理器進行了優化。
Meta 還首次分享了官方的 Llama stack 發行版本,以便開發者可以在各種環境中使用這些模型,包括本地、設備端、云端和單節點。
Llama 3.2 模型可以在 llama.com 和 Hugging Face 上以及 Meta 的合作平臺上下載。還能通過智能助手Meta AI,試用模型的多模態能力。
Hugging Face 地址:
https://huggingface.co/meta-llama
最后扎克伯格再次秀了一把開源情懷,他提到,閉源模型們試圖降低價格以保持與Llama的競爭優勢。然而,“開源已經是、并將繼續是最具成本效益、可定制、可信且高性能的選擇。我們已經到達了行業的一個拐點,它開始成為行業標準,可以稱其為 AI 領域的 Linux。”
1.媲美GPT4o-mini,開源視覺模型火力十足
Meta 在兩個月前發布了 Llama 3.1,至今該模型已實現 10 倍的增長。
扎克伯格表示:“Llama 繼續快速進步,它正在實現越來越多的功能?!?/p>
現在,最大的兩個 Llama 3.2 模型(110 億和 900 億參數)有了視覺能力,能夠理解圖表和圖形、為圖像生成標題以及識別周圍的環境。例如,用戶可以詢問他們的公司在哪個月取得了最佳銷售成績,模型將基于現有的圖表推理出答案。
根據Meta的評估,Llama 3.2 視覺模型在圖像識別和一系列視覺理解任務上與領先的基礎模型 Claude 3 Haiku 和 GPT4o-mini 相媲美。
圖片
AI大神 Jim Fan 帶來了一手的新鮮實測,“我剛剛調出了 Llama-3.2-11B (vision) 的視覺語言基準測試數據。令人驚訝的是,整個開源社區在輕量級模型方面并不落后!”
圖片
圖片
Llama 3.2的超強能力也讓許多大神自覺“手癢”。已經有人連夜搓了基于其視覺能力的開源工具出來,效果驚艷,草圖也能秒變APP。
圖片

2.Llama 3.2:視覺模型背后的技術細節
作為首批支持視覺任務的 Llama 模型,11B 和 90B 模型采用了全新的模型架構,以支持圖像推理任務。
Meta技術報告中提到,為了支持圖像輸入,他們訓練了一組適配器權重,將預訓練的圖像編碼器與預訓練的語言模型集成。
該適配器由一系列交叉注意力層組成,將圖像編碼器的表示傳遞給語言模型。在適配器訓練過程中,我們在圖文配對數據上訓練,以對齊圖像表示和語言表示。適配器訓練期間,我們更新了圖像編碼器的參數,但故意不更新語言模型的參數,這樣可以保留語言模型的文本處理能力,方便開發者將其作為 Llama 3.1 模型的替代品。
Llama 3.2的訓練流程包括多個階段,從預訓練的 Llama 3.1 文本模型開始。首先,Llama添加了圖像適配器和編碼器,然后在大規模噪聲圖文配對數據上進行預訓練。接著在中等規模、高質量的領域內及知識增強的圖文配對數據上進行訓練。
在后續訓練中,Llama團隊采用了與文本模型類似的方式,進行多輪對齊,包括監督微調、拒絕采樣和直接偏好優化。
使用 Llama 3.1 模型對領域內的圖像生成和擴展問答,并利用獎勵模型對所有候選答案進行排序,以提供高質量的微調數據。此外,Llama 3.2還加入了安全防護數據,確保模型在安全性高的同時保持有用性。

3.小扎:Meta AI 將成為全球第一的智能助手
Llama 3.2 的橫空出世,使得 Meta AI 擁有了“聲音”。
該模型將在 WhatsApp、Messenger、Facebook 和 Instagram 上以明星語音響應語音或文本命令。Meta AI 還可以對聊天中分享的照片做出回復,并添加、刪除或更改圖像以及添加新的背景。Meta 表示,它還在嘗試為 Meta AI 開發新的翻譯、視頻配音和唇同步工具。
圖片
扎克伯格在演講中表示:“我認為語音將比文本更自然地與 AI 進行交互,它確實要好得多?!?/p>
扎克伯格開源的底氣,就在于他們的商業模式并不依靠獲得模型訪問權而營利,但是他已經將應用視為 Meta 的護城河。
現在,Meta AI 月活躍用戶接近5億,日活用戶也以突破4000萬大關。
扎克伯格吹噓說,Meta AI 正在成為全球使用最廣泛的助手——“可能已經做到了。”
參考鏈接:https://venturebeat.com/ai/meta-llama-3-2-vision-models-to-rival-anthropic-openai/































