國(guó)內(nèi)多所高校共建開源社區(qū)LAMM，加入多模態(tài)語(yǔ)言模型大家庭的時(shí)候到了

作者：機(jī)器之心 2024-01-11 09:37:58

LAMM (Language-Assisted Multi-Modal) 旨在建設(shè)面向開源學(xué)術(shù)社區(qū)的多模態(tài)指令微調(diào)及評(píng)測(cè)框架，其包括了高度優(yōu)化的訓(xùn)練框架、全面的評(píng)測(cè)體系，支持多種視覺(jué)模態(tài)。

ChatGPT問(wèn)世以來(lái)，大語(yǔ)言模型（LLM）實(shí)現(xiàn)了跳躍式發(fā)展，基于自然語(yǔ)言進(jìn)行人機(jī)交互的AI范式得到廣泛運(yùn)用。然而，人類與世界的交互中不僅有文本，其他諸如圖片、深度等模態(tài)也同樣重要。然而，目前的多模態(tài)大語(yǔ)言模型（MLLM）研究大多數(shù)閉源，對(duì)高校和大多數(shù)研究機(jī)構(gòu)的同學(xué)們并不友好。而且，大語(yǔ)言模型受限于訓(xùn)練知識(shí)，往往缺乏時(shí)事認(rèn)知、復(fù)雜推理能力，這就如同只能快速問(wèn)答，沒(méi)有“深度思考”能力。AI Agent（人工智能代理）則是解決這一問(wèn)題的關(guān)鍵，它賦予LLM深度思考、復(fù)雜決策的能力，使LLM向自主性、反應(yīng)性、積極性和社交能力特征的智能實(shí)體發(fā)展。我們相信，AI Agent領(lǐng)域?qū)?huì)誕生更多改變生活工作方式的成果，是大語(yǔ)言模型及多模態(tài)大模型的重要進(jìn)化方向。

來(lái)自北航、復(fù)旦大學(xué)、悉尼大學(xué)、香港中文大學(xué)（深圳）等高校與上海人工智能實(shí)驗(yàn)室的學(xué)者共同推出多模態(tài)語(yǔ)言模型最早的開源社區(qū)之一 ——LAMM（Language-Assisted Multi-modal Model）。我們旨在將 LAMM 建設(shè)成一個(gè)不斷發(fā)展的社區(qū)生態(tài)，支持 MLLM 訓(xùn)練和評(píng)測(cè)、MLLM 驅(qū)動(dòng)的 Agent 等方向的研究。作為多模態(tài)大語(yǔ)言模型領(lǐng)域最早的開源項(xiàng)目之一，LAMM 的目標(biāo)是建立一個(gè)開放的研究社區(qū)生態(tài)，讓每個(gè)研究和開發(fā)人員都可以基于此開展研究，共同建設(shè)開源社區(qū)。

項(xiàng)目主頁(yè)：https://openlamm.github.io
代碼地址：https://www.github.com/OpenGVLab/LAMM

在這里，你可以：

以最小的計(jì)算資源成本訓(xùn)練和評(píng)估 MLLM，僅需 3090 或 V100，輕松開始 MLLM 的訓(xùn)練和評(píng)測(cè)。
構(gòu)建基于 MLLM 的具身智能 Agent，能夠使用機(jī)器人或游戲模擬器定義任務(wù)并生成數(shù)據(jù)。
在幾乎任何專業(yè)領(lǐng)域擴(kuò)展 MLLM 應(yīng)用。

開源框架

LAMM 代碼庫(kù)實(shí)現(xiàn)了統(tǒng)一的數(shù)據(jù)集格式、組件式模型設(shè)計(jì)、一鍵式分布式訓(xùn)練，方便用戶啟動(dòng)和實(shí)現(xiàn)自己專屬的多模態(tài)語(yǔ)言模型。

使用標(biāo)準(zhǔn)數(shù)據(jù)集格式兼容不同指令微調(diào)數(shù)據(jù)集。LAMM 定義了標(biāo)準(zhǔn)化多模態(tài)指令微調(diào)數(shù)據(jù)格式，可以多模態(tài)指令微調(diào)常用的 LLaVA、LAMM、ShareGPT4V 等數(shù)據(jù)集可以直接無(wú)縫適配，一鍵啟動(dòng)。
組件式搭建模型流程，方便地更新和修改模型架構(gòu)。LAMM 中模型以視覺(jué)編碼器（Vision Encoder）、特征映射器（Feature Projector）、語(yǔ)言模型（LLM）為主要組件。目前 LAMM 已經(jīng)支持 Image、Point Cloud 等模態(tài)編碼器和 LLaMA/LLaMA2 等預(yù)訓(xùn)練語(yǔ)言模型，用戶可以自由選擇適合需求的模塊搭建 pipeline，實(shí)現(xiàn)自己專屬的 MLLM。
以最小計(jì)算資源訓(xùn)練和評(píng)測(cè) MLLM。LAMM Repo 集成了 Deepspeed、LightLLM、flash attention 等加速框架，將訓(xùn)練成本大幅優(yōu)化。目前已經(jīng)支持在 4 張 RTX3090 或更新設(shè)備上微調(diào) 7B 的語(yǔ)言模型。同時(shí) LAMM 也在不斷跟進(jìn)新的大語(yǔ)言模型和優(yōu)化框架，以推動(dòng)多模態(tài)領(lǐng)域的發(fā)展。
基于 MLLM 構(gòu)建具身智能 AI Agent。使用機(jī)器人或模擬器定義目標(biāo)任務(wù)并生成相應(yīng)指令數(shù)據(jù)后，LAMM 支持的 MLLM 可以作為強(qiáng)大的 AI Agent 進(jìn)行決策和分析。

更多詳情請(qǐng)參考項(xiàng)目主頁(yè)。

多模態(tài)大語(yǔ)言模型訓(xùn)練與評(píng)測(cè)

近期大量工作展現(xiàn)了多模態(tài)大模型 (MLLM) 在視覺(jué)內(nèi)容理解和交互上的能力，并且體現(xiàn)出了解決更為復(fù)雜的下游任務(wù)應(yīng)用的能力。除了常見(jiàn)的圖片輸入，LAMM 目前還支持點(diǎn)云等視覺(jué)模態(tài)輸入，用戶也可以根據(jù)自己的需求加入新的編碼器。同時(shí)，LAMM 支持 PEFT 包進(jìn)行高效微調(diào)，也引入了 flash attention、xformer 等工具進(jìn)一步優(yōu)化模型計(jì)算成本，使得用戶能夠用盡可能低的成本訓(xùn)練 MLLM。面對(duì)復(fù)雜的多任務(wù)學(xué)習(xí)，LAMM 也支持 MoE 等策略統(tǒng)一多組微調(diào)參數(shù)，進(jìn)一步提高模型多任務(wù)能力，實(shí)現(xiàn)更全能的 MLLM。

然而，由于缺乏一個(gè)標(biāo)準(zhǔn)化的全面評(píng)估框架，這些模型的能力和局限性尚未被全面探索，我們?nèi)匀粺o(wú)法確認(rèn)這些模型的能力究竟如何，他們究竟能做什么事情。現(xiàn)有的基準(zhǔn)測(cè)試工作主要集中于為多模態(tài)大模型構(gòu)建多模態(tài)評(píng)估數(shù)據(jù)集，或僅評(píng)估了一部分的視覺(jué)能力維度，或嘗試建立了一個(gè)評(píng)測(cè)框架但缺乏可擴(kuò)展性和全面性，對(duì)各個(gè)模型的全面評(píng)估和不同模型間進(jìn)行公平可靠的對(duì)比仍然具有挑戰(zhàn)性。LAMM 實(shí)現(xiàn)了一種具有高度可擴(kuò)展性和靈活性的評(píng)測(cè)框架，旨在為多模態(tài)大模型提供一種可靠的、全面的評(píng)估。

詳情可參考 https://openlamm.github.io/paper_list/ChEF

一鍵式組合式多模態(tài)語(yǔ)言模型評(píng)測(cè)框架

基于 LAMM 框架的多模態(tài)模型能力部分展示如下：

基于 2D 圖像內(nèi)容的問(wèn)答：

基于 3D 點(diǎn)云的視覺(jué)問(wèn)答：

多模態(tài)大語(yǔ)言模型驅(qū)動(dòng)的具身 Agent

近期大量工作借助大語(yǔ)言模型 (LLM) 的強(qiáng)大推理規(guī)劃能力來(lái)構(gòu)建 Agent，例如 Minecraft 中的 Voyager 和 GITM 都借助 LLM 和文本記憶來(lái)規(guī)劃智能體的行動(dòng)，但是這些工作都假定智能體可以在規(guī)劃決策的時(shí)候獲取所有正確的環(huán)境感知信息，直接跳過(guò)感知階段，忽視了實(shí)時(shí)的第一人稱視角圖片對(duì)具身智能體規(guī)劃自身行動(dòng)的影響，這在現(xiàn)實(shí)生活中也是不可能存在的。

為了讓具身智能體在開放世界復(fù)雜環(huán)境中更好地感知環(huán)境，我們提出了以MLLM驅(qū)動(dòng)的具身智能體MP5，其特點(diǎn)在于具備視覺(jué)感知和主動(dòng)感知能力。視覺(jué)感知模塊(模型主要架構(gòu)為L(zhǎng)AMM)允許MP5解決以前從未見(jiàn)過(guò)的任務(wù)，主動(dòng)感知可以主動(dòng)獲取環(huán)境信息，以執(zhí)行合適動(dòng)作。最終 MP5 具有開放感知能力，并能根據(jù)不同的目的提供量身定制的感知結(jié)果，可以完成長(zhǎng)時(shí)序及復(fù)雜環(huán)境信息任務(wù)。

下面是 MP5 在 Minecraft 這一開放世界中完成「在晴天且光線充足的情況下，找到一頭在平原且靠近水附近有草的豬」這一需要復(fù)雜環(huán)境信息的任務(wù)的演示過(guò)程。

總結(jié)

基于 MLLM 的強(qiáng)大能力和廣闊應(yīng)用前景，多模態(tài)學(xué)習(xí)來(lái)到了一個(gè)全新的階段。LAMM 旨在建設(shè)一個(gè)助力多模態(tài)大模型研究的開源社區(qū)，并向社區(qū)開源了包括數(shù)據(jù)準(zhǔn)備、模型訓(xùn)練、性能評(píng)測(cè)所有相關(guān)數(shù)據(jù)。

作為最早一批投入多模態(tài)語(yǔ)言模型研究的團(tuán)隊(duì)，我們希望不斷發(fā)展 LAMM 工具箱，為 LAMM 開源生態(tài)提供輕量易用的多模態(tài)研究框架，和開源力量合作，助力更多有意義的研究。

以上內(nèi)容均會(huì)在 LAMM 主頁(yè)持續(xù)開源，請(qǐng)大家關(guān)注我們的主頁(yè)和項(xiàng)目，也歡迎為 LAMM 代碼庫(kù)多多提交反饋和 PR。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心