一文詳解多模態智能體(LMAs)最新進展(核心組件/分類/評估/應用) 精華

文章鏈接:https://arxiv.org/pdf/2402.15116
github地址:https://github.com/jun0wanan/awesome-large-multimodal-agents
大語言模型(LLMs)在為基于文本的AI智能體提供動力方面取得了卓越的表現,賦予它們類似于人類的決策和推理能力。與此同時,出現了一個新興的研究趨勢,專注于將這些由LLMs驅動的AI智能體擴展到多模態領域。這種擴展使得AI智能體能夠解釋和響應各種多模態用戶queries,從而處理更加復雜和微妙的任務。
本文對LLMs驅動的多模態智能體進行了系統性審查,將其稱為大型多模態智能體(簡稱LMAs)。
首先,介紹了開發LMAs所涉及的基本組件,并將當前的研究成果分類為四種不同類型。
隨后,審查了整合多個LMAs的協作框架,增強了集體效能。該領域的一個關鍵挑戰是現有研究中使用了多種不同的評估方法,這些方法阻礙了對不同LMAs進行有效比較。因此,本文編制了這些評估方法,并建立了一個全面的框架來彌合這些差距。該框架旨在標準化評估,促進更有意義的比較。在審查結束時,強調了LMAs的廣泛應用,并提出了可能的未來研究方向。
本文討論旨在為這一快速發展的領域的未來研究提供有價值的見解和指導。
介紹
智能體(agent)是一個能夠感知其環境并根據這些感知做出決策以達到特定目標的系統。盡管在狹窄領域內表現出色,早期智能體往往缺乏適應性和泛化能力,與人類智能存在顯著差異。最近大語言模型(LLMs)的進展開始彌合這一差距,LLMs增強了它們在命令解釋、知識吸收和模擬人類推理和學習方面的能力。這些智能體使用LLMs作為它們的主要決策工具,并進一步增強了關鍵的類人特征,如記憶。這種增強使它們能夠處理各種自然語言處理任務,并使用語言與環境進行交互。
然而,現實世界的場景往往涉及超越文本的信息,包括多種模態,其中視覺方面的重要性很大。因此,由LLMs驅動的智能智能體的下一個進化步驟是獲得處理和生成多模態信息的能力,特別是視覺數據。這種能力對于這些智能體進化為更強大的AI實體,模仿人類級別的智能至關重要。本文具備這種能力的智能體被稱為大型多模態智能體(LMAs)。通常,它們面臨的挑戰比僅包含語言的智能體更為復雜。
以網絡搜索為例,一個LMA首先需要通過搜索欄輸入用戶的要求,以查找相關信息。隨后,它通過鼠標點擊和滾動導航到網頁,以瀏覽實時網頁內容。最后,LMA需要處理多模態數據(如文本、視頻和圖像)并進行多步推理,包括從網絡文章、視頻報道和社交媒體更新中提取關鍵信息,并將這些信息整合以響應用戶的查詢。我們注意到,現有的LMAs研究是孤立進行的,因此有必要通過總結和比較現有的框架來進一步推動該領域的發展。存在一些與LLM驅動智能體相關的調查,但其中很少有關注多模態方面的。

本文旨在通過總結LMAs的主要發展來填補這一空白。首先,介紹了核心組件,并提出了現有研究的新分類法,進一步討論了現有的協作框架。關于評估,概述了評估LMAs性能的現有方法,并進行了全面的總結。然后,應用部分提供了多模態智能體及其相關任務廣泛的現實世界應用的詳盡概述。最后,通過討論并提出LMAs可能的未來發展方向來總結這項工作,為有用的研究指導提供支持。
LMAs的核心組件
本節詳細介紹了LMAs的四個核心元素,包括感知、規劃、行動和記憶。
感知。感知是一種復雜的認知過程,使人類能夠收集和解釋環境信息。在LMAs中,感知組件主要集中在處理來自不同環境的多模態信息上。如下表1所示,在不同任務中的LMAs涉及各種模態。它們需要從這些不同的模態中提取對任務完成最有利的關鍵信息,從而促進任務的更有效規劃和執行。

早期的處理多模態信息的研究通常依賴于簡單的相關模型或工具,將圖像或音頻轉換為文本描述。然而,這種轉換方法往往會產生大量無關和冗余信息,特別是對于復雜的模態(例如視頻)。除了輸入長度限制,LLMs經常面臨有效提取相關信息進行規劃的挑戰。為解決這一問題,近期的研究引入了子任務工具的概念,旨在處理復雜的數據類型。在類似真實世界的環境(即開放世界游戲)中,[51]提出了一種處理非文本模態信息的新方法。該方法首先從環境中提取關鍵的視覺詞匯,然后使用GPT模型進一步將這些詞匯細化為一系列描述性句子。當LLMs感知環境中的視覺模態時,它們使用這些模態來檢索最相關的描述性句子,從而有效增強了對環境的理解。
規劃。 規劃者在LMAs中起著核心作用,類似于人類大腦的功能。它們負責對當前任務進行深入推理,并制定相應的計劃。與僅使用語言的智能體相比,LMAs在更復雜的環境中運行,制定合理計劃更具挑戰性。從四個角度(模型、格式、檢查和反思、規劃方法)詳細介紹了規劃者:
- 模型:如下表1所示,現有研究采用不同的模型作為規劃者。其中,最流行的是GPT-3.5或GPT-4。然而,這些模型并不是公開的,因此一些研究已經開始轉向使用開源模型,例如LLaMA和LLaVA,后者可以直接處理多種模態的信息,增強了它們制定更優化計劃的能力。
- 格式:它表示規劃者制定的計劃的格式。如上面表1所示,有兩種格式化方式。第一種是自然語言。例如,在某些研究中,獲得的規劃內容是“我首先使用OpenCV的openpose控制模型分析圖像中男孩的姿態......”,其中制定的計劃是使用“OpenCV的openpose控制模型”。第二種是以程序形式,如在某些研究中描述的“image_patch = ImagePatch(image)”,其中調用ImagePatch函數來執行規劃。還有混合形式。
- 檢查和反思:在復雜的多模態環境中,LMAs要始終制定有意義的、完成任務的規劃是具有挑戰性的。這個組件旨在增強魯棒性和適應性。一些研究方法存儲成功的經驗在長期記憶中,包括多模態狀態,以指導規劃。在規劃過程中,它們首先檢索相關經驗,幫助規劃者深思熟慮以減少不確定性。此外,[12]利用人類在執行相同任務時在不同狀態下制定的計劃。當遇到類似的狀態時,規劃者可以參考這些“標準答案”進行思考,從而制定更合理的計劃。此外,[71]采用了更復雜的規劃方法,如蒙特卡羅,以擴大規劃搜索的范圍,找到最佳的規劃策略。
- 規劃方法:現有的規劃策略可以分為兩種類型:動態規劃和靜態規劃,如前面表1所示。前者是指根據初始輸入將目標分解為一系列子計劃,類似于思維鏈(CoT),即使在過程中發生錯誤,也不會重新制定計劃;后者意味著每個計劃都是基于當前環境信息或反饋制定的。如果在計劃中檢測到錯誤,它將恢復到原始狀態進行重新規劃。
?
行動。 多模態智能體系統中的行動組件負責執行規劃者制定的規劃和決策。它將這些規劃轉化為具體的行動,例如使用工具、身體動作或與界面交互,從而確保智能體能夠準確高效地實現其目標并與環境進行交互。討論重點在于兩個方面:類型和方法。
在前面表1中,行動被分類為三種類型:工具使用(T)、實體動作(E)和虛擬動作(V),其中工具包括視覺基礎模型(VFMs)、API、Python等(如表2所列);實體動作是由物理實體執行的,如機器人或虛擬角色;虛擬動作包括網絡任務(例如,點擊鏈接、滾動和鍵盤使用)。

就方法而言,如表1所示,主要有兩種類型。第一種類型涉及使用提示向智能體提供有關可執行行動的信息,例如當前可用的工具及其功能;第二種類型涉及收集關于行動的數據,并利用這些信息來自我指導開源大型模型的微調過程,例如LLaVA。這些數據通常由先進的模型生成,例如GPT-4。與僅使用語言的智能體相比,與行動相關的信息和數據的復雜性需要更復雜的方法來優化學習策略。
記憶。 早期研究表明,記憶機制在通用智能體的運作中起著至關重要的作用。與人類類似,智能體的記憶可以分為長期記憶和短期記憶。在簡單的環境中,短期記憶足以讓智能體處理手頭的任務。然而,在更復雜和更現實的環境中,長期記憶變得至關重要。在表1中,可以看到只有少數LMAs包含長期記憶。與僅使用語言的智能體不同,這些多模態智能體需要能夠跨越各種模態存儲信息的長期記憶。在一些研究中,所有模態都被轉換為文本格式進行存儲。然而,在某些研究中,提出了一種多模態長期記憶系統,專門設計用于存檔以前的成功經驗。具體而言,這些記憶被存儲為鍵值對,其中鍵是多模態狀態,值是成功的計劃。在遇到新的多模態狀態時,根據它們的編碼相似性檢索最類似的例子。

其中,代表通過CLIP模型編碼的鍵的視覺信息,與當前由CLIP編碼的視覺狀態進行相似性比較。
LMAs的分類法
通過將現有研究分類為四種類型,提出了一種分類法。
類型I:閉源LLMs作為沒有長期記憶的規劃者。 早期的研究采用提示來利用閉源的大語言模型(如GPT-3.5)作為推理和規劃的規劃者,如圖2(a)所示。根據特定的環境或任務要求,這些計劃的執行可以通過下游工具包或通過使用鼠標或機器人手臂等物理設備直接與環境進行交互。這種類型的LMAs通常在更簡單的環境中運行,承擔著傳統的任務,如圖像編輯、視覺定位和視覺問答(VQA)。


類型II:經過微調的LLMs作為沒有長期記憶的規劃者。 這種類型的LMAs涉及收集多模態指令跟隨數據或使用自我指導來微調開源的大語言模型(如LLaMA)或多模態模型(如LLaVA),如圖2(b)所示。這種增強不僅使模型能夠作為推理和規劃的中心“大腦”,還使其能夠執行這些計劃。類型II LMAs面臨的環境和任務與類型I類似,通常涉及傳統的視覺或多模態任務。與相對簡單的動態特性、封閉環境和基本任務的典型場景相比,在像Minecraft這樣的開放世界游戲中,LMAs需要在動態背景下執行精確的規劃,在高復雜性的任務中進行處理,并進行終身學習以適應新的挑戰。因此,在類型I和類型II的基礎上,類型III和類型IV的LMAs集成了記憶組件,展示了向人工智能領域中的通用智能體發展的巨大潛力。
類型III:具有間接長期記憶的規劃者。 對于類型III的LMAs,如圖2(c)所示,LLMs充當中央規劃者,并配備有長期記憶。這些規劃者通過調用相關工具訪問和檢索長期記憶,利用這些記憶來增強推理和規劃。例如,在[71]中開發的多模態智能體框架專為視頻處理等動態任務量身定制。該框架包括一個規劃者、一個工具包和一個與任務相關的記憶庫,目錄了空間和時間屬性。規劃者使用專門的子任務工具查詢記憶庫,以獲取與視頻內容相關的時空屬性,從而推斷出與任務相關的時間和空間數據。存儲在工具包中的每個工具都專為特定類型的時空推理而設計,并在框架內作為執行者。
類型IV:具有本地長期記憶的規劃者。 與類型III不同,類型IV的LMAs具有LLMs直接與長期記憶進行交互,繞過了使用工具訪問長期記憶的需要,如圖2(d)所示。例如,在[51]中提出的多模態智能體展示了在Minecraft的開放世界環境中完成200多個不同任務的熟練技能。在他們的多模態智能體設計中,交互式規劃者將多模態基礎模型與LLM相結合,首先將環境多模態輸入轉換為文本。規劃者進一步采用自檢機制來預測和評估執行中的每個步驟,主動發現潛在缺陷,并結合環境反饋和自我解釋,迅速糾正和完善計劃,而無需額外信息。此外,該多模態智能體框架包括一個新穎的多模態記憶。成功的任務計劃及其初始多模態狀態被存儲,規劃者從該數據庫中檢索類似的狀態用于新任務,利用積累的經驗以實現更快、更有效的任務完成。
多智能體協作
本節進一步介紹了超出孤立智能體討論范圍的LMAs的協作框架。
如下圖3(a)(b)所示,這些框架采用多個LMAs協同工作。這兩種框架之間的關鍵區別在于是否存在記憶組件,但它們的基本原理是一致的:多個LMAs擁有不同的角色和責任,使它們能夠協調行動,共同實現共同目標。這種結構減輕了單個智能體的負擔,從而增強了任務性能。

例如,在[37]的多模態智能體框架中,引入了一個感知者智能體來感知多模態環境,由大型多模態模型組成。一個被指定為Patroller的智能體負責與感知者智能體進行多次交互,對感知到的環境數據進行實時檢查和反饋,以確保當前計劃和行動的準確性。當檢測到執行失敗或需要重新評估時,Patroller向規劃者提供相關信息,促使重新組織或更新子目標下的動作序列。
MemoDroid框架由幾個關鍵智能體組成,它們共同工作以自動化移動任務。探索智能體負責對目標應用程序界面進行離線分析,根據UI元素生成潛在子任務列表,然后將其存儲在應用程序內存中。在在線執行階段,選擇智能體根據用戶命令和當前屏幕狀態從探索的集合中確定要執行的特定子任務。推斷智能體進一步通過提示LLM識別并完成所選子任務所需的基礎動作序列。同時,當遇到與先前學習的任務相似的任務時,Recall智能體可以直接從內存中調用和執行相應的子任務和動作序列。
評估
研究的主要焦點是增強當前LMAs的能力。然而,對于這些智能體的評估和評價方法,卻付出了有限的努力。大多數研究仍然依賴于傳統的性能評估指標,這清楚地說明了評估LMAs的挑戰。這也強調了在這一領域開發實用的評估標準和建立基準數據集的必要性。本節總結了對LMAs的現有評估,并提供了對未來發展的展望。
主觀評價
主觀評價主要是指使用人類來評估這些LMAs的能力。最終目標是創建一個能夠像人類一樣理解世界并自主執行各種任務的LMA。因此,采用人類用戶對LMAs能力的主觀評估至關重要。主要的評估指標包括多功能性、用戶友好性、可擴展性以及價值和安全性。
多功能性。 多功能性表示LMA靈活運用各種工具、執行物理和虛擬行動以及管理各種任務的能力。[30]提出了比較現有LMAs使用的工具的規模和類型,以及評估它們功能多樣性的方法。
用戶友好性。 用戶友好性涉及用戶對LMAs完成任務結果的滿意度,包括效率、準確性和結果的豐富程度。這種評估相對較主觀。在[64]中,人類對LMAs的評估對于精確評估其在解釋和執行用戶指令方面的有效性至關重要。
可擴展性。 可擴展性基本評估LMAs吸收新能力并應對新興挑戰的能力。鑒于人類需求的動態性,嚴格評估LMAs的適應性和終身學習潛力至關重要。例如,[23]中的評估側重于智能體使用以前未見過的工具完成任務的熟練程度。
價值和安全性。 除了之前提到的指標外,“價值和安全性”指標在確定智能體對人類用戶的實際意義和安全性方面起著至關重要的作用。雖然許多當前的評估忽視了這一指標,但考慮到LMAs的“價值和安全性”是至關重要的。與語言智能體相比,LMAs可以處理更廣泛的任務類別,因此更重要的是讓它們遵循與人類社會價值觀一致的道德和倫理原則。
客觀評價
客觀評價與主觀評估不同,依賴于定量指標全面、系統地、標準化地評估LMAs的能力。目前,這是多模態智能體研究中最廣泛采用的評估方法。
指標。 指標在客觀評估中發揮著至關重要的作用。在當前的多模態智能體研究中,采用了特定的與任務相關的指標,例如智能體生成答案的準確性,如視覺問答(VQA)中的準確性。然而,LLMs出現之前建立的傳統任務指標在評估llm驅動的LMAs時并不足夠有效。因此,越來越多的研究工作致力于確定更適合的評估指標。例如,在VisualWebArena中,設計了一種專門的評估指標,用于評估LMAs處理視覺引導任務的性能。這包括測量智能體對網頁內容的視覺理解的準確性,例如識別和利用由標記集定義的可交互元素進行操作,并根據手動設計的獎勵函數定義的任務目標實現狀態轉換的能力。此外,還包括對特定視覺場景問題的響應的準確性以及根據視覺信息執行的操作的一致性。
基準測試。 基準測試代表著一個測試環境,其中包含一系列評估標準、數據集和任務。它被用于評估和比較不同算法或系統的性能。與傳統任務的基準測試相比,SmartPlay 利用精心設計的一套游戲全面衡量LMAs的各種能力,為每種能力建立了詳細的評估指標和挑戰級別。與使用游戲進行評估的方法相比,GAIA 開發了一個包含466個問題及其答案的測試集。這些問題要求AI系統具備一系列基本能力,例如推理、處理多模態信息、網絡導航和熟練使用工具。與當前創建越來越困難的任務以測試人類能力的趨勢不同,GAIA側重于對現有高級AI系統提出概念上簡單但具有挑戰性的問題。這些問題涉及需要精確執行復雜操作序列的真實場景,其輸出易于驗證。類似地,VisualWebArena是一個基準測試套件,旨在評估和推進LMAs在處理視覺和文本理解任務上的能力,適用于真實網頁。還有其他基準測試有效地測試了智能體的能力。
應用
LMAs擅長處理多種數據模態,在各種情景下的決策和響應生成方面勝過僅限于語言的智能體。它們的適應性使它們在真實世界的多感官環境中異常有用,如圖4所示。

GUI自動化。 在這個應用中,LMAs的目標是理解和模擬用戶界面內的人類操作,實現重復任務的執行、跨多個應用程序的導航以及簡化復雜的工作流程。這種自動化有望節省用戶的時間和精力,讓他們可以專注于工作的更重要和更有創造性的方面。例如,GPT-4V-Act是一種先進的人工智能,將GPT-4V的能力與網絡瀏覽相結合,以改進人機交互。它的主要目標是使用戶界面更易于訪問,簡化工作流程自動化,并增強自動化的UI測試。這種人工智能對于殘疾人或技術能力有限的人來說特別有益,幫助他們更輕松地瀏覽復雜的界面。
機器人技術與實體人工智能。 這個應用專注于將機器人的感知、推理和行動能力與其環境中的物理交互相結合。通過使用多模態智能體,機器人可以利用多種感官通道,如視覺、聽覺和觸覺,獲取全面的環境數據。例如,MP5系統是一種先進的多模態實體系統,用于Minecraft,利用主動感知來智能地分解并執行廣泛的、無限期的任務,使用大語言模型。
游戲開發。 游戲人工智能致力于設計和實現這些智能體,以展示智能和真實感,從而提供引人入勝和具有挑戰性的玩家體驗。將智能體技術成功地整合到游戲中,已經導致了更復雜和交互式的虛擬環境的創建。
自動駕駛。 傳統的自動駕駛方法在有效感知和解釋復雜場景方面面臨困難。最近基于多模態智能體技術的進展,特別是由LLMs驅動,標志著在克服這些挑戰和彌合感知差距方面取得了重大進展。GPT-Driver,這是一種先進的方法,采用OpenAI GPT-3.5模型作為自動駕駛車輛的可靠運動規劃器,特別注重生成安全舒適的駕駛軌跡。利用LLMs固有的推理能力,他們的方法為新穎駕駛場景中有限的泛化問題提供了有希望的解決方案。
視頻理解。 視頻理解智能體是專門用于分析和理解視頻內容的人工智能系統。它利用深度學習技術從視頻中提取關鍵信息,識別對象、動作和場景,以增強對視頻內容的理解。
視覺生成和編輯。 這種類型的應用旨在創建和編輯視覺內容。利用先進的技術,這個工具輕松地創建和修改圖像,為用戶提供了創意項目的靈活選擇。例如,LLaVA-Interactive是一個開源的多模態交互系統,將預訓練的AI模型的能力融合在一起,以便于與視覺線索進行多輪對話并生成編輯后的圖像,從而實現了一種經濟高效、靈活直觀的AI輔助視覺內容創建體驗。
復雜的視覺推理任務。 這個領域是多模態智能體研究的重點,主要強調多模態內容的分析。這種流行歸因于LLMs在理解和推理基于知識的查詢方面的優越認知能力,超越了以前模型的能力。在這些應用中,主要關注的是問答任務。這包括利用視覺模態(圖像或視頻)和文本模態(帶有問題或附帶文檔的問題)進行推理響應。
音頻編輯與生成。 這個應用中的LMAs集成了音頻領域的基礎專家模型,使音樂的編輯和創作變得高效。
結論
本調查對由LLMs驅動的多模態智能體(LMAs)的最新研究進行了徹底的概述。首先介紹了LMAs的核心組件(即感知、規劃、行動和記憶),并將現有研究分類為四類。隨后,整理了評估LMAs的現有方法,并設計了一個全面的評估框架。最后,重點介紹了LMAs領域內一系列當前和重要的應用場景。盡管取得了顯著進展,但這個領域仍面臨許多未解決的挑戰,有很大的改進空間。我們最后根據審查的進展,強調了幾個有前途的方向:
- 在框架方面:LMAs未來的框架可能會從兩個不同的角度發展。從單一智能體的角度來看,發展可能朝著創建一個更統一的系統的方向發展。這涉及到規劃者直接與多模態環境互動,利用全面的工具集,并直接操作記憶;從多個智能體的角度來看,推進多個多模態智能體之間的有效協調,執行集體任務,是一個關鍵的研究方向。這包括基本的方面,如協作機制、通信協議和戰略任務分配。
- 在評估方面:對于這個領域,需要系統和標準的評估框架。理想的評估框架應該包含一系列評估任務,從簡單到復雜不等,每個任務都具有對人類的重要相關性和效用。它應該包含清晰而明智的評估指標,經過精心設計,以全面而非重復的方式評估LMA的各種能力。此外,用于評估的數據集應該經過精心策劃,以反映更貼近實際情況的場景。
- 在應用方面:LMAs在現實世界中的潛在應用是巨大的,為傳統模型之前具有挑戰性的問題提供了解決方案,例如網絡瀏覽。此外,LMAs與人機交互領域的交叉也代表了未來應用的重要方向之一。它們處理和理解來自各種模態的信息的能力使它們能夠執行更復雜、更細微的任務,從而增強了它們在實際場景中的實用性,并改善了人與機器之間的交互。
本文轉自 AI生成未來 ,作者:Junlin Xie等

















