精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

多模態大語言模型的空間智能探秘：突破與挑戰

十一月雨_55

發布于 2024-12-27 14:34

瀏覽

0收藏

人們在日常生活中需要視覺空間智能來處理空間信息，但多模態大語言模型在這方面的能力尚未得到充分研究。本文構建了 VSI - Bench 基準測試，對模型進行評估和分析，有助于了解模型的優勢和不足，為提升模型的視覺空間智能提供方向，推動相關領域發展，如機器人、自動駕駛和 AR/VR 等，使模型能更好地應用于實際場景。

本文圍繞多模態大語言模型（MLLMs）的視覺空間智能展開研究。首先介紹了視覺空間智能的概念及相關能力分類，接著提出了包含 5000 多個問答對的 VSI - Bench 基準，涵蓋多種類型任務及不同場景視頻。通過對 15 個模型的評估，發現 MLLMs 雖有一定視覺空間智能但低于人類，空間推理是其性能瓶頸，傳統語言推理技術效果不佳，而生成認知地圖可提升空間距離能力。

摘要&解讀

人類擁有從連續的視覺觀察中記住空間的視覺空間智能。然而，在百萬規模視頻數據集上訓練的多模態大語言模型（MLLMs）能否也從視頻中“在空間中思考”呢？我們提出了一個新的基于視頻的視覺空間智能基準（VSI - Bench），包含超過5000個問答對，并發現MLLMs展現出了具有競爭力的——盡管低于人類的——視覺空間智能。我們通過語言和視覺方式探究模型如何表達它們在空間中的思考，并發現雖然空間推理能力仍然是MLLMs達到更高基準性能的主要瓶頸，但局部世界模型和空間感知確實在這些模型中出現了。值得注意的是，流行的語言推理技術（例如，思維鏈、自一致性、思維樹）未能提高性能，而在問答過程中明確生成認知地圖則增強了MLLMs的空間距離能力。

研究背景:隨著多模態大語言模型（MLLMs）在語言智能方面取得進展，其視覺空間智能的研究相對不足，盡管該能力在機器人、自動駕駛和 AR/VR 等領域具有重要性。以往的空間智能測試多關注紙筆任務或 2D 圖像、純語言方面的理解，缺乏基于真實視頻對 MLLMs 視覺空間智能的有效評估。
研究貢獻:

a.提出了新的基于視頻的視覺空間智能基準 VSI - Bench，包含豐富多樣的任務和真實場景視頻數據，能全面評估 MLLMs 的視覺空間智能。

b.通過語言和視覺兩種方式探究 MLLMs 在空間中的思考過程，發現了其空間推理能力的瓶頸以及局部世界模型和空間感知的存在。

c.證明了在問答過程中明確生成認知地圖可增強 MLLMs 的空間距離能力，為提升模型性能提供了新的方向。

實現設計:

a.數據收集與處理：整合 ScanNet、ScanNet++和 ARKitScenes 等數據集，統一數據格式，包括視頻處理、元信息提取和類別篩選等步驟，為基準構建提供數據基礎。

b.問答對生成：基于統一的元信息和精心設計的問題模板自動生成大部分問答對，并對路線規劃任務進行人工注釋，同時設計了嚴格的質量審查流程，確保數據質量。

c.模型評估設置：選擇 15 個涵蓋不同模型家族和規模的 MLLMs，采用零樣本設置和貪婪解碼，根據答案類型設計了合適的評估指標（如 MCA 任務用準確率，NA 任務用平均相對準確率），并設定了機會水平基線和人類水平性能參考。

實驗結果:

a.人類在基準測試中平均準確率達 79%，遠超 MLLMs。專有模型 Gemini1.5 Pro 表現較好但仍有差距，開源模型中部分表現出競爭力，但多數低于機會水平基線。

b.空間推理是 MLLMs 性能的主要瓶頸，約 71%的錯誤源于此，而傳統語言推理技術如思維鏈、自一致性和思維樹等在基準上反而導致性能下降。

c.MLLMs 在記憶空間時形成局部世界模型，在定位相鄰物體的認知地圖中準確率達 64%，但隨距離增加準確性下降；使用認知地圖可使相對距離任務準確率提高 10%，使用真實認知地圖比基線有 20% - 32%的增益。

1. 引言

在購買家具時，我們經常會試著回憶起客廳的樣子，以想象想要的柜子是否合適。估計距離是困難的，但即使只看過一次，人類也能在腦海中重構空間，回憶起房間里的物體、它們的位置和大小。我們生活在一個充滿感官信息的三維世界中，視覺信號圍繞著我們并為我們提供基礎，使我們能夠感知、理解并與之互動。

多模態大語言模型的空間智能探秘：突破與挑戰-AI.x社區

圖1：無論是在家中、工作場所還是其他地方，感知空間、記住其布局并按需檢索這些空間信息以回答問題的能力是視覺空間智能的一個關鍵方面。最近的多模態大語言模型（MLLMs）能夠理解一般視頻，但當面對環境的視頻記錄時，它們能“在空間中思考”嗎？它們能否構建一個準確的、隱性的“認知地圖”，從而使它們能夠回答關于空間的問題？使用MLLMs增強空間智能的優勢和局限性是什么？我們通過為MLLMs設置視頻數據、構建視覺問答（VQA）基準來檢查它們的回憶，并檢查MLLMs實際記住和理解的內容來深入研究這些問題。

視覺空間智能需要感知和在心理上操縱空間關系[26]；它需要多種能力，包括關系推理以及在自我中心和非自我中心視角之間轉換的能力（見第2節）。雖然大語言模型（LLMs）[3, 6, 9, 35, 59, 65, 66, 75, 79, 80, 85, 100]已經提高了語言智能，但視覺空間智能盡管與機器人技術[7, 8, 21, 62]、自動駕駛[77]和增強現實/虛擬現實（AR/VR）[12, 27, 53]相關，但仍未得到充分探索。

多模態大語言模型（MLLMs）[1, 4, 15, 33, 41, 47, 47, 76]整合了語言和視覺，在開放式對話和實際任務（如網絡智能體[21, 28, 32, 34]）中表現出強大的思考和推理能力。為了在視覺空間領域提升這種智能，我們引入了VSI - Bench，這是一個基于視頻的基準，包含來自近290個真實室內場景視頻的超過5000個問答對（見第3節）。視頻數據通過捕捉連續的時間輸入，既類似于我們觀察世界的方式，又能實現比靜態圖像更豐富的空間理解和推理。在VSI - Bench上評估開源和閉源模型表明，盡管模型和人類之間存在很大的性能差距，但MLLMs在視頻理解、文本理解和空間推理等挑戰下仍展現出了新興的視覺空間智能（見第4節）。

為了分析模型行為，并受到雙重編碼理論[18]的啟發——該理論認為語言和視覺處理是不同但互補的，我們提示選定的模型進行自我解釋（語言方面）和生成認知地圖（視覺方面）。對自我解釋的分析表明，與視覺感知、語言智能或時間處理相比，空間推理是VSI - Bench上性能不佳的主要因素（見第5節）。“認知地圖”代表環境的內部布局[60, 78]，使我們能夠評估MLLMs的隱性空間世界模型，并發現MLLMs構建了強大的局部模型，但全局模型較弱（見第6節）。此外，標準的語言推理技術未能提高我們基準測試的性能。然而，明確生成和使用認知地圖可以提高空間距離問答的能力。

即使對于人類來說，表達視覺空間智能也是困難的（而且通常是零碎的）[26]。通過這項工作，我們旨在鼓勵社區探索為前沿模型賦予視覺空間智能，并為這個方向鋪平道路并提供啟示。

2. 視覺空間智能

我們討論視覺空間智能的預備知識和范圍，為后續分析提供背景和框架。

多模態大語言模型的空間智能探秘：突破與挑戰-AI.x社區

術語使用：我們使用“智能”而不是“認知”，因為它的范圍更廣，并且“空間認知”是認知心理學的一個分支[81]。在我們的工作中，我們在“空間智能”前加上“視覺”，因為空間智能的存在與感官模式無關（例如，盲人可以通過其他感官感知空間）[26]。鑒于我們專注于視頻輸入，我們討論視覺空間智能。
研究范圍：雖然經典的空間智能測試也包括紙筆任務，如心理旋轉測試[72]，但我們的重點是適用于現實世界環境的視覺空間智能，特別是在家庭、辦公室和工廠等常見空間中。
分類：基于認知心理學[11, 26, 55, 60]和我們在第3節中的基準任務的人類經驗，我們提供了視覺空間智能可能需要的能力分類（圖2）。視覺感知、語言智能、時間處理和空間推理是VSI - Bench所需的四個領域。例如，[11]表明視覺對象和空間處理在神經上是不同的，這促使將“視覺感知”和“空間推理”作為獨立的領域。我們將空間推理分為兩個廣泛的能力：關系推理和自我中心 - 非自我中心轉換。

關系推理是通過距離和方向識別物體之間關系的能力。它還包括依靠關于其他物體大小的視覺空間常識來推斷物體之間的距離。例如，知道一個標準飲料罐大約12厘米高，人類可以通過比較視覺比例來估計其他物體的大小。

自我中心 - 非自我中心轉換涉及在以自我為中心（自我中心）的視圖和以環境為中心（非自我中心）的視圖之間切換。在我們的設置中，每個自我中心視頻幀都映射到非自我中心的物體位置和相機軌跡。當人類觀察空間時，他們將自我中心的感知轉換為非自我中心的心理地圖，從而能夠從不同的視角進行觀察——這對于相對方向或路線規劃等任務至關重要。這種轉換依賴于新視角的可視化和視覺空間工作記憶[2]，即保持和操作空間信息的能力，例如通過從新的自我中心輸入更新物體位置[20, 54]。

VSI - Bench中的每個任務都需要感知、語言和時間能力以及不同程度的空間推理。例如，對于路線規劃任務，自我中心 - 非自我中心轉換比物體大小估計重要得多。這些因素為視覺空間智能的復雜性提供了一些背景信息。

3. VSI - Bench

3.1. 概述

我們引入VSI - Bench來從自我中心視頻中定量評估MLLMs的視覺空間智能。VSI - Bench由來自288個真實視頻的超過5000個問答對組成。這些視頻來自公共室內3D場景重建數據集ScanNet[19]、ScanNet++[94]和ARKitScenes[5]的驗證集，代表了不同的環境——包括住宅空間、專業環境（如辦公室、實驗室）和工業空間（如工廠）——以及多個地理區域。重新利用這些現有的3D重建和理解數據集提供了準確的對象級注釋，我們在問題生成中使用這些注釋，并可能有助于未來研究MLLMs與3D重建之間的聯系。VSI - Bench質量很高，經過了迭代審查，以盡量減少問題的模糊性并去除從源數據集中傳播的錯誤注釋。

多模態大語言模型的空間智能探秘：突破與挑戰-AI.x社區

VSI - Bench包括三種類型的八個任務：配置、測量估計和時空。配置任務（物體計數、相對距離、相對方向、路線規劃）測試模型對空間配置的理解，對人類來說更直觀（見第4節中MLLM和人類性能的比較）。測量估計（物體大小、房間大小和絕對距離）對任何具身智能體都有價值。雖然對人類和模型來說，精確預測測量值都非常困難，但更好的距離和其他測量的感知直觀上與更好的視覺空間智能相關，并支持許多需要空間意識的任務，如與物體的交互和導航。時空任務如出現順序測試模型對視頻中所見空間的記憶。圖3展示了VSI - Bench任務的概述，圖5展示了數據集的統計信息。

多模態大語言模型的空間智能探秘：突破與挑戰-AI.x社區

3.2. 基準構建

我們開發了一個復雜的基準構建管道，以有效地大規模生成高質量的問答（QA）對，如圖4所示。

多模態大語言模型的空間智能探秘：突破與挑戰-AI.x社區

數據收集和統一：我們通過將各種數據集標準化為統一的元信息結構來開始數據集構建，確保與數據集無關的QA對生成。我們的基準匯總了現有的3D室內場景理解和重建數據集：ScanNet[19]、ScanNet++[94]和ARKitScenes[5]。這些數據集提供了能夠進行空間重建的高保真視頻掃描，確保MLLMs僅通過視頻輸入就能回答空間級別的問題。此外，它們的對象級3D注釋有助于我們生成問題。我們將數據集解析為統一的元信息格式，包括對象類別、邊界框、視頻規格（分辨率和幀率）等。
問答生成：QA對主要使用元信息和問題模板自動注釋；路線規劃任務是人工注釋的。我們為每個任務精心設計和完善了問題模板，并為人工注釋者提供了指導方針。有關更詳細的設計，請參見附錄B.1。
人工參與的質量審查：盡管使用了人工注釋的數據源和精心設計的QA生成方法，但某些模糊性和錯誤不可避免地仍然存在，主要是由于源數據集中固有的注釋錯誤。我們在整個基準構建過程中實施了人工參與的驗證協議。這種迭代的質量保證是雙向的：當評估者標記出模糊或錯誤的問題時，我們追溯錯誤來源并刪除有問題的數據樣本或相應地修改元信息、問題模板或QA生成規則，以糾正來自同一來源的其他錯誤問題。在每次人工審查周期后，我們更新和迭代基準，直到它滿足我們的質量標準。

4. 在VSI - Bench上的評估

4.1. 評估設置

基準模型：我們全面評估了來自不同模型家族的15個支持視頻的MLLMs，涵蓋了各種參數規模和訓練方法。對于專有模型，我們考慮Gemini1.5[76]和GPT - 4o[33]。對于開源模型，我們評估了來自InternVL2[14]、ViLA[44]、LongViLA[88]、LongVA[98]、LLaVA - OneVision[39]和LLaVA - NeXT - Video[99]的模型。所有評估均在零樣本設置下進行，并使用每個模型的默認提示。為確?？芍貜托?，我們對所有模型使用貪婪解碼。

多模態大語言模型的空間智能探秘：突破與挑戰-AI.x社區

MRA為計算數字預測與真實值之間的相似度提供了更可靠和有區分度的測量方法。

機會水平基線：我們提供了兩個基線：

機會水平（隨機）是MCA任務的隨機選擇準確率（不適用于NA任務）。
機會水平（頻率）表示MLLMs通過總是為每個任務選擇最頻繁的答案所能達到的最高性能。這確定了由于固有長尾答案或不平衡多項選擇分布可能導致的性能提升。

人類水平性能：我們隨機抽取400個問題（每個任務50個）的子集，我們將其稱為VSI - Bench（tiny）。人類評估者獨立回答每個問題，并使用上述指標評估他們的表現。為了進行比較，我們還報告了Gemini1.5 Pro在VSI - Bench（tiny）上的表現。有關評估設置的詳細信息，請參見附錄C。

4.2. 主要結果

表1展示了模型在VSI - Bench上的整體表現。我們的主要觀察結果如下：

多模態大語言模型的空間智能探秘：突破與挑戰-AI.x社區

人類水平性能：不出所料，人類評估者在我們的基準測試中平均準確率達到79%，比表現最好的模型高出33%。值得注意的是，人類在配置和時空任務上的表現非常高，從94%到100%不等，這表明人類的直觀性。相比之下，在需要精確估計絕對距離或大小的三個測量任務上，人類和表現最好的MLLM之間的性能差距要小得多，這表明MLLMs在需要定量估計的任務中可能具有相對優勢。
專有MLLMs：盡管與人類存在顯著的性能差距，但領先的專有模型Gemini1.5 Pro取得了有競爭力的結果。它大大超過了機會水平基線，并在絕對距離和房間大小估計等任務中接近人類水平的表現。值得注意的是，雖然人類評估者在空間理解物理世界方面有多年的經驗，但MLLMs僅在互聯網視頻等二維數字數據上進行訓練。
開源MLLMs：頂級開源模型如LLaVA - NeXT - Video - 72B和LLaVA - OneVision - 72B表現出與閉源模型高度競爭的性能，僅比領先的Gemini1.5 Pro落后4%到5%。然而，大多數開源模型（12個中的7個）的表現低于機會水平基線，這表明它們的視覺空間智能存在顯著局限性。

盲評：我們比較了MLLMs的性能與“機會水平（頻率）”和“無視覺（blind）”結果，使用了六個最強模型（3個開源和3個閉源）的平均值。如圖6所示，“啟用 - 禁用”的持續改進和“禁用 - 機會”的普遍下降表明，視頻對我們的VSI - Bench是必要且有益的，盲模型的表現低于機會水平。同時，無論是否啟用視覺，MLLMs在絕對距離估計、路線規劃和相對方向任務上都難以超越機會水平，這凸顯了這些任務的難度。需要注意的是，在物體大小方面，“無視覺”模型已經明顯優于機會水平，這可能是由于在語言模型訓練期間學到的常識知識。

多模態大語言模型的空間智能探秘：突破與挑戰-AI.x社區

5. MLLMs在空間中的語言思考方式

為了更好地理解模型何時以及為何成功或失敗，并闡明它們所具備的視覺空間智能的方面，我們在這里從語言角度以及在第6節從視覺角度研究MLLMs在空間中的思考方式。我們首先提示在VSI - Bench中表現最好的MLLM，Gemini1.5 Pro[76]，用語言表達其內部推理過程。

5.1. 通過自我解釋進行探究

自我解釋是一種與傳統模型解釋（如LIME顯著圖[69]）相當的流行方法，用于理解LLM生成的響應[25, 31, 51]，并廣泛用于分析語言模型行為[64, 96]。我們隨機抽取了163個錯誤答案的子集，提示MLLM為預測答案提供解釋，并手動仔細審查這些解釋。

多模態大語言模型的空間智能探秘：突破與挑戰-AI.x社區

案例研究：圖7展示了一個成功案例和一個錯誤案例的自我解釋。在這兩個例子中，當在空間中思考時，MLLM表現出了先進的視頻理解能力，其時間戳描述的準確性令人印象深刻。該模型還形成了正確的逐步推理過程，為相對方向任務概述了“確定自身方向”、“定位洗碗機”和“可視化象限”等步驟。此外，全局坐標系的構建（圖 7，左）表明 MLLMs 可能擁有或構建了一個隱性的世界模型。MLLM 并非使用孤立的幀、短片段或隨機猜測，而是利用全局空間上下文和推理來正確推斷。

在錯誤示例（圖 7，右）中，我們可以識別出諸如自我中心 - 非自我中心轉換和關系推理等有缺陷的視覺空間能力，如在圖 2 中所介紹的。在視頻中，相機向右平移，將視角從床邊轉移到墻壁和窗戶。模型遵循這個自我中心視角，回答說“要面向窗戶所在的墻壁，必須向右轉”，而不是創建一個反映從門到床的路線實際需要向左轉的非自我中心視角。

錯誤分析：為了量化并確定在我們的基準測試中表現最佳的 MLLM 的主要瓶頸，我們分析了它在 VSI - Bench（tiny）上的錯誤，將它們分為四種不同類型，這些類型源于我們概述的視覺空間能力（圖 2）以及在檢查時對錯誤的明確四類分類：

視覺感知錯誤，源于未識別的對象或錯誤分類的對象類別；
語言智能錯誤，由邏輯、數學推理或語言理解缺陷引起；
關系推理錯誤包括空間關系推理中的錯誤，即距離、方向和大?。?/li>
自我中心 - 非自我中心轉換錯誤，源于錯誤的非自我中心空間布局或不恰當的視角轉換。

如圖 8 所示，大約 71%的錯誤歸因于空間推理（如在圖 2 中的本體概念），這表明：

空間推理是 MLLM 在 VSI - Bench 上性能的主要瓶頸。

進一步的分析和案例研究見附錄 E.2。

多模態大語言模型的空間智能探秘：突破與挑戰-AI.x社區

5.2. 思維鏈方法在視覺空間任務中的局限性

提示技術提高了大型模型在各種任務中的推理和問題解決能力[32, 34, 73, 82]。它們的成功促使我們研究這些語言提示方法是否也能提高 MLLMs 在 VSI - Bench 中的視覺空間能力。我們研究了三種流行的提示技術（更多細節見附錄 B.3）：

零樣本思維鏈（CoT）。遵循[37, 86]，我們在提示中添加“讓我們逐步思考”。
帶有 CoT 的自一致性。我們遵循[84]，將 MLLM 的溫度設置為 1.0 以鼓勵多樣化推理，然后將五次運行（與零樣本 CoT 一起使用）中的多數共識作為最終預測。
思維樹（ToT）。遵循[92]中的“創意寫作”實踐，我們將推理分為計劃生成和答案預測。MLLM 首先起草并選擇一個計劃，然后生成三個候選答案并選擇最自信的一個作為預測。

多模態大語言模型的空間智能探秘：突破與挑戰-AI.x社區

如圖 9 所示，令人驚訝的是，所有三種語言推理技術都導致了 VSI - Bench 上的性能下降。零樣本 CoT 和 ToT 使平均性能降低了約 4%，而自一致性雖然略好，但仍比無提示基線低 1.1%。外觀順序和絕對距離估計任務的單方面改進很容易解釋，因為它們在語言智能錯誤中占很大比例（見圖 8）。相比之下，房間大小和物體大小任務有 8%到 21%的大幅下降，這表明鼓勵模型更多地思考不僅不可靠，而且可能有害。同時，如表 2 所示，零樣本 CoT 在通用視頻理解基準 VideoMME[24]上實現了 1.6%的改進。因此，我們的結果表明：

語言提示技術雖然在語言推理和一般視覺任務中有效，但對空間推理有害。

多模態大語言模型的空間智能探秘：突破與挑戰-AI.x社區

6. MLLMs在空間中的視覺思考方式

由于人類在進行空間推理時會下意識地構建空間的心理表征[58, 78]，我們探索 MLLMs 如何記憶空間。

6.1. 通過認知地圖進行探究

我們提示 MLLMs 使用認知地圖來表達它們對所看到空間的內部表征，認知地圖是一種在特定環境中記憶物體的成熟框架[60, 78]。我們提示表現最佳的 MLLM，Gemini1.5 Pro，根據視頻輸入在一個 10×10 的網格中預測物體中心位置（見圖 11b 關于網格大小的消融實驗和附錄 B.4 中的提示）。我們在圖 10 中展示了生成的認知地圖的示例。

多模態大語言模型的空間智能探秘：突破與挑戰-AI.x社區

為了定量評估這些認知地圖，我們評估了每個地圖中所有對象對之間的歐幾里得距離。如果兩個對象在網格上的距離與真實認知地圖中的距離偏差不超過一個網格單元，我們就認為該距離是正確的。如圖 11 所示，我們將地圖距離分為八個不同的區間進行分析。有趣的是，我們發現 MLLM 在其認知地圖中定位相鄰對象的準確率達到了 64%，這表明它具有較強的局部空間意識。然而，隨著兩個對象之間距離的增加，這種準確率顯著下降，這表明：

當記憶空間時，MLLM 從給定視頻中在其腦海中形成一系列局部世界模型，而不是一個統一的全局模型。

多模態大語言模型的空間智能探秘：突破與挑戰-AI.x社區

這一觀察結果與從離散視頻幀形成全局空間表示的挑戰相一致，這對 MLLMs 來說本身就是困難的。雖然這對人類來說可能也不是一件容易的事，但他們可能能夠更準確地構建這樣的全局空間表示。

6.2. 通過認知地圖更好地進行距離推理

鑒于 MLLMs 在記憶空間時的局部意識（見圖 10 和圖 11）以及心理意象對人類空間思維的重要性，我們研究生成和使用認知地圖是否可以幫助 MLLMs 在 VSI - Bench 的相對距離任務中進行空間推理。這測試了通過認知地圖產生的局部距離意識是否能轉化為更好的距離回憶和推理。

多模態大語言模型的空間智能探秘：突破與挑戰-AI.x社區

我們提示 Gemini1.5 Pro 首先根據給定的視頻和問題生成一個認知地圖，然后使用預測的地圖來回答問題。如表 3a 所示，我們發現使用心理意象使 MLLM 的相對距離準確率提高了 10%。使用真實認知地圖比基線提高 20%到 32%的增益凸顯了構建場景準確心理地圖的重要性，這強制了全局一致的拓撲結構，但也表明這種心理意象只是難題的一部分，盡管是關鍵的一部分。這些結果表明構建一個心理空間世界模型或認知地圖作為 MLLMs 解決視覺空間推理的有價值的前置任務或有前途的解決方案。

7. 相關工作

除了第 2 節中的視覺空間智能，我們還在以下兩個相關領域為我們的工作奠定基礎：

具有視覺空間意識的 MLLMs：基于 LLMs[3, 9, 65, 66, 75, 79, 80]強大的語言和推理能力以及現代視覺編碼器[29, 63, 67]的特征提取能力，MLLMs，尤其是視覺 MLLMs，展現出了前所未有的視覺理解能力[33, 39, 76, 83, 88, 99]，這是朝著開發世界模型[48]和具身智能體[17, 21, 36, 57]的有前途的方向。然而，將 MLLMs 基于現實世界對模型的視覺空間智能提出了重大挑戰，促使了最近的努力[10, 13, 16, 40, 46, 91, 102]。與先前主要關注通過 2D 圖像[68, 74, 90]或僅通過語言[56, 70, 87, 87, 89]理解空間信息的工作不同，我們的工作使用真實世界視頻評估模型的視覺空間智能，這更緊密地反映了人類對世界的理解和具身智能體的應用場景。
在視頻上對 MLLMs 進行基準測試：隨著 MLLMs 在靜止圖像的感知、推理和多學科任務中表現出令人印象深刻的性能[38, 50, 95, 96]，人們越來越關注評估 MLLMs 的視頻理解能力[23, 24, 42, 43, 49, 52, 53, 61, 93]。例如，Video - MME[24]全面評估了 MLLMs 在各種視頻相關任務中的表現，包括識別和感知。EgoSchema[53]和 OpenEQA[62]使用自我中心視頻評估 MLLMs 的理解能力。盡管它們很重要，但大多數先前的工作都集中在內容級別的理解[24, 42, 53, 61]，這主要是 2D 圖像理解的時間擴展，沒有考慮 3D 空間。超越先前的基準，我們的工作建立了一個測試平臺，使用視頻作為理解現實世界的接口，評估基于 3D 視頻的模型視覺空間智能。

8. 討論與未來工作

我們通過構建 VSI - Bench 并研究 MLLMs 在其上的性能和行為來研究模型如何觀察、記憶和回憶空間。我們對 MLLMs 在空間中的語言和視覺思考方式的分析確定了視覺空間智能的現有優勢（例如，突出的感知、時間和語言能力）和瓶頸（例如，自我中心 - 非自我中心轉換和關系推理）。雖然流行的語言提示方法未能提高空間推理能力，但構建明確的認知地圖確實增強了 MLLMs 的空間距離推理能力。未來的改進途徑包括特定任務的微調、開發用于空間推理的自監督學習目標或為 MLLMs 定制的視覺空間提示技術。

參考資料

標題：Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall Spaces
作者：Jihan Yang1* Shusheng Yang1? Anjali W. Gupta1? Rilyn Han2? Li Fei-Fei3 Saining Xie1
單位：1紐約大學 2耶魯大學 3斯坦福大學
標簽：多模態大語言模型、視覺空間智能、人工智能、基準測試
概述: 本文主要研究多模態大語言模型（MLLMs）的視覺空間智能，通過構建 VSI - Bench 基準測試，分析 MLLMs 在其中的表現、思考方式及能力瓶頸，并探討了提升其視覺空間智能的方法。
鏈接：https://arxiv.org/pdf/2412.14171

本文轉載自 ??旺知識??，作者：旺知識

標簽

已于2024-12-27 16:24:18修改

贊

收藏

回復

舉報

回復

相關推薦

《多模態大語言模型綜述》重大升級

angel ? 5257瀏覽 ? 0回復
揭秘多模態：人工智能領域的新突破

sword_hero ? 5162瀏覽 ? 0回復
多模態視覺-語言大模型的架構演進

angel ? 7089瀏覽 ? 0回復
多模態大型語言模型（MLLM）綜述

AIRoobt ? 7780瀏覽 ? 0回復
「多模態大模型」解讀 | 突破單一文本模態局限

Baihai_IDP ? 4652瀏覽 ? 0回復
大型語言模型（LLM）在機器人領域的機遇、挑戰與展望

AIRoobt ? 7731瀏覽 ? 0回復
大語言模型實踐中的挑戰與應對

sbf_2000 ? 4289瀏覽 ? 0回復
多模態與偽多模態大模型

AI探索時代 ? 3885瀏覽 ? 0回復
多模態大模型數據分析與實踐

zhcs333 ? 6667瀏覽 ? 0回復
多模態語言模型實戰之音樂轉錄

51CTO內容精選 ? 4308瀏覽 ? 0回復
探秘大語言模型數據合成能力：AgoraBench基準測試全解析

十一月雨_55 ? 4038瀏覽 ? 0回復
機械鸚鵡與真正的智能：大語言模型推理能力的迷思

Baihai_IDP ? 4051瀏覽 ? 0回復
醫學領域大模型與多模態大模型的綜合調查

知識圖譜科技 ? 4089瀏覽 ? 0回復
EVEv2.0，視覺語言分開編碼，多模態視覺語言理解；視覺信息引導與標記邏輯增強減少大語言模型幻覺

AI研究前瞻 ? 4380瀏覽 ? 0回復
基于多模態大語言模型的上下文目標檢測

AIRoobt ? 4877瀏覽 ? 0回復
融合語言模型的多模態大模型研究

zhcs333 ? 3775瀏覽 ? 0回復
5W字長文 Agent多智能體探秘：架構設計、交互模式與應用實踐深度剖析

柏企閱文 ? 4376瀏覽 ? 0回復
2025年最值得關注的十大多模態大語言模型！

Halo咯咯 ? 1.1w瀏覽 ? 0回復
面向未來通信的大語言模型綜述：基礎、應用與挑戰

AIRoobt ? 6886瀏覽 ? 0回復

十一月雨_55

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

NeurIPS'25香港城大+騰訊+浙大Retrv-R1：“壓縮 + 推理“驅動多模態檢索效率效果新SOTA 3天前發布
Meta提出DreamGym：合成經驗把Agent學習成本砍掉 80%，效果超SOTA 30% 2025-11-12 00:17:14發布

熱門推薦

阿里通義DeepResearch技術報告解讀：3.3B激活，刷新5大榜單，開源深度研究智能體技術新標桿！ 0回復

ICLR25賓大提出REGENT：檢索增強通用智能體，看兩眼就會學新技能，1.38億參數打贏百億模型 0回復

用 Cognee 構建端到端知識圖譜，實現當前效果最好的AI Agent記憶層 0回復

Spring AI Alibaba：Java 后端接入大模型，終于不用羨慕 Python 了！ 0回復

小模型，大能量：阿里巴巴 Qwen3-VL 4B/8B，重新定義多模態輕量化邊界 0回復

上一篇： OpenAI Sora震撼登場：20秒打造專業級視頻，開啟創意新紀元！

下一篇：大語言模型o1慢思考推理系統的破局之路：模仿、探索與自我提升的深度揭秘！

社區精華內容

目錄

亚洲r级在线观看| 在线看日韩av| 日韩欧美视频网站| 国产精品一区在线看| 蜜臀av一区二区在线免费观看| 色多多国产成人永久免费网站| 五月六月丁香婷婷| 热三久草你在线| 国产精品成人免费精品自在线观看| 亚洲伊人第一页| 精品国产一区二区三区四| 久久五月天小说| 亚洲高清一区二| 欧美激情第3页| 国产精品原创| 亚洲素人一区二区| 欧美日韩国产综合在线| 国产丝袜在线视频| 日韩专区在线视频| 欧美精品电影在线| 制服丨自拍丨欧美丨动漫丨| 欧美一级一片| 日韩欧美在线一区二区三区| 日韩欧美xxxx| 国产中文在线播放| 亚洲色图视频网| 欧美日韩亚洲综合一区二区三区激情在线| japanese国产| 麻豆免费看一区二区三区| 97视频在线观看视频免费视频| 成人在线观看小视频| 狠狠做深爱婷婷综合一区| 欧美精品一区二区三| 在线看免费毛片| 日韩中文影院| 欧美性猛交99久久久久99按摩| 日本精品免费视频| 思思99re6国产在线播放| 久久综合九色综合欧美98| 国产三级精品在线不卡| 99久久久无码国产精品免费| 免费观看一级特黄欧美大片| 日本人成精品视频在线| 日本三级一区二区| 亚洲毛片视频| 国语自产精品视频在线看抢先版图片| 亚洲怡红院在线观看| 成人区精品一区二区婷婷| 国产亚洲美女精品久久久| 9.1成人看片免费版| 欧亚精品一区| 精品国精品国产| 国产成人av片| 超碰成人97| 亚洲成人久久久久| 婷婷五月精品中文字幕| ccyy激情综合| 亚洲国产日韩欧美在线99| 99免费观看视频| 哺乳一区二区三区中文视频| 亚洲国产成人精品久久| 国产老熟女伦老熟妇露脸| 精品少妇一区| 亚洲男人天堂九九视频| 国产黄片一区二区三区| 欧美美女视频| 波霸ol色综合久久| 日本青青草视频| 亚洲特色特黄| 欧洲精品毛片网站| 国产美女www| 精品影院一区二区久久久| 91中文精品字幕在线视频| 国产叼嘿视频在线观看| 成人久久视频在线观看| 久久久久久久久久久久久久一区 | 91精品免费在线观看| 亚洲精品成人在线播放| 一区二区精彩视频| 亚洲精品美女网站| 日本人亚洲人jjzzjjz| 欧美高清视频在线观看mv| 不卡伊人av在线播放| 久久免费视频精品| 日韩高清中文字幕一区| 91精品久久久久久久久久入口 | 中文字幕精品一区日韩 | 欧美孕妇孕交黑巨大网站| 久草视频在线免费| 国产精品99久久久久| 黑人中文字幕一区二区三区| 国产youjizz在线| 一区二区三区在线看| 国产黄色一级网站| 97久久精品一区二区三区的观看方式| 精品国产一区二区三区久久久蜜月| 国产艳俗歌舞表演hd| 97人人精品| 韩剧1988免费观看全集| 一级aaaa毛片| 91在线云播放| 性做爰过程免费播放| 亚洲精品中文字幕| 欧美一级黄色录像| 无码国产69精品久久久久同性| 国产精品久久久久久久| 亲爱的老师9免费观看全集电视剧| 国产日韩欧美视频在线观看| 久久只精品国产| 国产精品8888| 久久青草免费| 亚洲天堂av在线免费观看| 久久久综合久久| 另类专区欧美蜜桃臀第一页| 九九99久久| 久草在线资源站资源站| 欧美丝袜自拍制服另类| 久久人妻少妇嫩草av无码专区| 久久视频在线| 国产国产精品人在线视| 亚洲精品久久久久avwww潮水| 国产精品毛片久久久久久| 国模杨依粉嫩蝴蝶150p| 国产一区二区三区亚洲| 欧美成人免费小视频| 亚洲图片欧美在线| 亚洲国产高清不卡| 爆乳熟妇一区二区三区霸乳| 亚洲人成网77777色在线播放 | 成人丝袜18视频在线观看| 免费看啪啪网站| 久久女人天堂| 最新69国产成人精品视频免费| 无码人妻丰满熟妇精品区| 成人av在线一区二区| 久久久久久久久久伊人| www.久久久.com| 播播国产欧美激情| 伊人色综合久久久| 欧美国产日产图区| 三级视频中文字幕| 日本电影一区二区| 国产精品视频午夜| 在线观看二区| 欧美日韩国产精选| xxxxx99| 日本特黄久久久高潮| 婷婷久久五月天| 国产激情欧美| 久久精品国产亚洲| 国产乱人乱偷精品视频a人人澡| 国产精品第四页| 日韩成人av免费| 一区二区电影| 成人免费视频网站入口| 国产理论在线| 亚洲人成五月天| 波多野结衣视频免费观看| 国产女同互慰高潮91漫画| 蜜臀视频一区二区三区| 日韩精品诱惑一区?区三区| 国产精品网红直播| caoporn免费在线视频| 欧美xxxxx牲另类人与| 久久精品国产亚洲AV无码麻豆| 成人激情午夜影院| 国产午夜伦鲁鲁| 精品久久视频| 91久久国产综合久久91精品网站 | 色97色成人| 91精品国产综合久久香蕉| av免费在线网站| 亚洲精品成人网| 午夜视频网站在线观看| 亚洲天堂久久久久久久| 理论片大全免费理伦片| 久久高清一区| 亚洲在线不卡| 哺乳挤奶一区二区三区免费看| 欧洲亚洲免费视频| 欧美成人hd| 日韩不卡中文字幕| 一级久久久久久久| 午夜欧美视频在线观看| 熟女俱乐部一区二区| 国内精品伊人久久久久影院对白| 亚洲中文字幕无码一区二区三区 | 国产成人在线视频播放| 国产淫片免费看| 91免费精品| 国内精品视频在线播放| 欧洲午夜精品| 欧美一级淫片播放口| 久久精品视频观看| 国产午夜精品麻豆| www.成人精品| 欧美亚洲国产bt| 免费在线看黄网址| 国产精品青草综合久久久久99| 国产精久久久久| 免费不卡在线视频| 欧美日韩国产精品激情在线播放| 91日韩在线| 欧美精品与人动性物交免费看| 国产精品1区| 国产精品福利片| 超碰在线最新网址| 日韩中文字幕欧美| 黄色片视频在线观看| 亚洲福利小视频| 国产黄色美女视频| 欧美视频三区在线播放| 日韩av在线播放观看| 亚洲品质自拍视频| 免费一级黄色录像| 91免费视频网址| 中文视频在线观看| 国产精品中文字幕欧美| www.亚洲高清| 噜噜噜久久亚洲精品国产品小说| 亚洲精品天堂成人片av在线播放| 成人一级毛片| 色一情一乱一伦一区二区三区丨| 日韩aaa久久蜜桃av| 动漫3d精品一区二区三区 | 久久爱一区二区| 国产日韩av一区| 91精品人妻一区二区三区| av资源站一区| 久久久久国产精品无码免费看| 国产精品中文字幕日韩精品| 亚洲18在线看污www麻豆| 免费在线观看日韩欧美| 国产熟人av一二三区| 亚洲一区二区免费看| 国产资源在线视频| 亚洲精选久久| www.av片| 中日韩男男gay无套| 农民人伦一区二区三区| 红桃视频欧美| 国产精品久久..4399| 亚洲精品1区2区| 国产黄色一级网站| 午夜在线播放视频欧美| 免费国产成人av| 日韩电影在线一区二区| 久久精品影视大全| 蜜桃av一区二区| 欧美日韩精品区别| 国产精品主播直播| 69xxx免费视频| 91在线视频观看| 91成年人网站| 日本一区二区动态图| 五月婷婷六月香| 椎名由奈av一区二区三区| 国内偷拍精品视频| 亚洲自拍偷拍欧美| 亚洲另类欧美日韩| 日本韩国欧美国产| 怡春院在线视频| 在线综合亚洲欧美在线视频| 国产白浆在线观看| 亚洲国内高清视频| 国产免费av在线| 日韩视频在线观看免费| 人人澡人人添人人爽一区二区| 欧美高清一级大片| av综合电影网站| 国产精品视频一区二区三区四 | 在线播放/欧美激情| 亚洲AV无码乱码国产精品牛牛| 亚洲精品wwwww| 成人免费一区二区三区视频网站| 中文字幕日韩视频| 黄网站在线观| 国产精品美腿一区在线看| 成人在线啊v| 久久综合伊人77777麻豆| 成人在线国产| 国产精品久久国产| 玖玖在线精品| 伊人成人免费视频| 久久久国产精华| 欧美日韩在线观看成人| 欧美午夜精品伦理| 国产女主播福利| 亚洲美女精品成人在线视频| 免费**毛片在线| 热re99久久精品国产66热| 国产午夜精品一区在线观看| 久久国产精品精品国产色婷婷| 图片小说视频色综合| 精品久久久久久久久久中文字幕| 免费观看在线综合| 菠萝菠萝蜜网站| 亚洲日本在线看| 波多野结衣在线观看一区| 精品sm捆绑视频| 在线观看免费网站黄| 2024亚洲男人天堂| 日本高清精品| 伊人久久大香线蕉精品| 先锋影音久久| 大桥未久恸哭の女教师| 亚洲人成精品久久久久| 波多野结衣网站| 亚洲精品美女免费| 国产丝袜在线观看视频| 国产一区二区在线免费视频| 免费成人结看片| 欧美一级片免费播放| 国产一区二区精品久久99| 人妻熟人中文字幕一区二区| 精品久久久久国产| 成人午夜免费福利| 欧美成人黄色小视频| 亚洲欧美一级| 亚洲午夜激情| 奇米888四色在线精品| 亚洲国产欧美视频| 亚洲国产视频直播| 国产极品999| 伦伦影院午夜日韩欧美限制| 福利一区二区| 天堂va久久久噜噜噜久久va| 国产精品腿扒开做爽爽爽挤奶网站| 可以看的av网址| 亚洲乱码精品一二三四区日韩在线 | 蜜桃成人在线| 欧美日韩一卡| 欧美日韩亚洲自拍| 国产日韩三级在线| 国产视频1区2区| 亚洲精品自产拍| 成人美女大片| 久久99精品久久久久久三级| 99xxxx成人网| 国产伦精品一区三区精东| 亚洲综合图片区| 欧美视频一二区| 7m第一福利500精品视频| 好吊妞视频这里有精品 | 99精品全国免费观看| 在线免费视频一区二区| 国产中文字幕在线观看| 国产精品成人观看视频国产奇米| 国产一区二区三区网| 手机看片福利盒子久久| 国产精品私房写真福利视频| 在线观看不卡的av| 波霸ol色综合久久| 日本一区二区三区电影免费观看 | 少妇av在线| 国产精品视频免费观看| 国产人成精品一区二区三| 黄色在线观看av| 在线看日本不卡| 精品孕妇一区二区三区| 亚洲一区制服诱惑| 日韩亚洲在线| 波多野吉衣中文字幕| 欧美日韩国产综合一区二区| 在线中文字幕电影| 精品欧美一区二区在线观看视频| 免费日韩视频| 很污很黄的网站| 精品国产一区久久| 日韩大尺度黄色| 椎名由奈jux491在线播放| 成人一级黄色片| 天天干天天插天天射| 久热99视频在线观看| 久久夜色电影| 在线观看国产一级片| 亚洲影视资源网| 国产三级在线免费| 亚洲伊人久久综合| 亚洲一区二区毛片| 潘金莲一级黄色片| 亚洲国产成人精品女人久久久| 自拍偷自拍亚洲精品被多人伦好爽| 亚洲欧洲精品一区| 成人看片黄a免费看在线| www.五月婷婷.com| 高清欧美性猛交xxxx黑人猛交| 亚洲小说图片| 国产亚洲色婷婷久久| 欧美午夜无遮挡| jizz性欧美10| 欧美一区视久久| 丰满白嫩尤物一区二区| 欧美三级网站在线观看| 久久乐国产精品| 日韩中文在线电影| 搡老熟女老女人一区二区| 91麻豆精品91久久久久久清纯| 91老司机福利在线| 最新av在线免费观看|