景不動(dòng)人動(dòng)，MLLM如何面對(duì)「移步換景」的真實(shí)世界？OST-Bench揭示多模態(tài)大模型在線時(shí)空理解短板

2025-10-15 09:08:27

多模態(tài)大語(yǔ)言模型（MLLMs）已在視覺與語(yǔ)言模態(tài)融合的感知與推理任務(wù)中展現(xiàn)出強(qiáng)大能力。而上海人工智能實(shí)驗(yàn)室、上海交通大學(xué)、香港大學(xué)、香港中文大學(xué)的研究者們提出的的 OST-Bench, 則是從智能體探索場(chǎng)景的動(dòng)態(tài)在線視角出發(fā)，為大模型的能力提出了新的挑戰(zhàn)。

對(duì)比離線 / 靜態(tài)的空間智能基準(zhǔn)，OST-Bench 更精準(zhǔn)地反映了具身感知在真實(shí)世界中的核心挑戰(zhàn)。代碼和數(shù)據(jù)均已開源。

論文鏈接：https://arxiv.org/abs/2507.07984
項(xiàng)目主頁(yè)：https://rbler1234.github.io/OSTBench.github.io/
Hugging Face 數(shù)據(jù)集：https://huggingface.co/datasets/rbler/OST-Bench
GitHub 代碼庫(kù)：https://github.com/InternRobotics/OST-Bench

離線鳥瞰全景 VS 在線移步換景

在現(xiàn)實(shí)世界中，我們的視野范圍是有限的，我們的眼睛在某一時(shí)刻只能聚焦于一個(gè)局部的場(chǎng)景。隨著不斷的探索，移步換景，我們對(duì)于全局場(chǎng)景逐步地形成一個(gè)更為清晰的認(rèn)識(shí)；與此同時(shí)，基于當(dāng)前以及歷史的觀測(cè)，我們也能感知自身的位置變化以及與之前見過的物體的位置關(guān)系 (「我離那把椅子越來越遠(yuǎn)」「棕色的枕頭現(xiàn)在在我的右后方」)。

和現(xiàn)實(shí)中的人類一樣，在真實(shí)世界部署的智能體通常無法一次性獲取全局環(huán)境，而是依賴連續(xù)輸入的局部觀測(cè)，需要在不斷「移步換景」中完成在線感知、記憶維護(hù)與時(shí)空推理。這對(duì)導(dǎo)航、移動(dòng)操控等具身任務(wù)尤為關(guān)鍵：比如在導(dǎo)航中，模型需要在當(dāng)前時(shí)刻判斷「剛才見到的目標(biāo)現(xiàn)在在我左后方」，并據(jù)此決定行動(dòng)。

隨著多模態(tài)大模型在各類基準(zhǔn)上不斷刷新紀(jì)錄，人們開始關(guān)注它們?cè)谡鎸?shí)世界設(shè)定下的表現(xiàn)。在時(shí)間維度，希望模型具備在線理解能力；在空間維度，希望模型能夠基于 2d 觀測(cè)構(gòu)建 3d 空間布局認(rèn)知。

然而，以往的空間智能評(píng)測(cè)多為離線、固定輸入長(zhǎng)度，而涌現(xiàn)的一些在線視頻評(píng)測(cè)基準(zhǔn)往往只考察局部或語(yǔ)義層面的空間感知。OST-Bench 則更貼近真實(shí)世界場(chǎng)景，相比以往基準(zhǔn)具有兩大核心特點(diǎn)：

在線設(shè)定：模型必須在不斷增長(zhǎng)的觀測(cè)中進(jìn)行實(shí)時(shí)感知、記憶與推理；
跨時(shí)空理解：需要同時(shí)結(jié)合當(dāng)前畫面與歷史信息，完成面向時(shí)間跨度的復(fù)雜空間推理。

視頻演示

正如下圖所示，與傳統(tǒng)離線空間基準(zhǔn)相比，在線設(shè)定對(duì)模型提出了更高、更接近真實(shí)世界的要求。

基準(zhǔn)介紹：「移步換景」為大模型帶來了哪些新難題？

傳統(tǒng)的靜態(tài)場(chǎng)景理解主要關(guān)注物體屬性及其靜態(tài)關(guān)系。而探索的智能體中不斷改變自身位置和視角，帶來持續(xù)更新的信息類型與更豐富的問題形態(tài)。研究團(tuán)隊(duì)據(jù)此將動(dòng)態(tài)場(chǎng)景理解劃分為三大信息類別：智能體空間狀態(tài)、智能體可見信息、智能體 - 物體空間關(guān)系。基于這三類信息，研究團(tuán)隊(duì)進(jìn)一步設(shè)計(jì)了 15 個(gè)子任務(wù)，覆蓋判斷（JUD）、估算（EST）、計(jì)數(shù)（CNT）、時(shí)間定位（TEMP）四類題型。基于規(guī)則生成 + 人工篩選，生成了基準(zhǔn)的 10k 條測(cè)試集數(shù)據(jù) (1.4k 個(gè)場(chǎng)景) 以及用于微調(diào)的 50k 條訓(xùn)練集數(shù)據(jù) (7k 個(gè)場(chǎng)景)。

實(shí)驗(yàn)結(jié)果：大模型的在線場(chǎng)景時(shí)空理解答卷

主流大模型陷入困境：當(dāng)前主流多模態(tài)大模型與人類存在顯著性能差距，暴露出跨時(shí)空信息推理的能力短板 (上面表 1 / 表 2)。模型的準(zhǔn)確率隨著探索步數(shù)的持續(xù)下降說明現(xiàn)有范式難以適應(yīng)長(zhǎng)時(shí)序的在線設(shè)定。
空間增強(qiáng)模型能做好嗎？結(jié)果可能沒那么樂觀。「空間建模」機(jī)制的模型（如 Spatial-MLLM、VLM-3R 和 LLaVA-3D），與其基座模型相比沒有預(yù)期的顯著提升，反而在部分任務(wù)上明顯退步，并伴隨指令遵循能力的下降。總體來看，空間增強(qiáng)模型雖然在特定數(shù)據(jù)分布中表現(xiàn)良好，但在更開放、更復(fù)雜的在線場(chǎng)景中仍難以穩(wěn)健發(fā)揮。這也進(jìn)一步體現(xiàn)體現(xiàn)了 OST-Bench 在揭示模型真實(shí)能力邊界方面的價(jià)值。

深入分析：大模型的表現(xiàn)診斷書

1.共性問題聚焦——大模型遇到難題更喜歡走捷徑？

通過錯(cuò)誤統(tǒng)計(jì)我們發(fā)現(xiàn)模型的犯錯(cuò)集中在推理步驟，而在對(duì)錯(cuò)誤案例的深入分析中，研究團(tuán)隊(duì)發(fā)現(xiàn)一個(gè)十分典型的共性現(xiàn)象：在面對(duì)復(fù)雜時(shí)空推理問題時(shí)，對(duì)比主動(dòng)回溯歷史信息或檢索關(guān)鍵線索，模型更傾向于「就地猜測(cè)」—— 僅依據(jù)當(dāng)前片段中的有限信息做出草率推斷，而非進(jìn)行真正的時(shí)空整合推理。

研究團(tuán)隊(duì)將這種現(xiàn)象稱為「時(shí)空推理捷徑（Spatio-temporal Reasoning Shortcut）」：模型看似給出了合理答案，但推理過程并無充分依據(jù)，往往只是「表面合理」。

綠 / 紅色代表模型推理正確 / 錯(cuò)誤的地方

2.跨視角推理測(cè)評(píng)子集——對(duì)于 MLLM 的專項(xiàng)補(bǔ)考

為了更精確地定位模型的能力邊界，研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)針對(duì)性子集。和之前的測(cè)評(píng)不同，這次 (1) 按難度分級(jí)：研究團(tuán)隊(duì)按是否需要多步的復(fù)雜推理 (如下圖) 以及是否提前提出關(guān)鍵幀，將問題劃分為四個(gè)難度等級(jí)。對(duì)比單步關(guān)聯(lián)，多步空間關(guān)聯(lián)任務(wù)要求更強(qiáng)的推理能力；對(duì)比只有關(guān)鍵幀輸入，全視頻輸入則需在冗長(zhǎng)觀察中識(shí)別用于解答的關(guān)鍵幀。

(2) 補(bǔ)考的結(jié)果表明：復(fù)雜線索條件下的空間推理能力不足與長(zhǎng)期記憶檢索機(jī)制薄弱是當(dāng)前模型在在線時(shí)空理解任務(wù)中準(zhǔn)確率受限的兩大關(guān)鍵因素。

3.微調(diào)實(shí)驗(yàn)——提前「預(yù)習(xí)」在 OST-Bench 的幫助有多大？

為了評(píng)估模型能力的上限，研究團(tuán)隊(duì)基于來自 7000 個(gè)場(chǎng)景的 5 萬條問答數(shù)據(jù)對(duì)多種模型進(jìn)行了微調(diào)實(shí)驗(yàn)。所有模型的分?jǐn)?shù)均提升了超過 10%，證明「提前預(yù)習(xí)突擊」確實(shí)有效。然而，團(tuán)隊(duì)也發(fā)現(xiàn)真正涉及復(fù)雜時(shí)空推理的任務(wù)仍難以突破 50% 的準(zhǔn)確率，說明單純微調(diào)并不能觸及問題本質(zhì)；此外，模型在部分題型上呈現(xiàn)出明顯的「背答案」傾向而非真正理解。微調(diào)后的模型還容易「變得不聽話」，無法穩(wěn)定遵守格式對(duì)自己的答案進(jìn)行解釋。

現(xiàn)象表明：微調(diào)可以帶來提升，但這種提升更像是「題海戰(zhàn)術(shù)式的熟練」，而非「機(jī)制上的理解進(jìn)步」。在這門課上，沒有結(jié)構(gòu)和范式的突破，僅靠刷數(shù)據(jù)是無法真正拿高分的。要攻克 OST-Bench，必須依賴更強(qiáng)的模型設(shè)計(jì)或訓(xùn)練策略。

總結(jié)

OST-Bench 提出了一個(gè)在線的時(shí)空?qǐng)鼍袄斫饣鶞?zhǔn)，通過對(duì)于多個(gè)多模態(tài)大模型的評(píng)估，揭示了當(dāng)前模型在面對(duì)「在線時(shí)空理解」任務(wù)時(shí)的深層短板，也為未來模型的發(fā)展指明了方向：突破復(fù)雜空間推理能力與長(zhǎng)期記憶機(jī)制，將是下一代多模態(tài)模型邁向真實(shí)智能世界的關(guān)鍵一步。

責(zé)任編輯：張燕妮來源：機(jī)器之心

AI 大模型智能體