精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

景不動(dòng)人動(dòng),MLLM如何面對(duì)「移步換景」的真實(shí)世界?OST-Bench揭示多模態(tài)大模型在線時(shí)空理解短板

人工智能 新聞
OST-Bench 提出了一個(gè)在線的時(shí)空?qǐng)鼍袄斫饣鶞?zhǔn),通過對(duì)于多個(gè)多模態(tài)大模型的評(píng)估,揭示了當(dāng)前模型在面對(duì)「在線時(shí)空理解」任務(wù)時(shí)的深層短板,也為未來模型的發(fā)展指明了方向。

多模態(tài)大語(yǔ)言模型(MLLMs)已在視覺與語(yǔ)言模態(tài)融合的感知與推理任務(wù)中展現(xiàn)出強(qiáng)大能力。而上海人工智能實(shí)驗(yàn)室、上海交通大學(xué)、香港大學(xué)、香港中文大學(xué)的研究者們提出的的 OST-Bench, 則是從智能體探索場(chǎng)景的動(dòng)態(tài)在線視角出發(fā),為大模型的能力提出了新的挑戰(zhàn)。

對(duì)比離線 / 靜態(tài)的空間智能基準(zhǔn),OST-Bench 更精準(zhǔn)地反映了具身感知在真實(shí)世界中的核心挑戰(zhàn)。代碼和數(shù)據(jù)均已開源。

  • 論文鏈接:https://arxiv.org/abs/2507.07984
  • 項(xiàng)目主頁(yè):https://rbler1234.github.io/OSTBench.github.io/
  • Hugging Face 數(shù)據(jù)集:https://huggingface.co/datasets/rbler/OST-Bench
  • GitHub 代碼庫(kù):https://github.com/InternRobotics/OST-Bench

離線鳥瞰全景 VS 在線移步換景

在現(xiàn)實(shí)世界中,我們的視野范圍是有限的,我們的眼睛在某一時(shí)刻只能聚焦于一個(gè)局部的場(chǎng)景。隨著不斷的探索,移步換景,我們對(duì)于全局場(chǎng)景逐步地形成一個(gè)更為清晰的認(rèn)識(shí);與此同時(shí),基于當(dāng)前以及歷史的觀測(cè),我們也能感知自身的位置變化以及與之前見過的物體的位置關(guān)系 (「我離那把椅子越來越遠(yuǎn)」「棕色的枕頭現(xiàn)在在我的右后方」)。

和現(xiàn)實(shí)中的人類一樣,在真實(shí)世界部署的智能體通常無法一次性獲取全局環(huán)境,而是依賴連續(xù)輸入的局部觀測(cè),需要在不斷「移步換景」中完成在線感知、記憶維護(hù)與時(shí)空推理。這對(duì)導(dǎo)航、移動(dòng)操控等具身任務(wù)尤為關(guān)鍵:比如在導(dǎo)航中,模型需要在當(dāng)前時(shí)刻判斷「剛才見到的目標(biāo)現(xiàn)在在我左后方」,并據(jù)此決定行動(dòng)。

隨著多模態(tài)大模型在各類基準(zhǔn)上不斷刷新紀(jì)錄,人們開始關(guān)注它們?cè)谡鎸?shí)世界設(shè)定下的表現(xiàn)。在時(shí)間維度,希望模型具備在線理解能力;在空間維度,希望模型能夠基于 2d 觀測(cè)構(gòu)建 3d 空間布局認(rèn)知。

然而,以往的空間智能評(píng)測(cè)多為離線、固定輸入長(zhǎng)度,而涌現(xiàn)的一些在線視頻評(píng)測(cè)基準(zhǔn)往往只考察局部或語(yǔ)義層面的空間感知。OST-Bench 則更貼近真實(shí)世界場(chǎng)景,相比以往基準(zhǔn)具有兩大核心特點(diǎn):

  1. 在線設(shè)定:模型必須在不斷增長(zhǎng)的觀測(cè)中進(jìn)行實(shí)時(shí)感知、記憶與推理;
  2. 跨時(shí)空理解:需要同時(shí)結(jié)合當(dāng)前畫面與歷史信息,完成面向時(shí)間跨度的復(fù)雜空間推理。

視頻演示

正如下圖所示,與傳統(tǒng)離線空間基準(zhǔn)相比,在線設(shè)定對(duì)模型提出了更高、更接近真實(shí)世界的要求。

基準(zhǔn)介紹:「移步換景」為大模型帶來了哪些新難題?

傳統(tǒng)的靜態(tài)場(chǎng)景理解主要關(guān)注物體屬性及其靜態(tài)關(guān)系。而探索的智能體中不斷改變自身位置和視角,帶來持續(xù)更新的信息類型與更豐富的問題形態(tài)。研究團(tuán)隊(duì)據(jù)此將動(dòng)態(tài)場(chǎng)景理解劃分為三大信息類別:智能體空間狀態(tài)、智能體可見信息、智能體 - 物體空間關(guān)系。基于這三類信息,研究團(tuán)隊(duì)進(jìn)一步設(shè)計(jì)了 15 個(gè)子任務(wù),覆蓋判斷(JUD)、估算(EST)、計(jì)數(shù)(CNT)、時(shí)間定位(TEMP) 四類題型。基于規(guī)則生成 + 人工篩選,生成了基準(zhǔn)的 10k 條測(cè)試集數(shù)據(jù) (1.4k 個(gè)場(chǎng)景) 以及用于微調(diào)的 50k 條訓(xùn)練集數(shù)據(jù) (7k 個(gè)場(chǎng)景)。

實(shí)驗(yàn)結(jié)果:大模型的在線場(chǎng)景時(shí)空理解答卷

  1. 主流大模型陷入困境:當(dāng)前主流多模態(tài)大模型與人類存在顯著性能差距,暴露出跨時(shí)空信息推理的能力短板 (上面表 1 / 表 2)。模型的準(zhǔn)確率隨著探索步數(shù)的持續(xù)下降說明現(xiàn)有范式難以適應(yīng)長(zhǎng)時(shí)序的在線設(shè)定。
  2. 空間增強(qiáng)模型能做好嗎?結(jié)果可能沒那么樂觀。「空間建模」機(jī)制的模型(如 Spatial-MLLM、VLM-3R 和 LLaVA-3D),與其基座模型相比沒有預(yù)期的顯著提升,反而在部分任務(wù)上明顯退步,并伴隨指令遵循能力的下降。總體來看,空間增強(qiáng)模型雖然在特定數(shù)據(jù)分布中表現(xiàn)良好,但在更開放、更復(fù)雜的在線場(chǎng)景中仍難以穩(wěn)健發(fā)揮。這也進(jìn)一步體現(xiàn)體現(xiàn)了 OST-Bench 在揭示模型真實(shí)能力邊界方面的價(jià)值。

深入分析:大模型的表現(xiàn)診斷書

1.共性問題聚焦——大模型遇到難題更喜歡走捷徑?

通過錯(cuò)誤統(tǒng)計(jì)我們發(fā)現(xiàn)模型的犯錯(cuò)集中在推理步驟,而在對(duì)錯(cuò)誤案例的深入分析中,研究團(tuán)隊(duì)發(fā)現(xiàn)一個(gè)十分典型的共性現(xiàn)象:在面對(duì)復(fù)雜時(shí)空推理問題時(shí),對(duì)比主動(dòng)回溯歷史信息或檢索關(guān)鍵線索,模型更傾向于「就地猜測(cè)」—— 僅依據(jù)當(dāng)前片段中的有限信息做出草率推斷,而非進(jìn)行真正的時(shí)空整合推理。

研究團(tuán)隊(duì)將這種現(xiàn)象稱為「時(shí)空推理捷徑(Spatio-temporal Reasoning Shortcut)」:模型看似給出了合理答案,但推理過程并無充分依據(jù),往往只是 「表面合理」。 

綠 / 紅色代表模型推理正確 / 錯(cuò)誤的地方

2.跨視角推理測(cè)評(píng)子集——對(duì)于 MLLM 的專項(xiàng)補(bǔ)考

為了更精確地定位模型的能力邊界,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)針對(duì)性子集。和之前的測(cè)評(píng)不同,這次 (1) 按難度分級(jí):研究團(tuán)隊(duì)按是否需要多步的復(fù)雜推理 (如下圖) 以及是否提前提出關(guān)鍵幀,將問題劃分為四個(gè)難度等級(jí)。對(duì)比單步關(guān)聯(lián),多步空間關(guān)聯(lián)任務(wù)要求更強(qiáng)的推理能力;對(duì)比只有關(guān)鍵幀輸入,全視頻輸入則需在冗長(zhǎng)觀察中識(shí)別用于解答的關(guān)鍵幀。

(2) 補(bǔ)考的結(jié)果表明:復(fù)雜線索條件下的空間推理能力不足與長(zhǎng)期記憶檢索機(jī)制薄弱是當(dāng)前模型在在線時(shí)空理解任務(wù)中準(zhǔn)確率受限的兩大關(guān)鍵因素。

3.微調(diào)實(shí)驗(yàn)——提前「預(yù)習(xí)」在 OST-Bench 的幫助有多大?

為了評(píng)估模型能力的上限,研究團(tuán)隊(duì)基于來自 7000 個(gè)場(chǎng)景的 5 萬條問答數(shù)據(jù)對(duì)多種模型進(jìn)行了微調(diào)實(shí)驗(yàn)。所有模型的分?jǐn)?shù)均提升了超過 10%,證明「提前預(yù)習(xí)突擊」確實(shí)有效。然而,團(tuán)隊(duì)也發(fā)現(xiàn)真正涉及復(fù)雜時(shí)空推理的任務(wù)仍難以突破 50% 的準(zhǔn)確率,說明單純微調(diào)并不能觸及問題本質(zhì);此外,模型在部分題型上呈現(xiàn)出明顯的「背答案」傾向而非真正理解。微調(diào)后的模型還容易「變得不聽話」,無法穩(wěn)定遵守格式對(duì)自己的答案進(jìn)行解釋。

現(xiàn)象表明:微調(diào)可以帶來提升,但這種提升更像是「題海戰(zhàn)術(shù)式的熟練」,而非 「機(jī)制上的理解進(jìn)步」。在這門課上,沒有結(jié)構(gòu)和范式的突破,僅靠刷數(shù)據(jù)是無法真正拿高分的。要攻克 OST-Bench,必須依賴更強(qiáng)的模型設(shè)計(jì)或訓(xùn)練策略。

總結(jié)

OST-Bench 提出了一個(gè)在線的時(shí)空?qǐng)鼍袄斫饣鶞?zhǔn),通過對(duì)于多個(gè)多模態(tài)大模型的評(píng)估,揭示了當(dāng)前模型在面對(duì)「在線時(shí)空理解」任務(wù)時(shí)的深層短板,也為未來模型的發(fā)展指明了方向:突破復(fù)雜空間推理能力與長(zhǎng)期記憶機(jī)制,將是下一代多模態(tài)模型邁向真實(shí)智能世界的關(guān)鍵一步。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2025-07-29 08:40:00

模型AILLM

2025-05-21 08:47:00

2025-05-07 01:00:00

多模態(tài)大模型AI

2025-01-08 08:21:16

2025-11-05 08:51:33

2025-04-15 12:14:10

2025-10-15 14:02:29

AI模型自動(dòng)駕駛

2024-03-25 12:40:19

訓(xùn)練模型

2024-01-22 13:59:00

模型訓(xùn)練

2024-01-30 21:18:57

語(yǔ)言模型圖像序列機(jī)器人

2025-06-10 09:10:00

2018-07-04 23:43:31

百度王海峰

2025-06-16 14:39:56

模型開源框架

2025-03-13 09:47:29

2025-09-16 09:35:52

2025-06-10 09:04:00

2024-04-02 09:17:50

AI數(shù)據(jù)開源

2024-12-30 00:01:00

多模態(tài)大模型Python

2023-06-08 11:32:00

模型論文
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

久草在线网址| 99超碰在线观看| 91亚洲无吗| 精品成人av一区| 日韩欧美一区二区三区四区五区| ,亚洲人成毛片在线播放| 欧美私人啪啪vps| 亚洲片国产一区一级在线观看| 污网站免费在线| 久久国产精品黑丝| 国产欧美一区二区三区在线老狼| 91传媒视频免费| 无码人妻丰满熟妇精品区| 婷婷伊人综合| 亚洲色图25p| 风韵丰满熟妇啪啪区老熟熟女| 亚洲精品一级二级| 亚洲成人中文在线| 国产精品无码乱伦| 精品福利视频导航大全| 国产大片一区二区| 国产日韩欧美在线视频观看| 日本一区二区免费在线观看| 色综合久久一区二区三区| 亚洲国产一区二区三区在线观看| 国产免费又粗又猛又爽| 国产精品蜜芽在线观看| 亚洲私人黄色宅男| 色综合电影网| 水中色av综合| 成人不卡免费av| 91久久久久久久| 中文字幕一区二区三区四区免费看 | 亚洲七七久久综合桃花剧情介绍| 久久精品欧美日韩| 精品国产_亚洲人成在线| 国产熟女一区二区三区五月婷| 日日骚欧美日韩| 68精品国产免费久久久久久婷婷| 午夜国产福利一区二区| 久久久久国产精品| 色偷偷av一区二区三区| 日本二区在线观看| 久久av资源| 国产视频自拍一区| 亚洲av网址在线| 美女av一区| 精品美女被调教视频大全网站| 国产精品久久久久久久av福利| 欧亚一区二区| 在线看国产一区| 国产视频一区二区三区在线播放| a一区二区三区| 精品久久久视频| 人妻久久久一区二区三区| 2021中文字幕在线| 天天综合网 天天综合色| 和岳每晚弄的高潮嗷嗷叫视频| 日本无删减在线| 亚洲自拍偷拍欧美| 97中文字幕在线| 欧美24videosex性欧美| 亚洲制服丝袜av| 日韩 欧美 视频| 手机av在线| 日本道色综合久久| 中文字幕国产免费| 国产精品99久久免费| 日韩欧美一级在线播放| 在线观看成人动漫| 日韩aaa久久蜜桃av| 亚洲色图25p| 四虎884aa成人精品| 欧美一区二区三区久久精品茉莉花| www.xxxx欧美| 久操视频免费在线观看| 国产日韩亚洲| 国产精品视频白浆免费视频| 97免费观看视频| 成年人国产精品| 欧美激情导航| 免费观看成人高潮| 亚洲图片欧美一区| 欧美 日韩精品| 日日狠狠久久| 亚洲国产精品久久久久久| 日本少妇高潮喷水xxxxxxx| 日本久久精品| 久久久久久美女| 中文字幕 人妻熟女| 国产精品一区二区你懂的| 精品久久久久久一区| аⅴ资源新版在线天堂| 伊人色综合久久天天| 亚洲欧洲日产国码无码久久99| 91福利精品在线观看| 日韩久久久精品| 亚洲精品成人无码| 欧美视频在线观看| 国产精品视频大全| 日韩中文字幕观看| 国产农村妇女精品| 日本中文字幕在线视频观看| 一呦二呦三呦精品国产| 精品免费日韩av| 美女av免费看| 亚洲男女自偷自拍| 99国内精品久久久久久久软件| 久蕉在线视频| 精品成人av一区| 国产精品嫩草影视| 日韩免费特黄一二三区| 91国产视频在线| 国产乱叫456在线| 国产亚洲精品久| 日韩a∨精品日韩在线观看| 91麻豆精品| 在线精品国产欧美| 亚洲欧美精品一区二区三区| 国产精品亚洲一区二区三区在线| 欧美亚洲免费高清在线观看 | 日韩专区第一页| 亚洲欧美偷拍卡通变态| 99视频在线免费| 欧美色资源站| 欧美国产日韩视频| a级片在线视频| 国产精品入口麻豆九色| 熟女性饥渴一区二区三区| japanese色系久久精品| 美女福利精品视频| 91禁在线观看| 国产精品网站在线观看| 女人另类性混交zo| 伊人久久大香线蕉av不卡| 97在线视频观看| 少妇精品视频一区二区| 亚洲欧美一区二区三区久本道91| 鲁一鲁一鲁一鲁一av| 国模吧精品视频| 国产成人久久久精品一区| 污视频在线免费| 婷婷夜色潮精品综合在线| 三大队在线观看| 午夜天堂精品久久久久| 亚洲专区国产精品| 性欧美videos高清hd4k| 日韩欧美一区二区视频| 久操视频免费在线观看| 成人深夜视频在线观看| 国产www免费| 国产一区二区| 欧美黑人一级爽快片淫片高清| 国产日韩欧美一区二区东京热 | 亚洲欧美综合另类中字| 亚洲欧美一二三区| 国产精品欧美精品| 天天操精品视频| 欧美a级片一区| 国产精品免费一区二区三区在线观看| 欧美性爽视频| 日韩电影大片中文字幕| av网站中文字幕| 国产三级一区二区| 亚洲国产成人va在线观看麻豆| 久久国产影院| 亚洲综合国产精品| 波多一区二区| 亚洲热线99精品视频| 中文字幕乱码在线观看| 亚洲欧美日韩国产成人精品影院| 18深夜在线观看免费视频| 在线不卡亚洲| 日本不卡在线播放| 色999久久久精品人人澡69 | 欧美成人精品一区二区男人小说| 国产亚洲精品91在线| 在线视频 91| 亚洲国产一区二区视频| 国精产品一区一区三区免费视频 | 欧美又粗又大又爽| 日本精品人妻无码77777| 成人涩涩免费视频| 北条麻妃在线视频| 午夜日韩视频| 欧洲久久久久久| 久久九九精品视频| 欧美一级在线亚洲天堂| 1024免费在线视频| 99精品欧美一区二区三区综合在线| 久久福利一区二区| 久久av导航| av噜噜色噜噜久久| av成人免费| 久久久久久久成人| 91社区在线观看| 精品黑人一区二区三区久久| 免费看毛片网站| 一区二区三区中文字幕| 色婷婷av777| 国产精品18久久久久久久久久久久| 青青青免费在线| 99免费精品| 免费久久99精品国产自| 国产精品一区二区三区www| 欧美一级淫片丝袜脚交| 污污视频在线看| 少妇高潮 亚洲精品| 日韩大片b站免费观看直播| 欧美一区二区精品| 高潮无码精品色欲av午夜福利| 亚洲二区视频在线| 日本一级特级毛片视频| 久久精品人人做人人爽人人| jjzz黄色片| 狠狠色狠狠色合久久伊人| 白嫩少妇丰满一区二区| 伊人久久久大香线蕉综合直播| 亚洲国产精品www| 蜜桃一区二区| 国产亚洲欧美一区二区| 国产免费区一区二区三视频免费 | 91在线精品一区二区三区| 在线观看一区二区三区视频| 麻豆精品国产传媒mv男同| a在线视频观看| 亚洲国产婷婷| www.九色.com| 欧美日韩亚洲一区三区| 黄色一级片网址| 成人免费在线播放| 日韩电影在线播放| 免费短视频成人日韩| 精品久久精品久久| 国产色噜噜噜91在线精品| 亚洲xxx自由成熟| 精品国产鲁一鲁****| 91麻豆国产精品| **国产精品| 91精品在线看| 亚洲国产精品免费视频| 亚洲www视频| 曰本一区二区| 国产精品直播网红| 欧美成人高清视频在线观看| 国产精品视频1区| 成人在线视频免费| 国产日韩在线一区| 99久久这里有精品| 亚洲一区二区三区久久| 欧美日韩中出| 国产不卡一区二区三区在线观看| 中文字幕av一区二区三区四区| 96精品久久久久中文字幕| 亚洲精品黑牛一区二区三区| 官网99热精品| 国产精品任我爽爆在线播放| 国产精品免费在线播放| 亚洲区小说区图片区qvod按摩| 欧美一区国产一区| 日韩精品欧美| 日本美女爱爱视频| 国产精品分类| 久草青青在线观看| 奇米影视在线99精品| 蜜臀一区二区三区精品免费视频| 国产一区二区三区四区五区美女| 免费黄色在线播放| av高清不卡在线| x88av在线| 亚洲女人的天堂| 日韩精品乱码久久久久久| 日韩欧美亚洲一二三区| 久久久久久久久久一级| 欧美另类高清zo欧美| 精品人妻一区二区三区四区不卡 | 欧美理论电影在线| 亚洲成熟女性毛茸茸| 亚洲老头同性xxxxx| 91大神在线网站| 欧美日韩成人网| xxxxx性欧美特大| 91日本在线视频| 日本一道高清一区二区三区| 亚洲欧美日产图| 国内精品久久久久久久影视蜜臀 | 成人一区在线看| 91精品国自产在线| 一区二区三区在线高清| 久久久久久91亚洲精品中文字幕| 欧美三级视频在线播放| 国产自产一区二区| 中文字幕日本欧美| 不卡专区在线| 91久久夜色精品国产网站| 校园春色另类视频| 一区二区三区日韩视频| 亚洲永久在线| 天天久久综合网| 国产亚洲欧美激情| 国产亚洲第一页| 欧美日韩一二区| 亚欧在线观看视频| 久久精品视频在线观看| 欧美美女日韩| 国产a一区二区| 亚洲一区 二区 三区| 成人性生生活性生交12| bt7086福利一区国产| 国产一区二区三区在线视频观看| 丁香五六月婷婷久久激情| 国产视频一区二区三| 亚洲图片欧美午夜| 末成年女av片一区二区下载| 亚洲一区二区免费| 精品视频日韩| 日韩av在线综合| www.欧美亚洲| 久久婷婷国产麻豆91| 欧美区在线观看| 成人资源www网在线最新版| 欧美一级大片在线观看| 给我免费播放日韩视频| 一区二区三区三区在线| 日韩国产欧美视频| 人妻精品久久久久中文字幕| 亚洲综合精品自拍| 亚洲h视频在线观看| 久久最新资源网| 亚洲三级在线| 在线观看日韩羞羞视频| 免费日本视频一区| 亚洲日本精品视频| 日韩欧美在线免费| 日产精品久久久久久久性色| 91sa在线看| 西野翔中文久久精品字幕| 欧日韩免费视频| 99热在这里有精品免费| 日本在线视频免费观看| 亚洲缚视频在线观看| segui88久久综合| 国产一区福利视频| 国产亚洲在线| 久久丫精品国产亚洲av不卡| 亚洲v中文字幕| 天天操天天操天天操| 91国内免费在线视频| 日本在线中文字幕一区| 中文字幕乱码人妻综合二区三区 | 精品一区二区成人精品| 免费黄色国产视频| 欧美一区三区四区| 91在线中文| 成人免费观看网站| 激情综合激情| 性少妇bbw张开| 欧美在线不卡一区| 精品麻豆一区二区三区| 国产精品国产精品国产专区蜜臀ah | 国产精品第六页| 中文字幕av日韩| 伊人久久大香伊蕉在人线观看热v 伊人久久大香线蕉综合影院首页 伊人久久大香 | 亚洲欧洲一区二区在线观看| 韩国欧美一区二区| 久久国产免费观看| 亚洲男人av在线| 国产成人a视频高清在线观看| 日本免费在线视频观看| 粉嫩欧美一区二区三区高清影视| 久久精品国产av一区二区三区| 亚洲国模精品私拍| 国产精品久久久久77777丨| 只有这里有精品| 99视频国产精品| 亚洲图片中文字幕| 久久久久女教师免费一区| 最新国产一区| 日本55丰满熟妇厨房伦| 欧美日韩久久久久| 日本在线观看网站| 国产精品二区在线观看| 久久综合狠狠| 日韩黄色免费观看| 亚洲区一区二区| 一区二区三区亚洲变态调教大结局 | 四虎影院观看视频在线观看| 久久青青草综合| 狠狠狠色丁香婷婷综合久久五月| 国产一级视频在线播放| 中国日韩欧美久久久久久久久| 亚洲日本一区二区三区在线| 丁香啪啪综合成人亚洲| 亚洲久本草在线中文字幕| 蜜桃视频在线播放| 懂色一区二区三区av片| 另类欧美日韩国产在线| 日韩成人av毛片| 久久亚洲国产精品| 国产影视精品一区二区三区|