ICCV 2025 | HERMES:首個(gè)統(tǒng)一3D場景理解與生成的世界模型
本文第一作者周鑫、共同第一作者梁定康,均為華中科技大學(xué)博士生,導(dǎo)師為白翔教授。合作者包括華中科技大學(xué)涂思凡,曠視科技丁宜康,邁馳智行陳習(xí)武、譚飛楊,香港大學(xué)趙恒爽助理教授。

在復(fù)雜的城市場景中,HERMES 不僅能準(zhǔn)確預(yù)測未來三秒的車輛與環(huán)境動態(tài)(如紅圈中標(biāo)注的貨車),還能對當(dāng)前場景進(jìn)行深度理解和問答(如準(zhǔn)確識別出 “星巴克” 并描述路況)。

- 論文標(biāo)題:HERMES: A Unified Self-Driving World Model for Simultaneous 3D Scene Understanding and Generation
- 論文地址:https://arxiv.org/abs/2501.14729
- 代碼地址:https://github.com/LMD0311/HERMES
- 項(xiàng)目主頁:https://LMD0311.github.io/HERMES/
研究背景與動機(jī)
近年來,自動駕駛技術(shù)取得了令人矚目的進(jìn)展。要讓智能汽車安全高效地行駛在復(fù)雜的真實(shí)道路上,車輛必須具備兩大核心能力:對當(dāng)前環(huán)境的深刻理解(例如識別交通參與者、理解交通規(guī)則、推理場景語義)以及對未來場景的準(zhǔn)確預(yù)測(如預(yù)測行人、車輛的運(yùn)動,提前規(guī)避風(fēng)險(xiǎn))。
目前,學(xué)術(shù)界和工業(yè)界的主流方案往往將 “理解” 和 “生成” 分開處理:

- 世界模型(Driving World Model, DWM)側(cè)重于未來場景的生成與預(yù)測,但缺乏對當(dāng)前環(huán)境的細(xì)致語義理解,難以回答 “現(xiàn)在是什么情況?”、“駕駛員該如何決策?” 等問題。
- 大語言模型(LLM)及視覺 - 語言模型(VLM)則在場景理解、問答和描述方面表現(xiàn)優(yōu)異,但通常只能 “看懂”,卻難以 “想象” 未來場景的演化。
然而,現(xiàn)實(shí)中的自動駕駛決策,恰恰需要這兩種能力的深度融合。例如,車輛不僅要能描述 “前方有行人正在通過斑馬線”,還要能預(yù)測 “3 秒后這位行人將到達(dá)路中央,需提前減速”。
構(gòu)建這樣一個(gè)統(tǒng)一的模型面臨著諸多挑戰(zhàn):
首先,如何將多達(dá)六路的高分辨率環(huán)視圖像高效地輸入給有 token 長度限制的 LLM,并保持空間信息不失真?
其次,如何在一個(gè)模型內(nèi),讓 “理解” 和 “生成” 這兩個(gè)看似獨(dú)立的任務(wù)能夠相互促進(jìn),而非相互干擾?如何將強(qiáng)大的世界知識與前瞻性的場景預(yù)測無縫集成到一個(gè)統(tǒng)一的框架中,成為亟需突破的難點(diǎn)。
方法:HERMES 的統(tǒng)一框架
面對上述挑戰(zhàn),HERMES 提出了一個(gè)統(tǒng)一框架,其核心設(shè)計(jì)思想是通過一個(gè)共享的 LLM,同時(shí)驅(qū)動理解與生成兩大任務(wù)。
HERMES 的核心設(shè)計(jì)

鳥瞰圖(BEV)特征統(tǒng)一空間
HERMES 采用 Bird’s-Eye View(BEV,鳥瞰圖)作為統(tǒng)一的場景表達(dá)。它首先通過一個(gè) BEV Tokenizer 將六路環(huán)視圖像高效地編碼并投影到一個(gè)緊湊的俯視視角表征中。這種做法不僅有效解決了 LLM 輸入長度的限制,更重要的是保留了多視圖圖像之間的精確空間幾何關(guān)系和豐富的語義細(xì)節(jié)。無論后續(xù)任務(wù)是理解還是生成,模型都能在同一套高質(zhì)量的 BEV 特征空間中自由切換,為后續(xù)的統(tǒng)一處理奠定了堅(jiān)實(shí)基礎(chǔ)。
世界查詢與 “當(dāng)前 - 未來” 連接
為了打破理解與生成之間的壁壘,HERMES 引入了世界查詢(World Queries)機(jī)制。這是一組從 BEV 特征中通過自適應(yīng)采樣(如最大池化)提取出的、代表場景核心信息的可學(xué)習(xí) Token。其工作流程如下:
1. 知識注入:將 BEV 特征通過自適應(yīng)采樣(如最大池化)轉(zhuǎn)化為一組表達(dá)世界知識的查詢向量,再把世界查詢與 BEV 特征、用戶文本指令一同被送入 LLM。在 LLM 處理語言理解任務(wù)(如回答問題)的過程中,世界查詢通過因果注意力機(jī)制(causal attention)吸收和編碼了關(guān)于當(dāng)前場景的豐富世界知識和上下文信息。
2. 知識傳遞:經(jīng)過 LLM 處理后,這些富含知識的世界查詢被一個(gè) “當(dāng)前 - 未來” 連接模塊(Current to Future Link)所使用。該模塊通過交叉注意力將世界查詢中蘊(yùn)含的 “理解” 成果,有效地注入到對未來場景的預(yù)測中,引導(dǎo)模型生成未來多幀的 BEV 特征。
3. 統(tǒng)一輸出:最終,一個(gè)共享的渲染器(Shared Render)將當(dāng)前和未來的 BEV 特征解碼為 3D 點(diǎn)云序列,同時(shí)完成對當(dāng)前場景的理解和對未來場景的生成。
聯(lián)合訓(xùn)練與優(yōu)化
HERMES 的訓(xùn)練過程同樣體現(xiàn)了其統(tǒng)一性。模型通過兩個(gè)目標(biāo)進(jìn)行聯(lián)合優(yōu)化:
1. 語言建模損失:采用標(biāo)準(zhǔn)的 Next Token Prediction 損失函數(shù),優(yōu)化模型在場景理解、問答和描述任務(wù)上的能力。
2. 點(diǎn)云生成損失:采用 L1 損失函數(shù),監(jiān)督模型生成的當(dāng)前及未來點(diǎn)云與真實(shí)點(diǎn)云之間的差異,優(yōu)化生成精度。
通過這種端到端的聯(lián)合訓(xùn)練,HERMES 得以在兩個(gè)任務(wù)之間找到最佳平衡點(diǎn),實(shí)現(xiàn)性能的協(xié)同提升。
實(shí)驗(yàn)結(jié)果與可視化分析
多任務(wù)對比實(shí)驗(yàn)

HERMES 在 nuScenes、OmniDrive-nuScenes 數(shù)據(jù)集上,評測了場景理解和未來生成兩大任務(wù)。
- 在未來生成任務(wù)上,Chamfer Distance 顯著優(yōu)于 ViDAR,3 秒未來點(diǎn)云誤差降低 32.4%,僅用當(dāng)前幀即可實(shí)現(xiàn)更高精度的未來預(yù)測。與同類模型相比,HERMES 無需歷史序列,推理更高效,泛化能力更強(qiáng)。
- 在場景描述、視覺問答等理解任務(wù)上,HERMES 在 CIDEr、METEOR、ROUGE 等主流自然語言生成指標(biāo)上超越了 OmniDrive 等理解專用模型,CIDEr 提升 8%。
- HERMES 與 “分離式理解 + 生成” 模型(即簡單共享特征,但理解和生成模塊獨(dú)立)對比,生成精度提升顯著,理解能力無損,充分驗(yàn)證了統(tǒng)一建模的有效性與優(yōu)越性。
可視化
HERMES 不僅能夠生成時(shí)序連貫且?guī)缀尉_的未來點(diǎn)云,還能對駕駛場景的細(xì)節(jié)進(jìn)行精準(zhǔn)描述。無論是預(yù)測動態(tài)物體的移動,還是識別路邊的商家,HERMES 都展現(xiàn)出強(qiáng)大的綜合能力。更多可視化結(jié)果請?jiān)L問項(xiàng)目主頁。
圖片
總結(jié)與未來展望
HERMES 為自動駕駛世界模型提供了一個(gè)簡潔、有效且統(tǒng)一的新范式。它通過利用 BEV 表征和世界查詢,成功彌合了 3D 場景理解與未來生成之間的鴻溝,為開發(fā)更智能、更可靠的自動駕駛系統(tǒng)邁出了堅(jiān)實(shí)的一步。
未來,期望在此框架下進(jìn)一步探索更復(fù)雜的感知任務(wù),向著能夠全面認(rèn)知物理世界的通用駕駛大模型的目標(biāo)不斷邁進(jìn)。




































