打敗假動作,讓虛擬人學會‘真實行動’!高德、清華等提出人與環境交互新框架FantasyHSI

文章鏈接:https://arxiv.org/abs/2509.01232
項目地址:https://fantasy-amap.github.io/fantasy-hsi/
亮點直擊
- 設計了一種新穎的HSI框架,以視頻生成和無配對數據的多智能體系統為中心,將復雜的交互過程建模為一個動態有向圖,在此基礎上構建了一個協作的多智能體系統。
- 多智能體系統包括一個用于環境感知和高級路徑規劃的場景導航智能體,一個將遠景目標分解為原子動作的規劃智能體,和一個批評智能體,通過評估生成的動作與計劃路徑之間的偏差來建立閉環反饋機制,能夠動態修正由生成模型的隨機性引起的軌跡漂移,從而確保長期的邏輯一致性。
- 利用強化學習來訓練動作生成器,顯著減少了肢體扭曲和腳滑動等偽影,保持生成的一致性和物理性。
總結速覽
效果總覽

角色模型

解決的問題
- 適應性挑戰和成對數據集依賴:作為通用智能體,人類能夠執行各種復雜的交互任務,靈活地響應觀察到的環境信息,并快速適應新環境。然而,當前的方法與人類智能的這一水平仍然存在顯著差距。許多方法依賴于成對的人機環境數據,這通常需要在特定環境中收集大量匹配的動作捕捉和場景數據。因此,當面對未知的物體布局或動態變化時,它們缺乏適應性,難以涵蓋現實世界中豐富多樣的交互。
- 高級動作完成性挑戰:而一些方法嘗試利用視覺語言模型 (VLM) 的先驗知識來繞過對配對數據集的依賴或視頻擴散模型(VDM)以零樣本方式生成人與環境交互序列,這些序列通常僅限于諸如坐下或觸摸等低級簡單動作。它們不適用于高級任務,例如探索城堡。
- 生成動作的物理性挑戰:生成的動作還必須在物理上合理。任何視覺偽影,例如肢體變形或腳部滑動,都違反物理定律,嚴重損害結果的真實感和實際應用。
提出的方案
- 動態有向圖建模:將復雜的環境場景建模為動態有向圖。通過將基于 VLM 的多智能體與 VDM 相結合,FantasyHSI 實現了有效的環境感知和規劃,根據環境反饋調整人體運動,生成物理上合理的人體動作序列,并消除了對人-環境配對數據集的依賴。
- 多智能體系統:該系統包含一個用于環境感知和理解的場景導航智能體,以及一個執行高級任務分解的規劃智能體,將長期目標分解為原始動作。至關重要的是,為了解決生成模型固有的隨機性,我們引入了一個評判智能體來形成閉環反饋回路,量化生成動作與規劃軌跡之間的差異,從而能夠動態校正偏離的節點狀態。這種協同多智能體架構將感知、規劃和校正統一起來,從而解決了由生成隨機性引起的軌跡漂移問題,并確保了在長期交互中持續的邏輯一致性和物理可行性。
- 強化學習優化生成的物理性:使用強化學習優化VDM設計了一個可控的、物理增強的動作生成器,這顯著提高了生成動作的物理真實感。
達到的效果
- 可解釋性:提出了一種使用動態有向圖進行長遠人與環境交互的新方法,為感知、規劃和行為細化建立了可解釋的基礎。
- 多智能體協作:開發了一個協作多智能體系統,該系統集成了環境感知、路徑規劃和閉環校正,以糾正由生成模型固有的隨機性引起的動作偏差。
- 物理性強化:通過使用強化學習優化 VDM 設計了一個可控的、物理增強的動作生成器,這顯著提高了生成動作的物理真實感。
- 實驗驗證:在泛化能力、長期任務完成能力和物理真實感方面顯著優于現有方法。
方法
給定 3D 場景和高級指令,首先將任務形式化為動態有向圖,然后通過基于 VLM 的多智能體進行任務分解、規劃、回溯和修正,并采用強化學習來增強圖中每條邊的生成器的物理定律。
動態有向圖構建

關鍵節點定義

多智能體系統

通過場景導航智能體進行關鍵節點規劃


規劃智能體

有向路徑生成

通過評判智能體進行剪枝與回溯
由于視頻生成過程本身具有內在隨機性以及語言提示不可避免的模糊性,生成的動作序列有時可能導致虛擬人類偏離智能體規劃的路徑。例如,在生成“邊走邊欣賞風景”的視頻片段時,行進的距離與方向只能被粗略控制。此外,對于“困倦地伸懶腰”這類文本描述的動作,視頻生成模型可能會額外生成“打哈欠”等動作以表達人物的困意。這會導致在場景導航智能體與動作鏈規劃智能體構建的圖中引入新的節點。在某些情況下,這些額外動作和偏差增強了整體行為的表現力,但也可能造成計劃的干擾。 為處理這些因偏差和未規劃動作而生成的新節點,采用一個評判智能體,首先評估這些新節點,并在必要時進行修正。具體而言,對于每一段生成并捕捉到的動作片段,評判智能體會分析對應的渲染幀,評估動作質量,并對軌跡與姿態進行修正。
生成器的物理規律增強

實驗
實驗設置

設置評估:為系統性地評估所提出方法,實驗在兩種設置下進行:場景交互評估與場景感知及響應評估。
- 場景交互評估:評估模型在靜態環境中生成合理人-場景交互的能力,其中場景幾何結構在整個運動過程中保持不變。
- 場景感知與響應評估:評估模型對環境中變化和障礙物的感知與反應能力。在此設置中,將常見的現實世界障礙物(包括已見的如椅子、沙發、花瓶,以及新穎的如南瓜、巖石等)引入模型預規劃的路徑中。模型必須首先檢測到障礙物,并做出相應反應。該評估不僅測試模型對未見物體的魯棒性,更重要的是檢驗其如何感知環境并作出響應。
?
評估數據集:由于目前缺乏公開可用的人-場景交互(HSI)基準,系統性評估仍具挑戰性。例如,TRUMANS 僅發布了訓練數據集而無標準化測試集,其他工作如 LINGO 尚未公開其評估集。為此,構建了 SceneBench,一個包含多樣化3D環境的評估基準,旨在評估虛擬人在室內外場景中的具身行為表現。總計包含 20個不同的3D場景,其中10個室內、10個室外,涵蓋住宅空間(如臥室、牛棚、健身房)、自然景觀(如草原、河岸)、城市街道和鄉村農場等。
實驗分析
場景交互能力評估:如下圖4(a)所示,展示了 FantasyHSI 與基線方法在 SceneBench 上的場景交互能力的定性對比。結果表明,所提方法在多種環境中生成了生動且富有表現力的動作,能夠完成超越簡單行走或觸碰的多樣化高層人-場景交互任務。例如,該方法能夠生成高度抽象且類人的行為,如在垃圾堆旁扇鼻子、坐在窗臺等非典型位置,甚至如下圖1所示,能夠攀爬20米長的梯子到達屋頂,而所有其他方法在這些任務上均失敗。 定性分析顯示,TRUMANS 存在嚴重的訓練數據分布過擬合問題,在遇到新物體時默認僅生成坐姿動作。如圖4(a)第一列所示,該方法未能感知窗臺的實際高度,而是生成了與訓練數據中標準椅子高度一致的坐姿。此外,LINGO 在未見環境中難以準確感知表面邊界(如圖4(a)第三、四列所示),場景理解能力有限,導致嚴重穿透現象,無法為高度抽象的交互任務(第二列)生成合理動作。盡管 PedGen 能生成時間上連貫的行走序列,但其動作多樣性極低,缺乏執行有意義場景交互的能力。 如表1所示,該方法在CLIP Score和動作多樣性方面達到最高值,同時在穿透率(Penetration)和幀間相似度(FS)指標上最低,大多數指標均優于現有方法。這表明所提方法生成的動作在語義對齊性、物理合理性及多樣性方面表現更優。


場景感知與響應能力評估:在場景感知與響應能力評估中,圖4(b)展示了定性對比結果。在所有方法中,僅有該方法成功感知到障礙物(南瓜)并生成合理的應對行為,例如跨過障礙物。 盡管 TRUMANS 和 LINGO 能通過占據柵格檢測障礙物的存在,但其感知范圍局限于虛擬人周圍1米的立方體區域(以點云表示)。該有限的感知范圍截斷了周圍物體的完整點云,導致模型無法感知物體的完整結構,造成語義信息嚴重丟失。因此,LINGO 僅生成回頭一瞥的動作,而 TRUMANS 未能生成任何合理反應,既未成功避開也未與障礙物發生有效交互。相比之下,PedGen 的障礙物感知能力極差,直接穿過南瓜而無任何反應行為。 與視覺觀察一致,如表1所示,該方法在“障礙物穿透得分”(Penetration Obstacle Score)和“反應多樣性得分”(Reaction Divergence Score)上均優于所有對比方法,表明其具備更優的場景理解與響應能力。
多智能體框架消融實驗:為評估所提出的多智能體協同框架的有效性,進行了一項消融實驗:在該設置中,不引入任何智能體進行動作規劃或將復雜動作分解為動作單元鏈。此時,復雜動作直接通過視頻生成模型生成。如圖5第二行所示,在“跳上圍欄”的任務中,由于缺乏由多智能體提供的詳細動作規劃作為指令,模型未能生成期望的動作序列。 相比之下,所提方法將復雜運動分解為一系列動作單元。基于這一詳細計劃,虛擬人首先被指示用手扶住巖石以獲得支撐,隨后躍起并雙腳穩穩落在巖石頂部,從而成功完成整體動作。此外,如表1所示,CLIP-S 分數顯著下降表明,在缺少多智能體組件將主目標分解為清晰子任務的情況下,模型難以達成任務目標。該結果驗證了多智能體框架在任務分解與結構化規劃中的關鍵作用。
評判智能體消融實驗: 為評估評判智能體在方法中的有效性,進行了包含與不包含該組件的對比實驗。如下圖5所示,在未引入評判智能體所提供的評估與回溯機制時,模型無法糾正偏離預期路徑的行為,最終未能到達規劃的目標位置。而當引入評判智能體后,系統能夠成功引導虛擬人重新回到目標位置。 進一步地,如下表1所示,移除評判智能體導致 CLIP 分數顯著降低,表明模型在完成指定目標方面存在困難。同時,Diversity(多樣性)指標的上升主要源于生成了更多偏離主路徑的動作片段——這些片段在完整系統中本應被評判智能體識別、回溯并剪枝。這說明評判智能體不僅提升了任務完成度,還有效控制了無效行為的擴散。

強化學習消融實驗:為驗證采用DPO優化的視頻生成模型的有效性,使用監督微調(SFT)模型和原始預訓練模型在測試集上進行了對比實驗。如圖5和表1所示,盡管基礎模型和SFT方法展現出一定程度的指令跟隨能力,但其生成結果常出現違背物理規律的動態行為,包括角色穿透場景、肢體形變以及不自然的滑動運動等偽影。 相比之下,經過DPO優化的方法顯著增強了生成符合真實世界物理規律動態的能力,有效減少了上述問題,從而在視覺合理性和任務準確性方面取得了更優的整體表現。該結果證明了基于人類偏好反饋(DPO)對生成模型進行精細化調整在提升物理真實性方面的有效性。

消融結果

對比實驗

結論
本工作提出了FantasyHSI,一種用于在復雜三維環境中合成富有表現力且符合物理規律的人-場景交互的新穎框架。通過將人-場景交互重新建模為動態有向圖,構建了一個可解釋的結構,用于刻畫長周期交互過程。 該框架集成了基于視覺語言模型的多智能體協同系統,涵蓋場景理解、分層規劃與軌跡修正等能力。此外,采用基于強化學習的方法對視頻擴散模型進行優化,確保生成的動作符合物理規律,有效消除了足部滑動、身體與場景穿透等常見偽影。實驗結果表明,FantasyHSI 在面對未見場景和長周期任務時展現出優于現有方法的泛化能力,同時保持了高真實感的運動質量與邏輯一致性。
本文轉自AI生成未來 ,作者:AI生成未來

















