ACMMM 2025 | 北大團隊提出 InteractMove:3D場景中人與可移動物體交互動作生成新框架
該論文的第一作者和通訊作者均來自北京大學王選計算機研究所,第一作者為博士生蔡鑫豪,通訊作者為博士生導師劉洋。團隊近年來在 TPAMI、IJCV、CVPR、ICML 等頂會上有多項代表性成果發表,多次榮獲國內外多模態理解與生成競賽冠軍,和國內外知名高校、科研機構廣泛開展合作。
本文主要介紹來自該團隊的最新論文 InteractMove:Text-Controlled Human-Object Interaction Generation in 3D Scenes with Movable Objects。
該研究首次提出了含可移動物體的 3D 場景中,基于文本的人 - 物交互生成任務,并構建了大規模數據集與創新方法框架,在多個評測指標上均取得了領先效果。現有的人 - 場景交互數據集存在交互類別不足的問題,并且通常只考慮與靜態物體的交互。隨著可移動物體的引入,任務變得更具挑戰性:模型不僅需要準確識別目標交互物體,還要學會與不同類別和尺寸的物體交互,并避免物體與場景之間的碰撞。
為應對這些挑戰,該研究提出了一個全新的方法框架:首先利用三維視覺定位模型確定目標交互物體;然后提出手 - 物聯合可達圖學習,用于預測不同手部關節與物體部位的接觸區域,從而實現多樣化物體的精確抓取與操作;最后,通過局部場景建模與碰撞約束優化交互,確保動作物理合理,避免物體與場景之間的穿模。
大量實驗表明,該方法在生成物理合理且符合文本描述的交互方面優于現有方法。
目前該研究已被 ACMMM 2025 正式接收,相關代碼與模型已全部開源。

- 論文標題:InteractMove:Text-Controlled Human-Object Interaction Generation in 3D Scenes with Movable Objects
- 論文鏈接:https://arxiv.org/abs/2509.23612
- 代碼鏈接:https://github.com/Cxhcmhhh/InteractMove
- 項目主頁:https://cxhcmhhh.github.io/InteractMoveProject/
打破現有瓶頸:交互單一與物體靜態的局限
在三維場景中生成人體動作是一個快速發展的研究方向,在虛擬現實(VR)、增強現實(AR)、電子游戲等應用中具有重要意義。近年來,基于自然語言描述的人體動作生成引起了越來越多的關注。然而,大多數已有工作要么關注語言驅動的 “人與孤立物體” 的交互,忽略了周圍場景的影響;要么研究 “人與場景” 的交互,但沒有顯式考慮可移動物體。這導致生成的交互在表現力和實際應用性上受到限制,因為現實世界中的物體往往嵌入在復雜環境中,并具有多樣的可達情況。
為彌補這一空白,我們提出了一項新任務:在三維場景中基于文本驅動的可移動物體交互生成。然而,在現有的人 - 場景交互數據集中,交互類別有限,可交互的物體往往是固定、不可移動的,如床和沙發。此外,從零開始人工采集一個大規模、高質量的三維數據集不僅困難,而且成本高昂。
InteractMove 數據集:可移動物體的語言驅動交互
為解決這一難題,研究團隊提出了 InteractMove 數據集。該數據集通過自動對齊現有交互動作與三維掃描場景,不僅避免了從零采集的高昂成本,還具備以下三大亮點:
1)多目標與干擾:場景中包含多個可交互物體及同類干擾項,模型必須基于語言理解與空間推理才能選中正確物體;
2)多樣交互類型:覆蓋 71 類可移動物體和 21 種交互方式,既包括 “一手拿起蘋果”,也包括 “雙手抬起桌子” 等復雜操作;
3)物理合理性:動作與物體軌跡經過嚴格篩選,避免 “穿模” 等不符合物理規律的現象。
為了實現這三點,研究團隊將數據合成劃分為三個階段:
1)可移動目標物體放置:針對每種待合成的物體,在場景中搜索適當的表面用于放置該物體。例如,將 “蘋果” 放置在桌子表面,將 “包” 放在沙發表面或地面等。
2)物理一致的動作對齊:為了保證交互動作在合成入場景后,能夠在保持物理合理性的前提下符合場景限制,該方法首先強制對齊手部關節高度與放置后的物體高度一致,再利用擴散模型的 “重繪” 功能,基于新的手部位置對剩余部分人體位姿進行修正。
3)基于物理規律的場景感知篩選:為了保證人體和物體的移動軌跡符合場景限制,本方法基于以下設定進行過濾:a) 要求人與物體始終在場景范圍內;b) 要求足部與地面保持合理接觸;c) 要求物體與人體移動軌跡不與場景發生碰撞。

圖 1:數據集的部分可視化結果。包含對多樣物體的不同交互;場景中存在的同類干擾項;復雜環境下的物理合理交互。
創新方法:三階段的交互生成框架

圖 2:完整的方法概覽。
在方法層面,團隊提出的全新框架由三大核心模塊組成:
第一步,3D 視覺定位。
模型首先利用先進的三維視覺定位技術,理解文本描述,并在復雜場景中精準定位目標物體。例如,當輸入為 “拿起床邊桌子上的蘋果” 時,系統能在多個同類物體中識別出正確目標。
第二步,手 - 物可達圖學習。
為了處理物體大小、形狀差異帶來的交互多樣性,研究者設計了 “手 - 物可達圖” 模塊,對手部關節與物體表面之間的細粒度接觸關系進行建模。首先將物體表面與手部關節關鍵點的成對距離歸一化后定義為可達圖,顯式地建模交互中的時空關鍵信息。這使得模型能夠生成符合語義的動作策略:拿帶把手的杯子時會抓住把手,而沒有把手的杯子則會握住杯身;輕物體可單手操作,而重物體則需雙手配合。
第三步,碰撞感知動作生成。
交互動作不僅要符合語義,還需遵守物理規律。為此,研究團隊提出了基于局部場景建模的動作生成模塊,將目標物體周圍環境體素化為占用網格,并結合碰撞感知損失函數,在生成過程中實時約束動作與物體的相對軌跡,避免人、物體與場景之間的交叉和穿模,保證動作自然合理。
這種 “定位 — 可達圖 — 碰撞感知” 的三步走設計,使模型不僅能正確理解文本,還能生成符合物理規律、語義精準且多樣化的人 - 物交互。
實驗結果:全面超越現有方法

表 1:InteractMove 的結果。粗體表示最優表現。
在新提出的 InteractMove 數據集上,團隊的方法在交互準確性、物理合理性、多樣性以及碰撞避免等所有指標上均取得了最佳成績。其中,多樣性相較最優結果提升了 18%,物理合理性提升了 14%。在跨數據集的實驗中(如 TRUMANS),該方法依然保持領先,證明了其良好的泛化能力。

表 2:對方法各個組件的消融實驗。

表 3:對所使用的各個物理損失的消融實驗。
該方法還進行了完備的消融實驗,證明了所設計使用的各個模塊的有效性和必要性。
定位模塊:去掉 3D 視覺定位后,模型無法準確找到交互物體,目標距離指標顯著下降。
手 - 物可達圖模塊:去掉該模塊后,動作缺乏精細的手部與物體接觸關系,物理合理性明顯下降。局部場景建模模塊:若不建模局部環境,動作容易與場景發生穿模,碰撞率大幅上升。碰撞感知損失:接觸損失能提升手部與物體的貼合度,而穿模損失能有效減少穿透現象;推理階段引入的額外碰撞約束則進一步提高了無碰撞率。
可視化與定性結果分析:更貼近真實世界的交互體驗
除了量化評估,研究團隊還對方法的可視化效果進行了展示與分析。結果表明,InteractMove 能夠生成符合語義、自然連貫且物理合理的人 - 物交互動作。例如:

圖 3:使用提示 “一個人端沙發旁桌上的碗來喝” 生成的結果。
在指令 “一個人端沙發旁桌上的碗來喝” 下,模型生成的動作呈現出自然的低頭、伸手、抓取過程,并能夠協調雙手動作,避免與周圍場景發生穿模或不合理的交互,生成的動作不僅符合語義,還在手部接觸點和物體運動軌跡上保持了高一致性。
InteractMove 在可視化效果中表現優秀:交互自然:動作銜接流暢,手 - 物接觸符合人類常識,不會出現僵硬或不連貫的姿態;物理合理:物體運動軌跡與人體動作相協調,幾乎無穿透或懸空等不合理現象。
定性結果進一步證明,InteractMove 不僅在數值指標上領先,而且在視覺效果上也更加貼近真實世界的交互體驗。
總結:跨越靜態物體限制的人 - 物交互新框架
本次在 ACM Multimedia 2025 發布的 InteractMove 工作,不僅首次提出了文本驅動的可移動物體交互生成新任務,還構建了目前規模最大的高質量數據集,并提出了融合目標定位 — 手物可達圖 — 碰撞感知生成 的創新方法框架。實驗結果表明,該方法在多個核心指標上全面超越現有方案,具備強大的跨場景能力。
InteractMove 的提出為虛擬現實、增強現實、數字人和機器人等應用場景奠定了堅實的基礎,讓 AI 在虛擬世界中實現更自然、更智能的人 - 物交互成為可能。未來,他們還將探索更大規模、更復雜場景下的人機協同和通用交互智能體的構建。




































