訓練數據爆減至1/1200!清華&生數發布國產視頻具身基座模型,高效泛化復雜物理操作達SOTA水平
機器人能通過普通視頻來學會實際物理操作了!
來看效果,對于所有沒見過的物品,它能精準識別并按照指令完成動作。
比如清理桌面垃圾,或者是從零食筐里找到人類想要的糖果。

△Vidar真實場景演示視頻
這就是清華大學與生數科技最新聯合研發的Vidar模型,首次讓通用視頻大模型長出了“手腳”,通過少樣本泛化能力,實現從虛擬的Dream World到真實世界Real World物理執行的關鍵跨越。
它在互聯網級視頻數據預訓練的基座模型Vidu上,使用百萬異質機器人視頻數據進行再訓練。
僅用20分鐘機器人真機數據,即可快速泛化到新的機器人本體,所需數據量約為行業領先的RDT的八十分之一,π0.5的一千兩百分之一,大幅降低了在機器人上大規模泛化的數據門檻。

△具身數據金字塔;不同方法所需的真機人類操作數據量
突破跨本體泛化困境
眾所周知, 當前主流視覺-語言-動作(VLA)模型需要海量的多模態數據進行預訓練。這種方法高度依賴大量優質數據,并且這些數據往往只適配特定的機器人本體及其采集的特定任務集。此外,數據收集過程費時費力、成本高昂。這帶來了動作數據稀缺和機器人本體不統一兩大難題。
清華大學和生數科技研發團隊解構了具身任務的執行范式,將其劃分為上游視頻預測和下游動作執行的方法。
上游預測部分,通過Vidu強大的基座能力和具身視頻預訓練,新的視頻基座模型獲得了少樣本泛化到新的機器人本體的能力;下游執行部分,逆動力學模型(IDM)可以將視頻翻譯為對應的機械臂動作,從而實現了視覺-語言模態和動作模態的完全解耦。下面將逐一分析這兩部分對應的技術細節。
Vidar整體架構如下:視頻擴散模型預測完成指定任務的視頻,經過逆動力學模型解碼為機械臂動作。

視頻擴散模型:“預訓練+微調”下的精準控制

為讓模型更“見多識廣”,實現多類型機器人操作的深度融合,靈活適應各種物理環境,清華大學和生數團隊創新性地提出了基于統一觀測空間的具身預訓練方法。這套方法巧妙運用統一觀測空間、海量具身數據預訓練和少量目標機器人微調,實現了視頻意義上的精準控制,主要方法如下:
1、統一觀測空間:通過多視角視頻拼接,將不同機器人操作時的多視角畫面,巧妙地融合成統一分辨率的“全景圖”,同時將本體信息、攝像頭信息與任務標注一并打包整合,為海量互聯網數據提供了共同對話的基礎,實現了真正的多維度融合。
2、百萬具身數據預訓練:以經過互聯網規模預訓練的Vidu2.0模型為基礎,進一步引入75萬條涵蓋各類雙臂機器人操作的數據,持續深度訓練,成功煉就了具身視頻基座模型。該模型不僅將動作、環境和任務多重先驗融會貫通,更練就了一身強大的通用本領與泛化能力。
3、20分鐘目標機器人微調:為使Vidar能夠適配從未見過的機器人類型,研究團隊專門收集了目標機器人20分鐘的操作數據集,對模型進行專屬微調。通過這一創新訓練流程,Vidar就能在目標機器人平臺上大顯身手,精準理解任何任務指令,并生成出分毫不差的任務執行預測視頻。
在視頻生成基準VBench上的測試表明,經過具身數據預訓練,Vidu模型在主體一致性、背景一致性和圖像質量這三個維度上都有了顯著的提升,為少樣本泛化提供了有力支撐。此外,團隊引入測試時擴展(Test-Time Scaling),使得模型能夠“見機行事”,選擇更貼近現實的“機器人之夢”,進一步提升了模型在實際應用中的視頻預測表現和可靠性。

逆動力學模型:從夢境到現實的“橋梁”
業界目前流行的VLA范式面臨機器人動作數據匱乏的嚴重挑戰,為了突破現有具身智能數據被任務“過度捆綁”、難以做大的瓶頸,團隊提出了任務無關動作(Task-Agnostic Action)的概念,這個概念不僅是從具身基座模型中解耦動作的關鍵一步,更一舉帶來三大好處:
(1)數據好采集,規?;妇俺烧妫?)跨任務、甚至零樣本任務都能輕松泛化;(3)告別人類監督、標注和遙操作,省心省力。
基于這個“任務無關數據”的概念,團隊提出了:
自動化規?;占蝿諢o關動作數據的方法ATARA (Automated Task-Agnostic Random Actions):對于一個從未見過的機器人,利用全自動化任務無關動作數據的方法收集訓練數據,僅需10小時無干預自動化采集該機器人的動作數據,即可實現該機器人的全動作空間泛化,徹底告別跨本體問題。
如視頻所見,不需要人類監督和遙操作,機器人可以無干預自動采集數據,而且所采集的任務無關數據可以用于任何任務的執行,ATARA有效解決了傳統純隨機采樣方法的三個大問題:可達狀態覆蓋效率低下、動作冗余(比如機械臂揮舞“出畫”)以及頻繁的自碰撞。
超高精度預測逆動力學模型AnyPos進行動作執行:AnyPos提出Arm-Decoupled Estimation和Direction-Aware Decoder,讓模型在自動化采集的數據上訓練出高精度的動作預測模型。

這種自動化任務無關數據收集與高精度模型訓練并重的方法實現了低成本、高效率、高精度的指定機器人動作預測,準確率遠超基線51%。在真實世界任務軌跡重放測試中,其成功率直逼100%,相比基線大幅提升33~44%。


此外,為了讓模型更能適應不同背景,團隊還提出了掩碼逆動力學模型的架構。其能夠自動學會“抓住重點”,自動捕捉機械臂相關的像素,實現跨背景的高效泛化。
真機操作實驗:成功打通“虛擬-物理”世界

在16種常見的機器人操作任務上,Vidar取得了遠超基線方法的成功率;再細分到類別,Vidar在沒見過的任務和背景上的泛化能力尤為突出。
以下是一些執行任務的示例,左邊是視頻模型的預測,右邊是實際執行的結果。從中可以看出,Vidar具有較好的指令遵循能力,預測的視頻能準確契合任務意圖(如從一些紅色物體中找到蘋果并抓?。瑫r也能精確完成雙臂協作抓取等困難任務。

此次研究成果顯著突破了機器人在多任務操作和靈活應對環境變化兩方面的能力瓶頸,為未來服務機器人在居家、醫院、工廠等復雜真實環境中大展拳腳鋪就了堅實可靠的技術基石。這同時也意味著從虛擬世界的算法演練,到真實環境的自主行動,Vidar正在架起這道關鍵的橋梁,讓AI終于能夠“腳踏實地”地服務于我們的物理世界。
技術溯源:從視頻理解到具身執行的創新路徑
Vidar (Video Diffusion for Action Reasoning)是基于在視頻大模型領域的系列原創性工作在具身領域的再次創新。Vidar (Video Diffusion for Action Reasoning),在命名上保留技術同源的“生數科技旗下視頻大模型Vidu”的前綴,延續雷達(Radar)靈敏的感知隱喻,突出其打通虛實結合的多重能力。
“基于我們的技術理念和統一的基座大模型架構,Vidu與Vidar均致力于解決復雜時空信息的理解與生成。此次推出的Vidar,是全球首個采用多模態生成模型架構解決物理世界問題,并達到該領域SOTA水平的機器人大模型。這不僅彰顯了Vidu的強大基模能力及其架構的卓越擴展性,也將通過強化對物理世界的認知,反哺Vidu在數字世界視頻創作中對物理規律的理解與生成能力。二者相互促進,共同推動實現我們的終極愿景:提升所有勞動者(人類、Agent與機器人)的生產力?!?/span>
生數科技創始人兼首席科學家朱軍教授表示:“我們致力于通過多模態大模型技術推動數字世界與物理世界的深度融合與協同進化。一方面,我們正在打造新一代數字內容創作引擎,讓AI成為人類創意的延伸;另一方面,我們通過訓練具身視頻基座模型,實現虛擬與現實的深度交互。”
關于Vidar和Anypos,更多的演示視頻如下:
團隊介紹
該項目有兩位Co-Lead。
一位是清華大學計算機系TSAIL實驗室的2023級博士生馮耀(Yao Feng),主要研究方向包括具身智能、多模態大模型和強化學習。作為Vidar的第一作者和Anypos的共同第一作者,在ICML、OOPSLA、IJCAI等頂級會議上發表過多篇論文,曾獲中國國家獎學金、全國大學生數學競賽全國決賽(數學類高年級組)一等獎、葉企孫獎、北京地區高等學校優秀畢業生等榮譽。

一位是清華大學計算機系TSAIL實驗室的二年級博士生譚恒楷(Hengkai Tan),主要研究方向是具身大模型和多模態大模型的融合和強化學習,是FCNet、ManiBox、AnyPo、Vidar的一作/共一,也是RDT具身大模型的作者之一,曾拿過全國青少年信息學奧林匹克競賽(NOI)的銀牌,全國84名。AnyPos和Vidar工作再次延續了團隊“將動作解耦出基座模型”的思路,從而朝著泛化的視覺交互智能體邁進一步。

團隊核心成員來自清華大學計算機系TSAIL實驗室:馮耀,譚恒楷,毛心怡,黃舒翮,劉國棟,項晨東,郝中楷,蘇航(指導老師),朱軍(指導老師,通訊作者)。
論文鏈接:
https://arxiv.org/abs/2507.12898
https://arxiv.org/abs/2507.12768
項目鏈接:https://embodiedfoundation.github.io/vidar_anypos
































