百萬規(guī)模數(shù)據(jù)集打造人形機(jī)器人通用大模型,實(shí)現(xiàn)精細(xì)動(dòng)作跨平臺(tái)、跨形態(tài)動(dòng)作遷移丨北大人大聯(lián)合發(fā)布
北大和人大團(tuán)隊(duì)在通用人形機(jī)器人動(dòng)作生成領(lǐng)域取得重大突破!
首創(chuàng)性地提出了具備數(shù)據(jù)-模型協(xié)同放量(Scaling Law)特性的通用動(dòng)作生成框架Being-M0。
通過大規(guī)模互聯(lián)網(wǎng)視頻,構(gòu)建了業(yè)界首個(gè)百萬規(guī)模的動(dòng)作生成數(shù)據(jù)集MotionLib。
又基于此數(shù)據(jù)集,研發(fā)了端到端的文本驅(qū)動(dòng)動(dòng)作生成模型,實(shí)現(xiàn)了具備規(guī)模效應(yīng)的復(fù)雜、多樣的人類動(dòng)作生成,做到了人體動(dòng)作向多類型人形機(jī)器人的動(dòng)作遷移。

文章將發(fā)表于ICML2025。
創(chuàng)新點(diǎn)
百萬級(jí)動(dòng)作數(shù)據(jù)集MotionLib
- Being-M0團(tuán)隊(duì)構(gòu)建了業(yè)界首個(gè)突破百萬規(guī)模的動(dòng)作生成數(shù)據(jù)集,并建立了從原始視頻到高質(zhì)量動(dòng)作數(shù)據(jù)的全自動(dòng)化處理流程,大幅提升了數(shù)據(jù)獲取效率。
大規(guī)模動(dòng)作生成模型
- 同團(tuán)隊(duì)提出的動(dòng)作生成大模型展現(xiàn)出顯著的規(guī)模效應(yīng),成功驗(yàn)證了“大數(shù)據(jù)+大模型”在人體運(yùn)動(dòng)生成領(lǐng)域的技術(shù)可行性,為通用動(dòng)作智能奠定基礎(chǔ)。
多平臺(tái)動(dòng)作重定向
- Being-M0團(tuán)隊(duì)創(chuàng)新融合優(yōu)化與學(xué)習(xí)方法,實(shí)現(xiàn)了動(dòng)作數(shù)據(jù)向宇樹H1、H1-2、G1等多款人形機(jī)器人的高效遷移,顯著提升了跨平臺(tái)運(yùn)動(dòng)適配能力。
MotionLib: 突破數(shù)據(jù)規(guī)模瓶頸
在人工智能領(lǐng)域,數(shù)據(jù)規(guī)模的突破往往能帶來模型性能質(zhì)的飛躍。
為構(gòu)建大規(guī)模動(dòng)作數(shù)據(jù)集,Being-M0團(tuán)隊(duì)從公開數(shù)據(jù)集和在線平臺(tái)系統(tǒng)性地收集了超過2000萬段人體動(dòng)作視頻。面對(duì)海量的互聯(lián)網(wǎng)視頻數(shù)據(jù),如何實(shí)現(xiàn)高質(zhì)量動(dòng)作數(shù)據(jù)的自動(dòng)化提取成為了關(guān)鍵挑戰(zhàn)。

為此,Being-M0團(tuán)隊(duì)開發(fā)了一套創(chuàng)新的數(shù)據(jù)處理流水線:
首先,基于預(yù)訓(xùn)練模型進(jìn)行2D人體關(guān)鍵點(diǎn)估計(jì),并通過置信度閾值實(shí)現(xiàn)初步篩選;隨后,采用經(jīng)過大規(guī)模3D數(shù)據(jù)集訓(xùn)練的先進(jìn)模型,生成高精度的3D關(guān)鍵點(diǎn)數(shù)據(jù)。
在動(dòng)作標(biāo)注方面,針對(duì)現(xiàn)有數(shù)據(jù)集普遍存在的描述粒度粗糙問題(通常僅用單句話概括整個(gè)動(dòng)作),團(tuán)隊(duì)創(chuàng)新性地提出了分層標(biāo)注方案:
該方案利用Gemini-1.5-pro為每個(gè)視頻生成了結(jié)構(gòu)化描述,不僅包含動(dòng)作的整體語義,還詳細(xì)記錄了手臂、腿部等身體部位的運(yùn)動(dòng)特征。這種細(xì)粒度的標(biāo)注體系為高精度動(dòng)作生成提供了關(guān)鍵支持。
MotionLib的獨(dú)特優(yōu)勢(shì)還體現(xiàn)在其多模態(tài)特性上:每個(gè)動(dòng)作序列不僅包含標(biāo)準(zhǔn)RGB視頻,還提供了深度信息等輔助數(shù)據(jù),并支持多人交互場(chǎng)景的分析。這些豐富的多模態(tài)信息顯著拓展了數(shù)據(jù)集的應(yīng)用場(chǎng)景。
經(jīng)過嚴(yán)格的質(zhì)量篩選流程,Being-M0團(tuán)隊(duì)最終構(gòu)建了包含超過100萬條高質(zhì)量動(dòng)作序列的數(shù)據(jù)集,其規(guī)模達(dá)到現(xiàn)有最大公開數(shù)據(jù)集的15倍,為突破動(dòng)作生成領(lǐng)域的規(guī)模瓶頸奠定了堅(jiān)實(shí)基礎(chǔ)。
,時(shí)長(zhǎng)00:36
大規(guī)模動(dòng)作生成:從語言到動(dòng)作

隨著MotionLib數(shù)據(jù)規(guī)模實(shí)現(xiàn)數(shù)量級(jí)突破,如何充分釋放大規(guī)模數(shù)據(jù)的性能紅利成為了關(guān)鍵問題。
通過系統(tǒng)性實(shí)驗(yàn),Being-M0團(tuán)隊(duì)首次在動(dòng)作生成領(lǐng)域驗(yàn)證了模型規(guī)模與數(shù)據(jù)規(guī)模之間的協(xié)同放大效應(yīng)(Scaling Law)。研究表明:1)在同等數(shù)據(jù)條件下,模型容量與生成質(zhì)量呈顯著正相關(guān),13B參數(shù)的LLaMA-2模型相較700M參數(shù)的GPT2,在動(dòng)作多樣性和語義對(duì)齊精度等核心指標(biāo)上均實(shí)現(xiàn)突破;2)大模型展現(xiàn)出更優(yōu)的數(shù)據(jù)利用率,在數(shù)據(jù)規(guī)模擴(kuò)展時(shí)保持穩(wěn)定的性能增長(zhǎng)曲線。
這些發(fā)現(xiàn)不僅驗(yàn)證了“大數(shù)據(jù)+大模型”技術(shù)路線的普適性,更為構(gòu)建通用動(dòng)作生成模型提供了關(guān)鍵設(shè)計(jì)準(zhǔn)則。

傳統(tǒng)方法在將大語言模型應(yīng)用于動(dòng)作生成時(shí)面臨根本性挑戰(zhàn):主流向量量化(VQ)技術(shù)將高維動(dòng)作數(shù)據(jù)壓縮為一維離散token,導(dǎo)致時(shí)序動(dòng)態(tài)和關(guān)節(jié)協(xié)同等關(guān)鍵結(jié)構(gòu)化信息嚴(yán)重?fù)p失。這種單維表征方式不僅受限于有限codebook容量,更難以刻畫人體運(yùn)動(dòng)的連續(xù)細(xì)微變化。
針對(duì)這一瓶頸,Being-M0團(tuán)隊(duì)提出MotionBook——業(yè)界首個(gè)二維無查找量化框架。該技術(shù)突破性創(chuàng)新包括:
- 空間-時(shí)序解耦編碼將動(dòng)作序列建模為單通道二維”動(dòng)作圖像”,分別在時(shí)間軸和關(guān)節(jié)軸構(gòu)建獨(dú)立編碼空間,完整保留運(yùn)動(dòng)的多維結(jié)構(gòu)特征;
- 動(dòng)態(tài)擴(kuò)展詞表通過降維投影消除傳統(tǒng)codebook查找環(huán)節(jié),使動(dòng)作詞表容量提升兩個(gè)數(shù)量級(jí);
- 坍塌免疫機(jī)制創(chuàng)新性的參數(shù)化離散策略從根本上避免了傳統(tǒng)VQ的codebook坍塌問題。
實(shí)驗(yàn)表明,這種表示方法能更好地發(fā)揮大模型的潛力,特別是在生成精細(xì)動(dòng)作方面具有明顯優(yōu)勢(shì),為構(gòu)建下一代動(dòng)作生成模型奠定了新的技術(shù)基礎(chǔ)。
,時(shí)長(zhǎng)00:39
高效動(dòng)作重定向:從人體到人形機(jī)器人
將生成的人體動(dòng)作遷移到實(shí)體機(jī)器人是實(shí)現(xiàn)文本驅(qū)動(dòng)人形機(jī)器人動(dòng)作生成的最后一環(huán)。
實(shí)現(xiàn)文本到機(jī)器人動(dòng)作的閉環(huán)需要解決跨形態(tài)動(dòng)作遷移這一核心挑戰(zhàn)。
由于不同人形機(jī)器人在自由度配置、連桿尺寸等方面存在顯著差異,將人體動(dòng)作重定向到機(jī)器人時(shí),傳統(tǒng)基于運(yùn)動(dòng)學(xué)逆解或關(guān)節(jié)角度直接映射的方法往往導(dǎo)致動(dòng)作失真甚至動(dòng)力學(xué)不可行。
為解決這一問題,Being-M0團(tuán)隊(duì)提出了”優(yōu)化+學(xué)習(xí)”的兩階段解決方案:
在訓(xùn)練數(shù)據(jù)構(gòu)建階段,通過多目標(biāo)優(yōu)化方法生成滿足機(jī)器人運(yùn)動(dòng)學(xué)約束的動(dòng)作序列——優(yōu)化過程不僅考慮了關(guān)節(jié)限位等基本約束,還考慮了動(dòng)作軌跡的平滑性和穩(wěn)定性。這種基于多目標(biāo)優(yōu)化的方法雖然計(jì)算開銷較大,但能保證生成數(shù)據(jù)的高質(zhì)量,為后續(xù)的學(xué)習(xí)階段打下良好基礎(chǔ)。
在動(dòng)作映射階段,采用輕量級(jí)的MLP網(wǎng)絡(luò)學(xué)習(xí)從人體動(dòng)作到人形機(jī)器人動(dòng)作的映射關(guān)系。通過精心設(shè)計(jì)的網(wǎng)絡(luò)結(jié)構(gòu),該方法實(shí)現(xiàn)了對(duì)H1、H1-2、G1等多個(gè)機(jī)器人平臺(tái)的高效支持。
與直接優(yōu)化相比,基于神經(jīng)網(wǎng)絡(luò)的方法顯著提升了系統(tǒng)的實(shí)時(shí)性能,同時(shí)保持了動(dòng)作遷移的準(zhǔn)確性。
,時(shí)長(zhǎng)00:16
BeingBeyond:打造通用具身智能,推動(dòng)機(jī)器人走進(jìn)千家萬戶
Being-M0由來自智在無界、北京大學(xué)、人民大學(xué)和智源研究院的研究團(tuán)隊(duì)共同打造。
MotionLib是業(yè)界首個(gè)百萬規(guī)模動(dòng)作生成數(shù)據(jù)集;Being-M0驗(yàn)證了“大數(shù)據(jù)+大模型”在動(dòng)作生成領(lǐng)域的技術(shù)可行性,為面向人形機(jī)器人的通用動(dòng)作生成模型奠定了基礎(chǔ)。
研究團(tuán)隊(duì)表示,BeingBeyond將持續(xù)迭代人形機(jī)器人的具身大模型、靈巧操作、全身運(yùn)動(dòng)控制等,在未來讓機(jī)器人涌現(xiàn)更強(qiáng)的通用能力和自主性。
項(xiàng)目地址:https://beingbeyond.github.io/Being-M0/論文鏈接:https://arxiv.org/abs/2410.03311

































