阿里達(dá)摩院偷偷放大招!RynnEC讓機(jī)器人“看懂世界”只需一句話
隨著人工智能技術(shù)的飛速發(fā)展,具身智能成為了當(dāng)前研究的熱點(diǎn)領(lǐng)域之一。具身智能強(qiáng)調(diào)智能體通過身體與環(huán)境的交互來實(shí)現(xiàn)對世界的理解和任務(wù)執(zhí)行。在這一背景下,阿里達(dá)摩院推出了RynnEC 世界理解模型,為具身智能的發(fā)展注入了新的動力。

一、項目概述
RynnEC 是阿里巴巴達(dá)摩院推出的一款專為具身認(rèn)知任務(wù)設(shè)計的視頻多模態(tài)大語言模型(MLLM)。它能夠從位置、功能、數(shù)量等 11 個維度全面解析場景中的物體,支持物體理解、空間理解以及視頻目標(biāo)分割等功能。RynnEC 僅靠視頻序列即可建立連續(xù)的空間感知,無需 3D 模型,支持靈活交互,為具身智能提供了強(qiáng)大的語義理解能力,助力機(jī)器人更好地理解物理世界。
二、核心功能
(一)物體理解
RynnEC 能夠從多個維度(如位置、功能、數(shù)量等)解析場景中的物體,支持對物體的詳細(xì)描述和分類。例如,它可以識別出場景中的物體是什么,物體的顏色、形狀、大小等特征,以及物體的功能和用途等。這種多維度的物體理解能力使得機(jī)器人能夠更全面地認(rèn)識周圍環(huán)境中的物體,為后續(xù)的任務(wù)執(zhí)行提供基礎(chǔ)。
(二)空間理解
基于視頻序列,RynnEC 能夠建立連續(xù)的空間感知,支持 3D 感知,理解物體之間的空間關(guān)系。它能夠感知物體在空間中的位置、距離、方向等信息,以及物體之間的相對位置關(guān)系,如物體 A 在物體 B 的左邊、物體 C 在物體 D 的上方等。這種空間理解能力使得機(jī)器人能夠在復(fù)雜的環(huán)境中進(jìn)行導(dǎo)航、避障和物體操作等任務(wù)。
(三)視頻目標(biāo)分割
RynnEC 可以根據(jù)文本指令實(shí)現(xiàn)視頻中的目標(biāo)分割,支持對特定區(qū)域或物體的精確標(biāo)注。用戶可以通過自然語言指令告訴模型需要分割的目標(biāo),模型會根據(jù)指令識別并分割出視頻中的相應(yīng)目標(biāo)。例如,用戶可以指令“分割出視頻中紅色的汽車”,模型就會將視頻中紅色汽車的部分分割出來。這一功能在視頻監(jiān)控、醫(yī)療影像分析等領(lǐng)域具有廣泛的應(yīng)用前景。
(四)靈活交互
RynnEC 支持基于自然語言的交互,用戶可以通過指令與模型進(jìn)行實(shí)時溝通,獲取反饋。這種交互方式使得機(jī)器人能夠更好地理解人類的意圖,執(zhí)行相應(yīng)的任務(wù),提高了人機(jī)交互的自然性和便捷性。
三、技術(shù)原理
(一)多模態(tài)融合
RynnEC 采用了多模態(tài)融合技術(shù),將視頻數(shù)據(jù)(包括圖像和視頻序列)與自然語言文本相結(jié)合。通過視頻編碼器(如 SigLIP-NaViT)提取視頻特征,再利用語言模型進(jìn)行語義理解,使得模型能夠同時處理視覺和語言信息。這種多模態(tài)融合的方式充分發(fā)揮了視覺和語言兩種模態(tài)的優(yōu)勢,提高了模型對場景和任務(wù)的理解能力。
(二)空間感知
模型基于視頻序列建立連續(xù)的空間感知,無需額外的3D 模型。它利用時間序列信息和空間關(guān)系建模技術(shù),讓模型理解物體在空間中的位置和運(yùn)動。通過對視頻幀中物體的連續(xù)跟蹤和分析,模型能夠感知物體的運(yùn)動軌跡、速度等信息,從而實(shí)現(xiàn)對空間的動態(tài)感知。
(三)目標(biāo)分割
RynnEC 的目標(biāo)分割技術(shù)是基于文本指令引導(dǎo)的。模型能夠根據(jù)用戶的指令識別和分割視頻中的特定目標(biāo)。它使用掩碼(mask)和區(qū)域標(biāo)注技術(shù),實(shí)現(xiàn)對視頻幀中特定區(qū)域的精確分割。這一技術(shù)的關(guān)鍵在于如何將文本指令與視頻內(nèi)容進(jìn)行有效匹配,以及如何準(zhǔn)確地生成分割掩碼,從而實(shí)現(xiàn)對目標(biāo)的精確分割。
(四)訓(xùn)練與優(yōu)化
RynnEC 使用大規(guī)模的標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練,包括圖像問答、視頻問答和視頻目標(biāo)問答等多種格式。采用分階段訓(xùn)練策略,逐步優(yōu)化模型的多模態(tài)理解和生成能力。此外,RynnEC 還支持 LORA(Low-Rank Adaptation)技術(shù),基于合并權(quán)重進(jìn)一步優(yōu)化模型性能。通過這些訓(xùn)練和優(yōu)化方法,RynnEC 能夠在不同的任務(wù)和場景中表現(xiàn)出色,具備良好的泛化能力和適應(yīng)性。
四、應(yīng)用場景
(一)家庭服務(wù)機(jī)器人
RynnEC 可以助力家庭機(jī)器人理解指令,精準(zhǔn)定位并操作家庭環(huán)境中的物品。例如,用戶可以指令機(jī)器人“拿遙控器”,機(jī)器人通過 RynnEC 的物體理解和空間理解能力,能夠準(zhǔn)確地找到遙控器的位置并將其拿取過來。這將極大地提升家居自動化水平,為人們的生活帶來更多的便利。
(二)工業(yè)自動化
在工業(yè)場景中,RynnEC 能夠幫助機(jī)器人識別和操作生產(chǎn)線上的物體,完成復(fù)雜任務(wù)。例如,機(jī)器人可以根據(jù)指令“將紅色零件放在藍(lán)色托盤上”,通過 RynnEC 的目標(biāo)分割和空間理解能力,準(zhǔn)確地識別出紅色零件和藍(lán)色托盤的位置,并將紅色零件放置到藍(lán)色托盤上。這將提高生產(chǎn)效率,降低人工成本,推動工業(yè)自動化的發(fā)展。
(三)智能安防
通過視頻監(jiān)控實(shí)時跟蹤目標(biāo)是RynnEC 在智能安防領(lǐng)域的重要應(yīng)用。例如,安防人員可以指令“監(jiān)控紅色車輛”,RynnEC 能夠根據(jù)指令在視頻監(jiān)控中實(shí)時跟蹤紅色車輛的軌跡,及時發(fā)現(xiàn)異常情況并發(fā)出警報。這將增強(qiáng)安防系統(tǒng)的智能化和響應(yīng)能力,提高公共安全水平。
(四)醫(yī)療輔助
RynnEC 使醫(yī)療機(jī)器人能夠理解指令并執(zhí)行任務(wù)。例如,醫(yī)療機(jī)器人可以根據(jù)指令“送藥品到病房 302”,通過 RynnEC 的空間理解能力,準(zhǔn)確地找到病房 302 的位置,并將藥品送達(dá)。此外,在醫(yī)療影像分析方面,RynnEC 的目標(biāo)分割功能可以幫助醫(yī)生更準(zhǔn)確地識別病變區(qū)域,提高診斷的準(zhǔn)確性和效率。
(五)教育培訓(xùn)
RynnEC 的視頻分割技術(shù)可以輔助教學(xué),增強(qiáng)學(xué)生對復(fù)雜概念的理解和學(xué)習(xí)體驗。例如,在生物課上,教師可以使用 RynnEC 演示細(xì)胞結(jié)構(gòu)的視頻分割,讓學(xué)生更直觀地觀察細(xì)胞的各個部分及其功能。這將豐富教學(xué)手段,提高教學(xué)效果。
五、性能表現(xiàn)
RynnEC 的性能評估主要通過 RynnEC-Bench 進(jìn)行。RynnEC-Bench 從“物體認(rèn)知”和“空間認(rèn)知”兩個關(guān)鍵領(lǐng)域?qū)δP瓦M(jìn)行評估,涵蓋了 22 種具身認(rèn)知能力。通過這些評估,可以全面了解 RynnEC 在不同任務(wù)和場景中的表現(xiàn)。從評估結(jié)果來看,RynnEC 在物體識別、空間關(guān)系理解、目標(biāo)分割等任務(wù)上都表現(xiàn)出色,具備較高的準(zhǔn)確性和魯棒性。

六、快速使用
(一)環(huán)境準(zhǔn)備
在使用RynnEC 之前,需要確保系統(tǒng)滿足以下基本依賴條件:
- Python >= 3.10
- Pytorch >= 2.4.0
- CUDA Version >= 11.8
- transformers >= 4.46.3
(二)安裝步驟
1. 首先,通過以下命令克隆 RynnEC 的 GitHub 倉庫:
git clone https://github.com/alibaba-damo-academy/RynnEC2. 進(jìn)入 RynnEC 文件夾:
cd RynnEC3. 安裝所需的包:
pip install -e .
pip install flash-attn --no-build-isolation(三)模型選擇
RynnEC 提供了不同規(guī)模的模型供用戶選擇,包括 RynnEC-2B 和 RynnEC-7B。用戶可以根據(jù)自己的需求和計算資源選擇合適的模型。例如,如果計算資源有限,可以選擇 RynnEC-2B 模型;如果對性能要求較高且計算資源充足,可以選擇 RynnEC-7B 模型。

(四)啟動本地演示
為了方便用戶快速體驗RynnEC 的功能,可以通過以下命令啟動本地的 gradio 演示應(yīng)用:
python inference/gradio_demo.py --model-path Alibaba-DAMO-Academy/RynnEC-2B用戶可以通過本地瀏覽器訪問gradio 應(yīng)用,輸入指令并上傳視頻或圖像,查看 RynnEC 的物體理解、空間理解和視頻目標(biāo)分割等功能的實(shí)時效果。
(五)訓(xùn)練與評估
如果用戶需要對RynnEC 進(jìn)行進(jìn)一步的訓(xùn)練和評估,可以按照以下步驟操作:
1. 準(zhǔn)備訓(xùn)練數(shù)據(jù):根據(jù) RynnEC 的要求,將標(biāo)注數(shù)據(jù)組織成特定的格式,包括圖像問答、視頻問答和視頻目標(biāo)問答等格式。
2. 準(zhǔn)備訓(xùn)練腳本:在 `scripts/train` 文件夾中提供了訓(xùn)練腳本的模板,用戶可以根據(jù)自己的數(shù)據(jù)和模型設(shè)置修改相應(yīng)的變量。
3. 開始訓(xùn)練:使用訓(xùn)練腳本啟動訓(xùn)練過程,例如:
bash scripts/train/stage1.sh4. 合并 LORA 權(quán)重:如果在訓(xùn)練階段使用了 LORA 技術(shù),訓(xùn)練完成后可以使用以下命令合并 LORA 權(quán)重:
python tools/merge_lora_weights.py --model_path checkpoints/stage4/checkpoint-xxx --save_path checkpoints/stage4_merge5. 評估模型:使用 RynnEC-Bench 對訓(xùn)練后的模型進(jìn)行評估,評估腳本位于 `scripts/eval` 文件夾中。例如:
bash scripts/eval/eval_object_property.sh通過以上步驟,用戶可以快速部署和使用RynnEC,體驗其在具身智能領(lǐng)域的強(qiáng)大功能。
七、結(jié)語
RynnEC 作為阿里達(dá)摩院推出的世界理解模型,為具身智能的發(fā)展提供了重要的技術(shù)支持。它通過多模態(tài)融合技術(shù),實(shí)現(xiàn)了物體理解、空間理解和視頻目標(biāo)分割等功能,為機(jī)器人與環(huán)境的交互提供了強(qiáng)大的語義理解能力。RynnEC 在家庭服務(wù)機(jī)器人、工業(yè)自動化、智能安防、醫(yī)療輔助和教育培訓(xùn)等多個領(lǐng)域具有廣泛的應(yīng)用前景。
GitHub 倉庫:???https://github.com/alibaba-damo-academy/RynnEC??
本文轉(zhuǎn)載自??小兵的AI視界??,作者:AGI小兵

















