僅用三五條樣本擊敗英偉達,國內首個超少樣本具身模型登場,還斬獲頂會冠軍
具身智能領域終于要突破 “數據桎梏” 了嗎?
相較于自然語言、視覺領域,具身智能的數據天然稀缺。真實世界的機器人操作往往涉及復雜的物理交互、實時反饋與環境變化,導致數據采集不僅成本高、效率低,并且還難以規?;?。因此,現實中能達到數十萬以及百萬物理交互的數據集并不多見。
另外,當前的視覺 - 語言 - 動作(VLA)模型雖然已經具備了強大的語義理解能力,但在實際操作層面仍依賴大規模標注數據來彌補泛化能力的不足。
如何讓具身機器人在極少樣本下也能快速學習、準確執行、靈活遷移,成為決定它們真正走出實驗室、進入工業生產與人機協作場景的關鍵因素。
近日,國內通用具身智能創企中科第五紀(FiveAges)正式發布新一代具身操作基礎模型 FiveAges Manipulator-1(FAM-1),其核心架構源于團隊入選 NeurIPS 2025 的《BridgeVLA: Bridging the Gap between Large Vision-Language Model and 3D Robotic Manipulation》,首次實現了大規模視覺語言模型(VLM)與三維機器人操作控制之間的高效知識遷移與空間建模融合。
特別地,該模型在少樣本學習、跨場景適應及復雜任務理解方面實現重大突破,僅需 3-5 條機器人數據 / 任務即可完成精準具身操作學習,成功率高達 97% 并且全面超越 SOTA?;谠撃P停瑘F隊斬獲 CVPR 2025 具身操作競賽冠軍,擊敗國內外眾多競爭對手。
FAM-1:從 VLA 到 BridgeVLA,國內首個少樣本通用具身操作基礎模型
為了緩解缺少高質量操作數據的困境,切實提升跨場景、跨任務下的泛化性,中科第五紀以 BridgeVLA 為核心框架,構建首個少樣本通用具身操作基礎模型 FAM-1。
與傳統的 VLA 架構相比,BridgeVLA 實現了以下兩個方面的技術創新:
- 整合多類型數據,構建多維度的操作知識庫,以二次預訓練的方式挖掘 VLM 隱含知識,解決操作目標和場景理解不準確、泛化性差的問題;
- 利用三維熱力圖對齊 VLM 與 VLA 的輸出與輸入,通過 3-5 條非常少量的樣本微調,解決視覺空間理解力弱、數據利用效率低的問題。
這些技術不僅在數個國際公開評測數據集上取得當前 SOTA 性能,還在僅有少量標注數據的真實開放場景下,穩定實現跨光照、跨場景、跨任務的泛化性。
具體來說,FAM-1 是由知識驅動的預訓練(Knowledge-driven Pretraining, KP)和三維少樣本微調(3D Few-shot Fine-tuning, FF)兩大核心模塊組成:
知識驅動的預訓練:目前大多數具身操作模型是基于非操作數據預訓練的 VLM,僅能在一定程度上緩解操作目標和場景泛化的問題。這種跨域差異性的存在,導致模型無法真正發揮 VLM 在泛化性方面的巨大潛力。因此,中科第五紀利用從網絡上收集海量圖像視頻數據并構建面向操作場景的知識庫,然后對預訓練的 VLM 進行二次預訓練。通過挖掘和引導模型隱含的操作知識,對機械臂關鍵點位置和軌跡進行預測,進而逐步實現在操作場景下的跨域適應。
三維少樣本樣本微調:現有 VLM+VLA 架構大多是將三維視覺信息壓縮到一維向量,然后再預測三維動作,形式上類似沙漏結構。這種架構中間的 “維度瓶頸” 讓模型損失大量三維結構信息,導致需要依賴大規模有標注數據進行暴力擬合。因此,中科第五紀將 VLM 和 VLA 的輸出和輸入升維到三維熱力圖。這樣在模型微調的過程中,不僅能充分利用三維空間結構信息,更顯著降低了模型對于樣本數量的依賴。
主要實驗效果:FAM-1 在國際基準中全面超越 SOTA
基于 BridgeVLA 的創新架構,中科第五紀將 FAM-1 在國際公開評測基準 RLBench、Colosseum 等與微軟、MIT、斯坦福等頂尖團隊工作進行了公開比較,大量實驗結果驗證了模型的優越性。
例如,在 RLBench 上,FAM-1 可以取得 88.2% 的操作成功率,遠遠超過 RVT-2、Act3D、3D Diffuser Actor 等 SOTA 模型 6% 以上,特別是在 “Insert Peg”、“Open Drawer”、“Sort Shape”、“Door Close”、“Hammer Strike” 等任務上成功率大幅領先,平均成功率大幅提升了 30% 以上。

真機部署效果:少樣本下基礎任務成功率 97%,挑戰任務領先對比模型 30%+
中科第五紀還將 FAM-1 在真機上與 RVT-2(英偉達)、PI0(Physical Intelligence)、SpatialVLA(Shanghai AI Lab 等)等先進模型進行了全面對比,特別是在少樣本情況下的基礎任務(Basic)和挑戰任務(Distractor、Lighting、Background、Height、Combination、Category)上的對比。FAM-1 在僅使用 3-5 條樣本每個 Basic 任務的情況下,可以達到 97% 成功率,遠超其它對比模型。
這些結果充分驗證了中科第五紀在少樣本實體部署方面的優勢,尤其能夠在不同干擾物體、不同光照條件、不同背景絕大多數復雜因素且極具產業化價值的能力下顯著提升模型的泛化性。

總結與展望:致力于打造工業級通用具身智能體系
FAM-1 是面向機械臂操作的少樣本通用基礎模型,通過遷移多模態大模型隱含知識和建模三維空間結構信息,讓機器人獲得了前所未有的跨場景任務的泛化能力和少樣本快速學習能力。
基于此,中科第五紀未來將繼續深耕以下三大方向:
- 進一步面向操作場景,提升通用基礎模型的泛化性、可靠性和適應性;
- 推動基礎模型在工業場景下的更多應用;
- 面向導航場景推出通用基礎模型。
此外,團隊另一項成果 EC-Flow: Enabling Versatile Robotic Manipulation from Action-Unlabeled Videos via Embodiment-Centric Flow 已被 ICCV 2025 接收,展示了從無標注人類操作視頻中自監督學習操控策略的新路徑,進一步展現了中科第五紀在具身智能核心技術上的系統性創新能力。這意味著未來機器人或可通過觀察人類操作視頻,自主學習操控策略,進一步降低應用門檻。
從定義具身大模型新標準,到發布國內首個少樣本通用具身操作基礎模型,中科第五紀的探索正推動具身智能從 “單點技術突破” 走向 “體系化落地”,為機器人真正走進工業生產、日常生活提供了技術支撐。


































