宇树开源真机数据集，国内具身玩家正走上同一条路

2026年04月02日 15:23 AI价值官

撰文丨星野

编辑丨美圻

宇树科技的IPO进程，正占据着近期资本市场与行业媒体的核心版面。围绕G1人形机器人的全球出货表现、供应链成本管控、营收增速与商业化落地节奏，各类分析报告密集发布，市场试图从中描摹出这家全球人形机器人龙头的成长边界。就在市场目光集中于资本动作时，宇树在生态端的一项重要发布却少人关注。3月27日，宇树科技官方微博宣布，人形机器人高质量全身遥操作真机数据集UnifoLM-WBT-Dataset正式开源，已于3月5日上线Hugging Face平台，以Apache-2.0协议向全行业开放。在全球人形机器人赛道，特斯拉、波士顿动力、谷歌DeepMind 等头部厂商，对核心训练数据普遍采取闭源或有限开放的策略，行业长期存在数据孤岛、标准不统一的痛点。宇树此次的全量开源，是头部厂商首次对外开放完整的全身遥操作真机数据集，也与近期国内具身智能领域密集的开源动作形成了呼应。

从框架、模型到真机数据

宇树开源体系初步成型

此次数据集开源，是宇树过去半年内，在具身智能开源领域的第三次重要动作，形成了从仿真框架、大模型到真机数据的完整布局。

2025年9月，宇树开源UnifoLM-WMA-0世界模型动作框架，为具身智能训练提供了可落地的仿真引擎支撑；2026 年1月，基于Qwen2.5-VL-7B 搭建的UnifoLM-VLA-0大模型开源，该模型可通过自然语言指令完成12大类复杂操作任务，实现了人形机器人从图文理解到物理世界交互的能力进阶。此次上线的UnifoLM-WBT-Dataset，则补全了这套开源体系中，真实物理世界数据的关键一环。

当前人形机器人行业的训练数据集，普遍存在两个明显的局限：一类数据集将上肢操作与下肢运动分拆采集，无法覆盖人形机器人全身协同的动作逻辑；另一类则多在实验室受控环境中采集，以脚本化单一动作为主，难以适配真实场景的复杂交互需求。

而UnifoLM-WBT-Dataset 的核心突破，便在于完整记录了人形机器人从双足行走、重心平衡动态调整到指尖精细操作的全身协同行为流——这恰恰是人形机器人从“能走会跳”的基础能力，跨越到 “能干活、会干活” 的实用化阶段的关键一环。截至2026年3月，这套数据集已上线340小时、合计189万条动作轨迹数据，覆盖衣物收纳、家电操作、餐具整理等多个日常家居与工业生产场景，所有数据均来自宇树G1机器人在真实家庭与工业开放场景中的真机采集，而非仿真环境生成的虚拟数据。

数据集采用行业通用的RLDS 格式，可直接适配主流具身智能训练框架，同时宇树也明确了高频滚动更新的长期规划。真机数据的天然稀缺性，决定了这套数据集的行业含金量。

人形机器人训练数据的采集成本极高，不仅需要配套动捕、XR遥操作设备与多台机器人原型机，更需要长期的真人操作数据积累。更关键的是，真机数据天然包含真实世界的物理交互反馈，有助于消除困扰行业多年的Sim2Real（仿真到现实）鸿沟 ——这是仿真数据无论如何扩大规模都无法替代的核心价值，也是长期以来中小研发团队被挡在行业高门槛之外的根本原因。

而宇树的此次完全开源，为全行业打开了高质量真机数据的核心入口。从世界模型框架，到VLA具身大模型，再到真机训练数据集，宇树已经搭建起一套完整的全链路开源具身智能训练栈。

这一系列动作背后的转型路径十分清晰：在坐稳全球人形机器人硬件出货量第一的位置之后，宇树正在向软件算法与数据生态的纵深领域布局，从全球领先的硬件制造商，向下一代人形机器人的基础设施提供商转型。

在不少行业观察者看来，全面开源核心训练数据，是一种“拱手让出核心资产” 的行为。但宇树的这套打法，有着更深层的商业逻辑：当全行业的研究者与开发者都基于宇树的数据集建立训练基准，由此产生的海量改进反馈与技术迭代，会反过来持续夯实宇树自身的技术积累，形成一个越转越快的正向数据飞轮。

特斯拉、谷歌筑牢数据壁垒

为何宇树选择全面开源？

要读懂宇树此次开源的战略意义，首先需要厘清它所处的全球行业竞争格局。

2026年被行业普遍视作 “具身智能数据规模化元年”，一个已经成为全行业共识的判断是：人形机器人的硬件能力早已跨过规模化落地的基础门槛，如今的人形机器人已经能够稳定完成行走、跳跃甚至后空翻等高动态动作，真正制约其走进家庭、工厂等真实场景的核心瓶颈，并非硬件本体，而是支撑 “具身大脑” 持续进化的高质量真机数据。

但行业长期深陷数据匮乏的困境：2025年上半年，全球开源具身数据集的累计时长不足1000小时，同时行业还面临着数据标准不统一、场景覆盖碎片化、数据孤岛严重等共性痛点。

在这样的行业背景下，海外头部玩家的选择呈现出高度一致性：守住核心数据，筑牢技术壁垒。

特斯拉Optimus依托汽车业务积累的海量AI数据与自动驾驶技术沉淀，搭建起完全闭环的生态体系，所有核心训练数据仅用于内部研发，外界只能通过少量技术论文窥见其技术细节。

波士顿动力则延续了一贯的技术壁垒型路线，核心数据完全闭源，仅对学术合作方有限开放，业务聚焦高动态运动与特种工业场景。

即便是此前以开放姿态吸引行业生态的谷歌DeepMind，也仅开源了RT-1、Open X-Embodiment等基础数据集与少量模型权重，核心的前沿商用具身智能模型始终保持闭源状态。

最值得关注的变化来自英伟达。2026年GTC大会上，英伟达发布了Isaac GR00T N1.7 版本，开放早期访问权限的同时，新增了商业授权模式，主打量产就绪的商用部署能力。

不同于2025年发布的完全开源的初代GR00T N1版本，N1.7的核心商用能力仅对商业授权合作方开放。这也意味着，这家此前始终以全链路开源生态吸引开发者的基础设施层玩家，在模型商业化落地的进程中，开始逐步区分开源社区版与商业授权版。

至此，特斯拉等海外巨头始终坚持的闭源逻辑，与英伟达在商业化压力下的渐进式收紧，共同勾勒出海外阵营的整体取向：用封闭的技术与数据体系守住已有的领先优势，在存量市场中牢牢锁定行业话语权。

宇树选择在此时率先全面开源，正是在全球数据标准尚未固化的窗口期，走出了一条完全不同的路径：不是固守自身的技术边界，而是以开放生态抢占行业定义权。

这场阵营分化，表面上是开源与闭源的技术路线分歧，其底层指向的，却是下一代人形机器人行业标准与全球产业话语权的最终归属。

国内玩家集体数据开源

产业合力应对全球竞争

宇树的此次开源，也代表了国内具身智能行业正在加速形成的发展趋势。

此前，国内多数厂商同样选择闭源或有限开放的策略，核心真机训练数据被视作企业核心机密，仅在极小的合作范围内流通，行业始终无法形成统一的技术标准，更难以形成与海外巨头抗衡的产业合力。

3月以来，国内具身智能领域的数据开源动作密集落地，短短一个月内，从国家队平台到头部创业公司，从顶尖科研机构到互联网大厂，开源数据集正在成为国内玩家对抗海外技术壁垒的共同选择。

3月26日，北京人形机器人创新中心在中关村论坛年会上启动具身智能开源开放生态建设计划，此前该中心已披露，其数据采集与训练基地投用4个月来，内部研发数据采集量突破300万条，开源数据超30万条。

旗下RoboMIND 2.0系列数据集是国内首个集成高保真触觉数据的大规模开源机器人数据集，累计下载量突破 185万次。智元机器人同步完成AGIBOT WORLD百万级真机开源数据集的扩展，开源最新 Genie Sim 3.0仿真工具链和ACoT-VLA官方基线模型，计划2026年将数据集规模提升一至两个量级，冲击千万级行业新纪录。蚂蚁灵波则连续开源四款具身智能模型，其中LingBot-VLA具身基座模型经约 2万小时有效真机数据训练，可跨9种机器人形态实现泛化，打破了硬件形态对模型能力的限制。2026年3月，高德开源通用机器人数据集UniACT，整合超600万条真实操作轨迹，为当前行业规模最大的同类型数据集。

与宇树聚焦人形机器人全身协同动作的定位不同，UniACT 覆盖更广泛的机器人品类与操作场景，二者形成能力互补。同期，高德还开源配套ABot-M0通用机器人基座模型，该模型在 Libero-Plus 基准测试中任务成功率达80.5%，较此前行业标杆Pi0提升近30个百分点。

这些密集落地的开源动作并非孤立事件，而是源于全行业形成的共同判断：在全球具身智能数据标准尚未固化、海外巨头尚未完成生态闭环的窗口期，开源是国内企业最可行的协同路径，既能系统性降低全行业研发准入门槛，也能在全球标准竞争中形成产业合力。

蚂蚁灵波首席科学家沈宇军曾公开表示，“我不觉得有任何一个公司可以把整个具身智能行业的方方面面全吃透”，这也是国内多数入局者选择开放核心数据与模型的核心逻辑。

这一行业共识也在向标准化、组织化方向推进。3月16，由工信部指导、开放原子开源基金会发起、乐聚机器人牵头，宇树科技、上海交通大学等多家企业与科研机构共同参与的 “具身AI开源数据集社区” 正式启动。

据官方信息，该社区核心目标是打通行业数据孤岛，推动形成统一的数据标准与产业协同机制，国内具身智能开源生态，正从企业自发的分散布局转向全行业协同的标准化建设阶段。随着行业联盟推动统一数据标准落地，越来越多从业者基于这套开源体系开展研发，试图用闭源体系锁定全球市场的海外巨头，其生态卡位的时间窗口正在快速收窄。

宇树开源真机数据集，国内具身玩家正走上同一条路

2026年04月02日 15:23 AI价值官

相关新闻

热文排行

财经日历

每日智库看点

关注我们

公告