星动纪元ERA-42具身大模型引领机器人灵巧操作新时代

3次阅读

共计 1264 个字符,预计需要花费 4 分钟才能阅读完成。

近日,星动纪元端到端原生机器人大模型 ERA-42 正式对外公布,这款被称为“纪元原生机器人大模型”的成果标志着机器人技术迈向新的发展阶段。ERA-42 结合自主研发的五指灵巧手星动 XHAND1,展现出强大的灵巧操作能力,能够熟练运用各种工具完成超过 100 种复杂的操作任务,包括拧紧螺丝、敲击钉子以及扶正水杯并倒水等。

ERA-42 作为行业内首次实现五指灵巧手通过单一具身大模型完成多样工具操作的案例,其突出的通用性和灵巧操作能力得到了业界认可。这一模型无需依赖预编程技能,而是依靠其强大的泛化和自适应特性,在收集少量数据后即可快速学习新技能,整个过程耗时不到两小时。目前,基于 ERA-42 的星动 XHAND1 已具备完成 100 多项精细、智能化操作的能力。

ERA-42:开启具身大模型的通用灵巧操作时代

ERA-42 是全球首个真正意义上的五指灵巧手具身大模型,它标志着具身大模型进入了通用灵巧操作的新阶段。要实现通用具身智能体,需要满足三个关键要素:统一模型泛化多种任务与环境、端到端流程设计以及模型规模的持续扩展。ERA-42 正是符合这些标准的典范,其设计理念强调构建一个统一的原生模型,整合视觉、语言、触觉及身体姿态等多种信息,确保模型对各种任务和环境具有广泛的适应能力。

ERA-42 采用端到端架构,从输入数据到最终输出全程由神经网络自动处理,无需人工干预。这种设计极大地提高了系统的灵活性和开发效率。此外,ERA-42 还展示了显著的“Scaling 效应”,即随着模型规模的增长,其性能也随之提升,这与大型语言模型的发展规律相一致。

ERA-42 的技术突破

ERA-42 的成功离不开星动纪元在技术研发上的创新。该公司最初尝试了端到端算法来增强其原生机器人大模型的表现,并借鉴了 Physical Intelligence (PI) 的 π0 模型,通过结合互联网规模的视觉 - 语言预训练与机器人操作数据集,使机器人具备了在人类环境中执行复杂任务的能力。随后,星动纪元进一步探索了一种基于大规模视频数据的学习方法,这种方法不仅降低了数据收集的成本,还提高了学习效果。

除了上述进展外,星动纪元还将世界模型融入 ERA-42 中,赋予了模型对物理世界的深刻理解和对未来的预测能力。这种能力极大地增强了模型的泛化能力和任务成功率。例如,ERA-42 能够准确预测真实物理世界中的操作过程,其预测结果与实际操作高度吻合。

硬件平台的支持

为了实现 ERA-42 与硬件的良好协作,星动纪元打造了一个专为 AI 设计的全新硬件平台。该平台支持 ERA-42 的五指灵巧手星动 XHAND1,后者拥有 12 个主动自由度,采用全电驱动方式,并配备了高分辨率触觉阵列传感器,能够提供精确的三维力触觉和温度信息。星动 XHAND1 的手指结构灵活,能够完成高精度的任务,其最大握力达到 80 牛顿,负载能力高达 25 千克。

借助 ERA-42 的强大功能,星动纪元的通用人形机器人在通用性和泛化性方面取得了显著进步。结合其在复杂地形上的稳定行走和奔跑能力,以及上下肢的协同作业能力,未来有望在更多场景中实现商业化应用。

正文完
 0