智元机器人发布革命性通用基座模型GO-1

2次阅读

共计 1252 个字符,预计需要花费 4 分钟才能阅读完成。

最近,智元机器人正式宣布了他们的首个通用具身基座模型——GO-1,这标志着具身智能技术的一次重大进步。GO- 1 的发布让我们对通用机器人的未来充满期待。

GO- 1 大模型融入了许多先进的特点,首先是其突出的 人类视频学习 能力。这一功能允许机器人从互联网视频和人类示范中进行学习,从而更好地理解人类的行为。此外,GO- 1 能够在极少量的数据甚至没有样本的情况下进行快速泛化,这意味着在进入新场景或新任务时,培训的成本大大降低。

更有趣的是,GO- 1 还具备 一脑多形 的能力,能够在不同的机器人形态间迁移,快速适配到不同的物理实体上。更重要的是,搭配智元配套的数据回流系统,GO- 1 可以从实际执行中的问题数据中不断自我进化学习。

例如,GO- 1 可以通过观看人类倒水的操作视频,迅速学会这个技能。即便水杯在桌上位置有所改变,GO- 1 也能精准完成倒水的动作。同时,它的能力不仅限于已经学过的操作,GO- 1 还可以识别未见过的物品并进行操作,使用少量数据实现快速泛化。

在传统具身智能模型中,通常只针对单一机器人进行设计,这样会出现两大问题:首先,数据的使用效率很低,不同机器人之间收集的数据难以共享;其次,训练出的模型难以迁移到不同类型的机器人上,导致每个本体都需要独立训练,增加了适配的成本。而 GO- 1 大模型有效解决了这些问题,可以让多个相同或不同类型的机器人协同完成复杂任务。

此外,GO- 1 支持数据飞轮的持续提升,这意味着在实际操作过程中,尤其是执行出现问题时,能够不断回流数据进行针对性的优化。这极大提升了模型性能,避免了重复犯错。

在此次发布中,GO- 1 还增加了一种新的语音交互方式,使得用户在现实场景中可以更轻松地表达需求。这种功能直接基于新的 ViLLA 架构,旨在充分利用数据,使得 GO- 1 在认知和操控能力上大幅提升。

GO- 1 的构建依赖于多种类型和维度的数据,包括底层的互联网大规模文本与图文数据、跨本体视频数据、仿真数据以及高质量的真实示教数据。通过这些数据,机器人在很早的阶段就具备了通用的场景理解、语言理解和动作执行能力。

在处理数据时,智元团队采用了新颖的 ViLLA(Vision-Language-Latent-Action)架构。与以往的 VLA 架构不同,ViLLA 通过预测隐式动作标记(Latent Action Tokens),有效连接了图像、文本输入与机器人的动作执行。这样,模型能更充分地利用来自 AgiBot World 的数据集以及海量的异构视频数据,提升策略的泛化能力。

在实际操作中,GO- 1 在多项任务上的表现令人称道,相比现有的优质模型,其成功率提升了 32%,特别是在“倒水”、“清理桌面”和“补充饮料”等任务中表现卓越。此外,增加 Latent Planner 也显著提升了成功率,为模型精细动作执行能力提供了保障。

总之,GO- 1 的发布为智能机器人领域带来了新的变革,它的多样化能力和高效学习特性使得在各类真实场景中的使用变得更加可行和高效。而 GO- 1 未来的发展,让我们对通用智能机器人的实现充满了期待!

正文完
 0