原文:
https://weibo.com/1255595687/O5k4Aj8l2
【逐际动力双足机器人P1在深圳塘朗山零样本、无保护、全开放完成测试】
上周,就在全球AI界被美国初创公司Figure联合OpenAI发布的首款人形机器人Figure 01相关视频而震撼的时候,中国深圳的“逐际动力双足机器人P1”早已低调地完成了塘朗山郊野大挑战。
3月12日,基于强化学习(Reinforcement Learning,RL),“逐际动力双足机器人P1”第一次来到位于深圳的郊野公园塘朗山,零样本、无保护、全开放进行测试,开箱即跑,在完全陌生的野外环境中,高动态完成了在多种复杂地形上的移动,表现出强化学习训练后,优异的控制力和稳定性。
P1是逐际动力在中国率先推出的一款新颖的双足机器人,也是逐际动力强化学习系统化研发与模块化测试的重要平台,用于推进双足基础运动能力的研发和迭代。P1成功征服野外森林,正是逐际动力强化学习系统化。
逐际动力在强化学习有着长期的积累,目前聚焦把强化学习的前沿技术转化为系统化研发能力,支持产品功能开发,并提出了自己的强化学习研发体系,主要包括Real2Sim2Real闭环、神经网络架构设计、数据生成机制与训练算法设计等三大核心版块,搭配不断完善的流程管理和算法验证,推动人形机器人重要功能的开发。
P1是逐际动力在中国率先推出的一款新颖的双足机器人,也是逐际动力强化学习系统化研发与模块化测试的重要平台,用于推进双足基础运动能力的研发和迭代。P1成功征服野外森林,正是逐际动力强化学习系统化研发的成果,也是三大核心板块能力的体现。
Real2Sim2Real闭环,从Real2Sim到Sim2Real,打通数据到数据的自动闭环,不管是采集物理世界数据生成仿真模型,还是把仿真后的策略部署到硬件上,从数据的生成、迁移到部署,逐际动力的目标是实现全过程自动化,最大限度降低人工干预,缩小仿真和现实之间的差距,提高训练的效率和质量。
神经网络架构设计,神经网络并不是一个黑盒,而是一个科学的系统化复杂结构,决定了强化学习能力的上限,其架构的设计体现了不同团队的特点和实力。逐际动力的神经网络由不同模块组成,如何划分模块、如何定义每个模块、每个模块输入输出的界面是什么,这些设计至关重要。逐际动力打造的神经网络架构能够有效应对环境交互和硬件差异带来的巨大干扰,生成具有自适应性的控制策略,实现同一个神经网络适用于不同的机器人和场景。
数据生成机制与训练算法设计,在强化学习中,数据是训练的关键,但不是数据规模越大,训练效果就一定越好。逐际动力把重点锁定在解决有效数据稀缺的问题上,提出迭代式预训练(Iterative Pre-training)方法,把通用机器人的基础运动能力划分为不同级别,进行循序渐进的预训练,这个过程让训练的结果更可控,从而高效地产出和收集有效数据,训练出高性能的策略(Policy)。
在这次测试中,我们看到野外和实验室、城市的最大区别是,没有一个台阶或者斜坡,甚至平地是一样的;从山脚到山顶,沿途的地貌截然不同,水土流失导致地下岩石裸露,斜坡上长满缠绕的藤蔓,土层风化变成泥沙覆盖地面,就地取材搭成的沟渠奇形怪状,这些都是P1从未经历过的场景,对于普通人来说也不是轻而易举就能克服。
在仿真训练过程中,P1没有被输入过任何与森林、徒步相关的数据,与落地环境差异巨大,但依然能够适应全新的环境,在变化莫测的森林中自如行走。这得益于逐际动力系统化的强化学习训练,保证研发成果在实际应用中可行、可用、可靠。
标签:动力,P1,机器人,塘朗山,双足,逐际,强化 From: https://www.cnblogs.com/devilmaycry812839668/p/18106737