人形机器人从人类演示(demenstration)数据中学习的几种方式
- 使用仿真环境,在仿真环境中生成近似人类的行为数据,然后利用仿真生成的数据训练机器人。
该种方式最为传统,也最为易行,但是由于仿真环境下生成的数据(模拟仿真下训练的强化学习算法)与真实环境有一定差距,因此往往效果不是十分理想,该种方式比较适用于学术研究中。
- 使用传感器和VR眼镜,人类亲自操纵机器人在真实环境下行动,并收集真实行为数据用来训练机器人。
该种方式是目前效果最好的方式,也是最为普遍使用的方式,但是该种方式往往需要非常巨大的人力成本,费时费力,因此属于一线大公司才会采用的方式,属于不在乎花销只在乎性能表现的做法。
- 人类直接在真实环境行进行行为动作,然后使用相机拍摄视频,将人类的真实行为数据以视频形式喂给算法,进行算法训练。该种方式可以将人类视频数据直接训练算法,也可以结合仿真环境下数据一并训练算法,由于这个方式是NVIDIA 2024年提出的,因此具体细节还不清楚。需要注意的是该种方式与第二种方式最大的区别就是人类数据并没有使用传感器收集,而是直接使用视频形式收集,虽然提高了通用性,但是也提高了算法难度。该种方式需要对人体的姿态和动作进行识别和跟踪,并将机器人的关节点与人类的某些关节点相匹配对应。但是由于人类姿态识别算法的精度和人体关节点和机器人关节点的对应匹配问题,因此该种方式是否通用还待进一步确认。
个人估计,该种方式不太能用于训练一些精细的任务,对于控制精度要求不高的动作,如:学习人类的一些步态,手足的姿态,一些舞蹈的动作,单腿站立,瑜伽动作,等等;但是对于精确度要求高的的动作,如:抓取动作,灵巧手动作,等等,该种方式就可能不太适用了。
PS. 上面给出的三种收集人类行为动作数据的方式各有优劣,因此个人认为在实际应用中可以适当的将三者结合,每一种方式都在不同的学习阶段进行使用,或许这样混合的方式会更实际好用些。
标签:该种,方式,机器人,算法,behavior,人类,数据,demenstration From: https://www.cnblogs.com/devilmaycry812839668/p/18093263