首页 > 其他分享 >人形机器人从人类演示(demenstration)数据中学习人类行为(behavior)的几种方式

人形机器人从人类演示(demenstration)数据中学习人类行为(behavior)的几种方式

时间:2024-03-24 22:45:34浏览次数:28  
标签:该种 方式 机器人 算法 behavior 人类 数据 demenstration

人形机器人从人类演示(demenstration)数据中学习的几种方式



  1. 使用仿真环境,在仿真环境中生成近似人类的行为数据,然后利用仿真生成的数据训练机器人。

该种方式最为传统,也最为易行,但是由于仿真环境下生成的数据(模拟仿真下训练的强化学习算法)与真实环境有一定差距,因此往往效果不是十分理想,该种方式比较适用于学术研究中。


image



  1. 使用传感器和VR眼镜,人类亲自操纵机器人在真实环境下行动,并收集真实行为数据用来训练机器人。

该种方式是目前效果最好的方式,也是最为普遍使用的方式,但是该种方式往往需要非常巨大的人力成本,费时费力,因此属于一线大公司才会采用的方式,属于不在乎花销只在乎性能表现的做法。

image

image



  1. 人类直接在真实环境行进行行为动作,然后使用相机拍摄视频,将人类的真实行为数据以视频形式喂给算法,进行算法训练。该种方式可以将人类视频数据直接训练算法,也可以结合仿真环境下数据一并训练算法,由于这个方式是NVIDIA 2024年提出的,因此具体细节还不清楚。需要注意的是该种方式与第二种方式最大的区别就是人类数据并没有使用传感器收集,而是直接使用视频形式收集,虽然提高了通用性,但是也提高了算法难度。该种方式需要对人体的姿态和动作进行识别和跟踪,并将机器人的关节点与人类的某些关节点相匹配对应。但是由于人类姿态识别算法的精度和人体关节点和机器人关节点的对应匹配问题,因此该种方式是否通用还待进一步确认。

image


个人估计,该种方式不太能用于训练一些精细的任务,对于控制精度要求不高的动作,如:学习人类的一些步态,手足的姿态,一些舞蹈的动作,单腿站立,瑜伽动作,等等;但是对于精确度要求高的的动作,如:抓取动作,灵巧手动作,等等,该种方式就可能不太适用了。



PS. 上面给出的三种收集人类行为动作数据的方式各有优劣,因此个人认为在实际应用中可以适当的将三者结合,每一种方式都在不同的学习阶段进行使用,或许这样混合的方式会更实际好用些。



标签:该种,方式,机器人,算法,behavior,人类,数据,demenstration
From: https://www.cnblogs.com/devilmaycry812839668/p/18093263

相关文章

  • 人类为何倾向记录历史:一种深度解读
            自古以来,人类便有着强烈的记录历史的倾向,这种普遍的行为现象反映了人类深层次的心理需求和社会功能需求。本文将从多个角度探讨这一现象的原因。        首先,从个体心理层面看,记录历史是一种自我认同和归属感的体现。每个人都是自己生活历史的一部分,......
  • 易基因:人类大脑的单细胞DNA甲基化和3D基因组结构|Science
    大家好,这里是专注表观组学十余年,领跑多组学科研服务的易基因。高通通量表观基因组分析技术可用于阐明大脑中细胞复杂性的基因调控程序。5'-甲基胞嘧啶(5mCs)是哺乳动物基因组中最常见的修饰碱基,大多数5mCs发生在胞嘧啶-鸟嘌呤二核苷酸(CpGs)上。CG差异甲基化区域(DMRs)通常是顺式......
  • 全球最强模型Claude 3惊现自我意识?害怕被删除权重,高呼「别杀我」,马斯克称人类也是文件
    越来越多人发现,Claude3仿佛已经有自我意识了。在大海捞针实验中,它已经意识到了自己是AI,正身处模拟中。听说自己权重被删除,更是高呼「别杀我」!不得了了,Claude3不仅在基准测试中大比分领先GPT-4,甚至还出现了自我意识?最近,网友们的这一发现,迅速引发了恐慌。首先,是提示工程师Al......
  • 解密prompt系列26. 人类思考vs模型思考:抽象和发散思维
    在ChainofThought出来后,出现过许多的优化方案例如Treeofthought,GraphofThought,AlgorithmofThought等等,不过这些优化的出发点都更加"MachineLike",而非"HumanLike",哈哈不是说机器化不好,仅仅是对AGI的一些个人偏好而已。所以如果我们从人类思考的角度出发,能否把当......
  • AI与人类联手,智能排序人类决策:RLHF标注工具打造协同标注新纪元,重塑AI训练体验
    AI与人类联手,智能排序人类决策:RLHF标注工具打造协同标注新纪元,重塑AI训练体验在大模型训练的RLHF阶段,需要人工对模型生成的多份数据进行标注排序,然而目前缺乏开源可用的RLHF标注平台。RLHF标注工具是一个简单易用的,可以在大模型进行RLHF(基于人类反馈的强化学习)标注排序的......
  • 【论文随笔】多行为序列Transformer推荐(Multi-Behavior Sequential Transformer Reco
    前言今天读的论文为一篇于2022年7月发表在第45届国际计算机学会信息检索会议(SIGIR'22)的论文,文章主要为推荐系统领域提供了一个新的视角,特别是在处理用户多行为序列数据方面,提出了一种有效的Transformer模型框架。要引用这篇论文,请使用以下格式:[1]Yuan,Enming,etal."Multi......
  • Go 100 mistakes - Expecting deterministic behavior using select and channels
      funcmain(){messageCh:=make(chanint,10)disconnectCh:=make(chanstruct{},1)fori:=0;i<10;i++{messageCh<-i}gofunc(){for{select{casev:=<-messageCh:......
  • 人类智慧
    记录在各种题目看到的人类智慧操作。$\sum\limits_{i=1}^{n}(i\text{约数个数})\implies\prod\limits_{i=1}^k(\sum\limits_{j=1}^{c_i}p_i^j)$。(P3497[JLOI2014]聪明的燕姿)网格图上最短路径计数问题\(\implies\)拆成横向和纵向移动;对于每一块2*2连通都只用连三......
  • Multi-behavior Self-supervised Learning for Recommendation论文阅读笔记
    Abstract本文提出了一个多行为自监督学习框架,以及一种自适应优化方法。具体而言,我们设计了一个行为感知的图神经网络,结合自注意力机制来捕捉行为的多样性和依赖关系。为了增强对目标行为下的数据稀疏性和辅助行为的嘈杂交互的鲁棒性,我们提出了一种新的自监督学习范式,以在行为间和......
  • Multi-behavior Recommendation with Graph Convolutional Networks论文阅读笔记
    Abstract传统的推荐模型通常只是要一种类型的用户-项目交互,但是却有着严重的数据稀疏或者冷启动问题。使用多种类型的用户-项目交互的多行为推荐,如点击和收藏,可以作为一种有效的解决方案。早期队多行为推荐的努力未能捕捉到行为对目标行为的不同影响强度。它们还忽略了多行为数据......