首页 > 编程语言 >HumanoidBench——模拟仿人机器人算法有未来

HumanoidBench——模拟仿人机器人算法有未来

时间:2024-07-11 11:30:49浏览次数:13  
标签:仿人 机器人 任务 学习 算法 HumanoidBench

概述

论文地址:https://arxiv.org/pdf/2403.10506
仿人机器人具有类似人类的外形,有望在各种环境和任务中为人类提供支持。然而,昂贵且易碎的硬件是这项研究面临的挑战。因此,本研究开发了使用先进模拟技术的 HumanoidBench。该基准利用仿人机器人评估不同算法的性能,其中包括各种任务,如灵巧的双手和复杂的全身操纵。研究结果表明,最先进的强化学习算法在许多任务上都很吃力,而分层学习算法在行走和触摸物体等基本动作上表现更好。HumanoidBench 是机器人界应对仿人机器人所面临挑战的重要工具,为算法和想法的快速验证提供了平台。

介绍

仿人机器人有望无缝融入我们的日常生活。然而,它们的控制装置是为特定任务手动设计的,而新任务则需要大量的工程设计工作。为了解决这个问题,我们开发了一个名为 HumanoidBench 的基准,以促进仿人机器人的学习。这涉及一系列挑战,包括复杂的控制、身体协调和长期任务。该平台为测试机器人学习算法提供了一个安全、廉价的环境,并包含与人类日常任务相关的各种任务。HumanoidBench 可以轻松纳入各种仿人机器人和末端执行器、15 项全身操纵任务和 12 项运动任务。这使得最先进的 RL 算法能够控制仿人机器人的复杂动态,并为未来的研究提供了一个方向。

相关研究

随着标准化模拟基准的出现,深度强化学习(RL)正在迅速发展。然而,现有的机器人操作模拟环境主要关注静态、短期技能,并不涉及复杂操作。相比之下,已经提出的基准则侧重于各种长期操作。不过,大多数基准都是针对特定任务设计的,而且很多都使用了简化模型。这就需要基于真实硬件的综合基准。

模拟环境

主要机器人代理是一个拥有两只灵巧影子手2 的 Unitree H1 人形机器人。该机器人通过 MuJoCo 进行模拟。模拟环境支持一系列观察,包括机器人状态、物体状态、视觉观察和全身触觉感应。人形机器人还可通过位置控制进行控制。

HumanoidBench

要执行与人类类似的任务,机器人必须能够理解其所处的环境并采取适当的行动。然而,出于成本和安全考虑,在现实世界中测试机器人是很困难的。因此,模拟环境是学习和控制机器人的重要工具。

HumanoidBench 包括 27 项任务,具有高维运动空间(多达 61 个执行器)。运动任务包括行走和跑步等基本动作。操纵任务则包括推、拉、举和抓物体等高级任务。

基准测试的目的是评估现代算法能够在多大程度上完成这些任务。机器人需要观察环境状态,并据此选择适当的行动。通过奖励功能,机器人可以学习执行任务的最佳策略。

例如,在行走任务中,机器人需要在保持前进速度的同时不摔倒。在这类任务中,优化平衡和步态非常重要。另一方面,在操纵任务中,机器人需要精确地操纵物体。这就需要了解物体的位置和方向,并进行适当的力控制。

HumanoidBench 的目标是通过这些任务促进机器人学习和控制领域的进步。利用模拟环境,研究人员可以安全地进行实验,评估机器人在许多不同场景中的性能。这将有助于开发更好的控制算法和学习方法,从而促进仿人机器人未来在现实世界中的应用。

试验

对强化学习(RL)算法的性能进行了评估,以确定仿人机器人在学习任务中面临的挑战。为此使用了四种主要的强化学习方法,包括 DreamerV3、TD-MPC2、SAC 和 PPO。结果显示,基线算法在许多任务中都低于成功阈值。

特别是,当前的 RL 算法在处理高维动作空间和复杂任务时非常吃力。仿人机器人在执行需要灵巧双手和复杂身体协调的任务时尤其困难。除此之外,操纵任务也特别具有挑战性,而且奖励往往较低。

一个常见的失败是,仿人基准难以学习机器人在高栏、门和障碍等任务中的预期行为。这是因为很难找到适合复杂行为的策略。

为应对这些挑战,正在考虑采用一种分层的 RL 方法。训练低级技能并通过高级规划策略将其结合起来,可以促进任务的解决。不过,目前的算法仍有改进的余地。

结论

该研究引入了一个名为 HumanoidBench 的高维仿人机器人控制基准。该基准提供了一个全面的仿人环境,包括从玩具到实际应用的各种运动和操纵任务。论文作者希望它能挑战此类复杂任务,促进仿人机器人全身算法的开发。

在未来的研究中,研究不同传感模式之间的相互作用非常重要。此外,还将考虑将更逼真的物体和环境与现实世界的多样性和高质量的渲染结合起来。此外,还将重点研究在难以收集实物演示的环境中引导学习的其他手段。

标签:仿人,机器人,任务,学习,算法,HumanoidBench
From: https://blog.csdn.net/matt45m/article/details/140304723

相关文章

  • 问题 E: 深入浅出学算法047-美元汇率
    5400300500300250样例输出 Copy266.67提示Day 1 ...changing 100.0000 美元= 400.0000 马克 Day 2 ...changing 400.0000 马克= 133.3333 美元 Day 3 ...changing 133.3333 美元= 666.6666 马克 Day 5 ...changing 666.6666 马克= ......
  • 排序算法
    二分查找:在已排序数组A中,定义左边界l和右边界r,获取中间索引m=floor(l+r)/2,然后将中间索引的值a[m]与待搜索值进行比较,相等则找到,返回中间索引,a[m]>t,右侧全都大于t,m-1设置为右边界重新查找,a[m]<t,m+1设为左边界重新查找。一般奇数二分取中间,偶数二分取中间靠左。一般而言,对于包n含个......
  • 从传统到智能:安全帽AI检测算法助力工地/矿山/工厂/电力巡检安全监管
    随着科技的快速发展,人工智能(AI)技术已经渗透到我们生活的方方面面,特别是在建筑工地这一对安全要求极高的领域中,AI技术的应用更是显得尤为重要。其中,安全帽AI检测算法以其高效、准确的特性,为工地的安全管理带来了革命性的变革。一、安全帽AI检测算法概述安全帽AI检测算法是一种基......
  • C语言-常用算法-6
    题目:一个球从100米高度自由下落,每次落地后反弹回原来高度的一半;再落下,那么它在第10次落地时,共经过多少米?第十次反弹多高。源代码:#include<stdio.h>intmain(){doubleheight=100,length_total=100;for(inti=0;i<10;i++){height/=2;......
  • C语言-常用算法-5
    题目:如果一个渔夫从2011年1月1日开始每三天打一次鱼,两天晒一次网,编程实现输入2011年1月日后的任意日期,输入该渔夫是在打鱼还是晒网。源代码:#include<stdio.h>intmain(){intmonth_days[12]={31,28,31,30,31,30,31,31,30,31,30,31};intyear,month,day;......
  • 计及需求响应的粒子群算法求解风能、光伏、柴油机、储能容量优化配置(Matlab代码实现)
     ......
  • 算法金 | DL 骚操作扫盲,神经网络设计与选择、参数初始化与优化、学习率调整与正则化、
    大侠幸会,在下全网同名「算法金」0基础转AI上岸,多个算法赛Top「日更万日,让更多人享受智能乐趣」今日216/10000抱个拳,送个礼神经网络设计与选择参数初始化与优化学习率调整与正则化数据预处理与标准化训练过程与监控特定模型技巧其他训练技巧1.神经网络设计......
  • 「字符串」Manacher算法(马拉车)/ LeetCode 05(C++)
    给你一个字符串 s,找到 s 中最长的回文子串。示例1:输入:s="babad"输出:"bab"解释:"aba"同样是符合题意的答案。示例2:输入:s="cbbd"输出:"bb"思路我们回想中心扩散法:某字符处的中心扩散完毕后,其实已经将它身前身后的字符段落都搜索过了,那么如果我们搜索其后的字......
  • 经典算法题目记录
    力扣1001.两数之和(复习)题目给定一个整数数组nums和一个整数目标值target,请你在该数组中找出和为目标值target的那两个整数,并返回它们的数组下标。你可以假设每种输入只会对应一个答案。但是,数组中同一个元素在答案里不能重复出现。你可以按任意顺序返回答案。......
  • (4-3)Floyd-Warshall算法:Floyd-Warshall算法的应用案例
    4.3 Floyd-Warshall算法的应用案例Floyd-Warshall算法在许多实际应用中都有着广泛的应用,特别是在需要计算图中所有顶点对之间的最短路径时,它是一种非常有效的解决方案。4.3.1  自驾线路规划暑假来临,家庭A决定自驾旅行,计划去四个城市:A、B、C、D,每个城市之间的行车距离如......