首页 > 其他分享 >gym游戏_单腿翻滚的reward简略函数的设置

gym游戏_单腿翻滚的reward简略函数的设置

时间:2024-11-16 16:42:07浏览次数:1  
标签:function 单腿 设置 gym ob https reward

相关:

https://openai.com/index/learning-from-human-preferences/



google的researcher人为设定了一个reward function,具体形式如下:

def reward_fn(a, ob):
    backroll = -ob[7]
    height = ob[0]
    vel_act = a[0] * ob[8] + a[1] * ob[9] + a[2] * ob[10]
    backslide = -ob[5]
    return backroll * (1.0 + .3 * height + .1 * vel_act + .05 * backslide)

这个reward function是单独为实现单腿翻滚这个目的设计的,是人为手工设计的,是凭借专家经验设置的,可以解读为这个设置是人工手调的,在这个奖励函数的设置下可以使用RL算法训练得到下面的效果:


Badgif3



researcher同时给出了一种人为评价方式优化奖励函数的方法来优化reward function,其论文地址:

https://arxiv.org/pdf/1706.03741

在该种优化方式下获得的新的reward function,并在新获得的reward function情况下训练RL算法获得如下的运行效果:

Goodgifb1 2

可以看到使用这种通过人为偏好评价优化reward function的方式训练获得的效果会更加的平滑,效果更有。



相关:

https://arxiv.org/pdf/1706.03741

image-20241116145618833



个人github博客地址:
https://devilmaycry812839668.github.io/

标签:function,单腿,设置,gym,ob,https,reward
From: https://www.cnblogs.com/xyz/p/18549471

相关文章

  • NLP论文速读(斯坦福大学)|生成式奖励模型(Generative Reward Models)
    论文速读|GenerativeRewardModels论文信息:简介:   这篇论文探讨了如何提高现代大型语言模型(LLMs)的性能,特别是在强化学习从人类反馈(RLHF)过程中的效率和效果。RLHF方法虽然有效,但它需要大量的人类偏好数据来训练奖励模型,这不仅资源密集,而且技术上具有挑战性。此外,现......
  • gym103102H AND = OR 题解
    非常巧妙的一个题。我们首先考虑单组询问该怎么做。首先需要注意到一个结论,即设答案为\(x\),那么对于\(\forally<x\),\(y\)都应该放在与组;同样的,对于\(\forally>x\),\(y\)都应该放在与组。进一步的,我们观察在\(\text{popcount}\)上也有同样的性质,即对于\(\forally,......
  • RL 基础 | 如何使用 OpenAI Gym 接口,搭建自定义 RL 环境(详细版)
    参考:官方链接:Gymdocumentation|Makeyourowncustomenvironment腾讯云|OpenAIGym中级教程——环境定制与创建知乎|如何在Gym中注册自定义环境?g,写完了才发现自己曾经写过一篇:RL基础|如何搭建自定义gym环境(这篇博客适用于gym的接口,gymnasium接口也差不......
  • 将URDF模型文件导入Issac_Gym系列【1】
    1在solidworks中导出URDF文件1这里按照古月居老师的要求进行基本的配置https://www.bilibili.com/video/BV1Tx411o7rH/?vd_source=fcddcf87e97b17fd530dc88db643aab3关于catkin_ws这种ROS的工作环境的配置,具体可以参考我的这篇博客https://www.cnblogs.com/myleaf/p/1846629......
  • GPU释放威力:在Gymnasium环境中使用稳定基线3在AMD GPU上训练强化学习代理
    GPUUnleashed:TrainingReinforcementLearningAgentswithStableBaselines3onanAMDGPUinGymnasiumEnvironment—ROCmBlogs2024年4月11日作者: DouglasJia.本博客将深入探讨深度强化学习的基本原理,通过一个实用的代码示例,指导您如何利用AMDGPU在Gymnasium......
  • 关于仿真Issac-GYM出现Tensor出现Nan报错的解决方案及分析过程
    报错问题:出现了一个Nannum_envs很小的情况下没问题,一旦大于50就有nan然后被强行停止函数的运行Traceback(mostrecentcalllast):File"train.py",line43,in<module>train(args)File"train.py",line39,intrainppo_runner.learn(num_learning_iterat......
  • Rex-Gym: 开源四足机器人的OpenAI Gym环境
    rex-gymRex-Gym:开启四足机器人强化学习的新篇章在人工智能和机器人技术快速发展的今天,四足机器人因其灵活性和适应性而备受关注。Rex-Gym项目应运而生,为研究人员和开发者提供了一个强大的工具,用于探索和优化四足机器人的行为控制。本文将深入介绍Rex-Gym的核心特性、应用场......
  • 强化学习环境gym/gymnasium下的atari环境的v0、v4、v5的说明
    声明:本文是最新版gym-0.26.2下Atari环境的安装以及环境版本v0,v4,v5的说明的部分更新和汇总,可以看作是更新和延续版本。由于gym已经由openai公司独立出来,虽然开发团队和投资方都没有变,但是相关的网站和版本已经由变化了,名字也从gym变成gymnasium,因此我们在讨论gym的时候默认都是......
  • 强化学习:gym下atari游戏环境的官方文档地址
    2024年10月16日共建议查看两个历史上的官方地址:https://ale.farama.org/https://www.gymlibrary.dev/最新官方地址:https://ale.farama.org/历史版本的官方地址,适合查看更全面的相关信息:地址:https://www.gymlibrary.dev/......
  • Issac_GYM对Go2机器人的仿真心得
    override覆盖torques扭矩1args()参数信息等cd/home/yyds/桌面/Gym2/legged_robot_competition-master/legged_gym/legged_gym/utils/helpers.py这里对train等参数的调用情况进行了说明比如:pythonplay.py--task=go2--num_envs=64--checkpoint=50--load_run=/ho......