人形机器人 —— 强化学习：站立和行走的奖励函数设置

时间：2024-12-06 23:20:52浏览次数：3

相关：

https://docs.zeroth.bot/ml/rl

Reward Shaping
General Configuration for Standing
A general configuration for standing involves ensuring that the original URDF (Unified Robot Description Format) model is set to fulfill the standing position. The goal is to minimize deviation from this original position during training.

If necessary, an orientation reward can be included to encourage the robot to maintain an upright posture. This can be achieved by adding a term to the reward function that penalizes deviations from the desired orientation.

Walking Rewards
For training the robot to walk, we have an additional set of rewards that are added to the standing rewards. Crucially, maintaining the original standing position accounts for 80% of the total reward during initial training, which ensures the policy first learns a stable standing position. This is essential since standing represents the base distribution from which other behaviors must develop.

Forward Velocity Reward: This reward encourages the robot to move forward. It can be defined as a function of the robot’s forward velocity, but is weighted to be less significant initially to prevent premature optimization for walking before stability is achieved.

Additional rewards such as feet clearance and contact forces are crucial for achieving sim2real transfer and handling various real-world properties like friction coefficients. These rewards ensure the policy learns realistic locomotion patterns that can translate to physical robots. The action smoothness reward particularly helps generate commands that are feasible for real-world actuators to execute under typical PID control schemes.

机器人站立时的奖励函数，站立的位置不能离初始位置太远，根据站立后的水平位置距离初始位置的距离进行惩罚设置；站立后的朝向方向应该是直立的，根据站立后机器人的姿态与直立姿态的差距进行惩罚奖励设置。

训练机器人行走时的奖励需要设置为多个阶段，如初始阶段和正常阶段，初始阶段时可以认为是主要进行站立训练，这时候机器人站立后的位置与初始位置距离造成的惩罚是总奖励惩罚的80%，此时以训练站立效果为主；随着训练站立效果比较成熟后逐渐增加行走方面的奖励，此时减少站立的奖励所在总奖励的比例，行走时的奖励包括行走的速度奖励，但是为了使机器人行走稳定，因此行走部分的奖励比重不大，驱动器（电机）的输出的平滑程度也是需要考虑的奖励和惩罚，可以根据机器人驱动器距离PID控制时的输出值的距离判定其平滑程度，从而给予奖励和惩罚。

标签：standing,站立,机器人,人形,奖励,行走,reward
From： https://www.cnblogs.com/xyz/p/18591595

Mobile ALOHA：自主协作机器人技术的突破
在当今科技飞速发展的时代，协作机器人技术成为推动各行业智能化变革的关键力量。MobileALOHA项目，由斯坦福大学研究人员开发，不仅展示了机器人在复杂环境中与人类协同工作的巨大潜力，还为未来人机协作模式的创新提供了重要的范例，标志着协作机器人技术的一个重大突破。Co......
人形机器人 —— web环境下的mujoco可视化
地址：https://zalo.github.io/mujoco_wasm/......
人机协作智能体如何助力人形机器人产业发展？网易伏羲受邀分享前沿观点 | 活动预告
随着人工智能技术的飞速发展，人形机器人作为未来智能生活的重要组成部分，正逐步从科幻走向现实，其在各个领域的应用潜力日益凸显。从工业生产到医疗健康，从家庭服务到教育娱乐，人形机器人以其独特的形态优势、高度灵活的交互能力和强大的学习适应性，正构建起一个多元化、智能化的应用场......
谷歌DeepMind—运用深度强化学习为双足机器人学习敏捷足球技能 Movies
原文链接：OP3SoccerTakealookattheOP3Poweredby DYNAMIXEL看看由DYNAMIXEL驱动的OP3 WeinvestigatewhetherDeepReinforcementLearning(DeepRL)isabletosynthesizesophisticatedandsafemovementskillsforalow-cost,miniaturehumanoidrobottha......
ABB机器人3HAC036260-001驱动器维修看点
ABB机器人驱动器是机器人运动控制系统的核心组件之一，负责为机器人提供必要的动力和控制信号，以确保其能够准确、稳定地完成各种工作任务。然而，由于长时间运行、环境因素或操作不当等原因，abb机械臂驱动器3HAC036260-001可能会出现各种故障，影响机器人的正常运行。常见故障及维修方法1......
电话机器人外呼神器，效果真的这么神奇吗？
电话机器人外呼神器，其效果确实令人瞩目，称之为“神奇”也并不为过。以下是我从多个维度对其效果的详细阐述：一、高效自动化电话机器人外呼神器能够批量外呼，无需人工手动拨号，同时能筛选掉空号和拒接号码，大大提高了工作效率。据数据表明，人工一天只能拨打200~300通电话，而机器人每......
松下机器人示教器AUR01062触摸无反维修
Panasonic松下机器人示教器AUR01062触摸无反应解决方案松下机器人示教器现象：触摸屏幕时鼠标箭头无任何动作，没有发生位置改变。原因：造成此现象产生的原因很多，下面就松下机器人维修中示教器触摸无反应原因逐个说明：①表面声波触摸屏四周边上的声波反射条纹......
人形机器人：从零开发人形机器人 —— 某开源的个人DIY版本（2500元DIY世界最小，开源端到端
相关介绍：https://www.bilibili.com/video/BV1in6PY7E1B......
人形机器人 —— IsaacROS
标题建议，例如：英伟达IsaacROS产品体验运行的商品名称产品名称：IsaacROS版本信息及相关配置：运行的过程记录【GPU加速仿真】请描述您在使用IsaacROS进行GPU加速不同任务的具体操作步骤和过程，如之前有使用ROS/ROS2框架的经验，可以做一个对比记录。【AI功能集成】您......
人形机器人 —— IsaacSim
标题建议，例如：英伟达IsaacSim仿真平台体验运行的商品名称产品名称及版本：IsaacSim版本信息及相关配置：运行的过程记录【GPU加速仿真】请描述您在使用IsaacSim进行GPU加速仿真的具体操作步骤和过程。可以创建一些简单的任务，例如：创建一个简单的多球体下落场景逐步......

人形机器人 —— 强化学习：站立和行走的奖励函数设置

相关文章

赞助商

阅读排行