首页 > 编程语言 >强化学习:基于课程学习的强化学习算法 —— 《Combining Reward Shaping and Curriculum Learning for Training Agents with Hig

强化学习:基于课程学习的强化学习算法 —— 《Combining Reward Shaping and Curriculum Learning for Training Agents with Hig

时间:2024-12-09 14:45:30浏览次数:3  
标签:High distance 学习 奖励 课程 行走 walker 强化 reward

地址:

https://www.tesble.com/10.1109/ICTC.2018.8539438



image



我们在四种不同的奖励函数和终止条件下对行走者进行了训练,以评估结合奖励塑形和课程学习的效果。具体如下。
1)距离稀疏奖励:行走者到达目标时给予1个奖励,否则为0。
2)距离课程奖励:给予行走者的奖励与行走者距离稀疏奖励情况相同,但随着行走者成功到达目标,目标的距离变得更远,即课程学习。
3)塑形奖励:根据行走者的身体部位,每一步都会给予奖励。具体来说,考虑了与目标方向的速度和对齐、头部高度和头部运动。这是Unity ML-Agent的默认设置。
4)塑形距离课程奖励:它是行走者默认奖励和行走者距离课程奖励的结合。



We have trained the walkers in four scenarios with varying
reward functions and termination conditions for evaluation
of the effect of combining reward shaping and curriculum
learning. They are as follows.

  1. distance-sparse-reward : 1 reward is given when the
    walker reaches the target, otherwise, 0.
  2. distance-cl-reward : the reward given to the walker is the
    same as walker-distance-sparse-reward case but the distance
    of the target gets farther as the walker succeeded to reach the
    target, i.e., curriculum learning.
  3. shaped-reward : reward is given for every step according
    to the body parts of the walker. Specifically, velocity and
    rotation alignments with the target direction, head height and
    head movement are considered. This is the default setting of
    Unity ML-Agent.
  4. shaped-distance-cl-reward : it is the combination of the
    walker-default-reward and walker-distance-cl-reward.




标签:High,distance,学习,奖励,课程,行走,walker,强化,reward
From: https://www.cnblogs.com/xyz/p/18594854

相关文章

  • 【Linux探索学习】第三弹——Linux的基础指令
    前言:在前面我们已经讲了有十几个Linux的基础指令及相关的知识了,今天我们再补充几个重点的基础指令,给基础指令收个尾,为下面的内容做准备目录一、date指令时间显示设定时间时间戳二、cal指令三、find指令find指令which指令whereis指令四、grep指令五、zip/unzip指......
  • USB PD 3.1协议学习
    USBPD3.1那什么是USB_PD_3.1呢?USB3.1是USB的一种传输标准,速度可以达到10Gbit/s,那PD是什么?PD(PowerDelivery)就是电力输送,也就是充放电用的,它可以达到最高100W的功率。1、资料下载地址USB_Power_Deliery_3.1文档下载链接2、Type-C接口信号组信号描述USB3.1RX2+,R......
  • GObject学习笔记(二)类型创建与注册
    前言本文可在https://paw5zx.github.io/GObject-tutorial-beginner-02/中阅读,体验更加在上一节中我们介绍了GObject类型的类和实例变量的创建和使用。GObject是一个基本的可实例化类类型,是所有使用GObject系统的类型的基类,提供了继承、封装、多态等面向对象的核心特性。不过我们......
  • CTF学习笔记
    RSA入门(二)-Kicky_Mu-博客园按键音(即DTMF)解密网站:DTMFDecoderPHP伪协议e.ghttp://node5.anna.nssctf.cn:25660/falg.php不能通过换思路http://node5.anna.nssctf.cn:25660/flag或者?file=php://filter/resource=flagwebdog1_startif(isset($_GET['web'])){$f......
  • 归纳偏差——深度学习
    一、定义在机器学习和深度学习的语境中,归纳偏差(inductivebias)是指学习算法(如神经网络)在学习过程中对数据所做的假设。这些假设帮助算法在面对有限的训练数据时,能够选择一种合适的模型,并且将从训练数据中学到的知识泛化到未见过的数据上。它就像是一种先验知识,引导模型的学习......
  • 从「读万卷书」到「行万里路」:大语言模型中的强化学习之路
    在过去的两年里,AI尤其是大语言模型(LLM)领域发展迅猛,从ChatGPT的崛起到各大厂纷纷推出自家大模型,几乎天天有新进展。对于许多程序员而言,这些模型在预训练和微调上的方法可能早已耳熟能详:先用海量文本数据进行自监督学习(Self-SupervisedLearning),再通过人类反馈(如RLHF)对模型......
  • 【机器学习】机器学习的基本分类-无监督学习-K-Means聚类
    K-Means是一种基于划分的无监督学习算法,用于数据聚类任务,它通过迭代优化将数据分组为k 个互斥的簇,使得每个簇内数据点的相似性最大化,而簇间的相似性最小化。它通过最小化簇内样本点到簇中心的距离平方和(即误差平方和,SSE)来完成聚类任务。1.算法原理目标函数K-Means的目......
  • 强化学习 随机梯度下降
    在强化学习中,随机梯度下降(StochasticGradientDescent,SGD)是一种常用的优化算法,用于更新模型参数以最小化损失函数。这种方法通过在每次迭代中使用一个随机样本或小批量样本来近似梯度,从而加速训练过程并提高效率。随机梯度下降在强化学习中的应用具有一定的优势和挑战。......
  • 强化学习 不动点原理
    在强化学习中,不动点原理是一个重要的数学工具,用于求解最优策略和值函数。不动点是指一个函数$f(x)满足满足满足f(x)=x$的点,即该点在函数作用下保持不变。在强化学习中,贝尔曼最优公式是通过不动点原理来求解的,这基于Banach不动点定理,该定理指出如果一个函数是压缩......
  • 强化学习 蒙特卡洛算法
    蒙特卡洛方法在强化学习中是一种重要的算法,它主要用于策略评估和改进。这种方法不需要对环境的动态有完全的了解,因此特别适用于模型未知的情况。蒙特卡洛方法的基本思想是通过多次采样来估计状态值或动作值。具体来说,它通过执行完整的动作序列来评估状态价值或动作价值函数......