首页 > 其他分享 >论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation

论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation

时间:2023-03-24 15:07:10浏览次数:59  
标签:Off 迭代 Iterative policy step behavior RL Offline



  • 摘要:先前的大多数 Offline-RL 方法都采用了涉及 Off-policy evaluation 的迭代 Actor-Critic (AC) 方法。本文中我们证明了只需简单地基于 behavior policy 的 on-policy 论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_离线强化学习。这种 One-step 算法在大部分 D4RL benchmark 上击败了之前的迭代算法。这种 One-step baseline 在实现强大性能的同时,比以前提出的迭代算法简单很多,且对超参数更鲁棒。我们认为,迭代方法之所以性能较差,一方面是因为执行 Off-policy evaluation 时固有的高方差导致价值估计不准,另一方面是因为基于这些低质量价值估计迭代进行 policy improvement 会放大价值估计问题。此外,我们认为 One-step 算法的强大性能是由于它结合了 “环境中的有利结构” 和 “行为策略”

文章目录

  • 1. 背景
  • 1.1 Offline RL
  • 1.2 One-step & Multi-step
  • 1.3 Related work
  • 2. 本文方法
  • 3. 实验
  • 4. 讨论
  • 4.1 迭代算法的问题
  • 4.1.1 问题的表现
  • 4.1.2 Distribution shift
  • 4.1.3 Iterative error exploitation
  • 4.2 迭代方法的优势

1. 背景

1.1 Offline RL

  • Offline RL 是这样一种问题设定:Learner 可以获取由一批 episodes 或 transitions 构成的固定交互数据集,要求 Learner 直接利用它训练得到一个好的策略,而且禁止 Learner 和环境进行任何交互,示意图如下

    关于 Offline RL 的详细介绍,请参考 Offline/Batch RL简介
  • Offline RL 是近年来很火的一个方向,下图显示了 2019 年以来该领域的重要工作

    本文出现在 21 年,严格地讲作者其实没有提出新方法,只是发现了 “Offline 设定下,One-step 这种 train schedule,作为广义策略迭代(GPI)的一个特例,可以取得高性能” 这一现象,并深入探究分析了其原因,揭示了 Offline RL 训练的一些规律和特点,有较强的启发性
  • 本文给出的 Offline RL Preliminaries 如下

考虑有限 MDP 论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_lua_02,离线数据集 论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_lua_03 由某 behavior policy 论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_lua_04 收集的 论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_one-step_05 组成,期望奖励为 论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_lua_06,任意策略 论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_lua_07论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_lua_08 价值定义为
论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_Offline RL_09 目标是最大化学得策略的期望 return
论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_迭代_10

1.2 One-step & Multi-step

  • 解释一下 One-step 概念,这是针对要做 policy evaluation 价值评估的 RL-based 类 Offline RL 方法而言的。大多数这类方法都是基于 Bellman 等式做 TD-Learning 来评估价值的,整个过程服从广义策略迭代(GPI)框架,即迭代进行 policy evaluation 和 policy improvement 两步,其中
  1. policy evaluation 阶段:先用上一步迭代的价值估计 论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_one-step_11 进行 warm-start,然后用数据集 论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_迭代_12 估计当前策略 论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_迭代_13 的价值 论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_lua_14
  2. policy improvement 阶段:先用上一步迭代的最新策略 论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_迭代_13 进行 warm-start,然后根据估计价值 论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_lua_14、估计的行为策略 论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_Offline RL_17 和数据集 论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_迭代_18 来更新得到策略 论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_one-step_19
  • 归纳得到如下通用算法模板

    根据 GPI 迭代的次数和程度,作者区分了以下几个概念
  1. One-step:迭代次数 论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_lua_20。首先通过最大似然(比如 MC)得到 behavior policy 的估计 论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_lua_21,然后做 Policy evaluation 至价值收敛,得到 behavior policy 的价值估计 论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_one-step_22,最后做一步 Policy improvement 得到 论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_离线强化学习_23 就结束。注意这个过程完全避免了 off-policy 的 bootstrap 计算
  2. Multi-step:迭代次数 论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_Offline RL_24,其他都和 One-step 一样,注意每一次 Policy evaluation 都要评估至收敛。由于 Offline 数据集是由 behavior policy 论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_lua_04 收集的,论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_离线强化学习_26
  3. Iterative actor-critic:这个很类似 Multi-step,区别在于使用更大的超参数 论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_Offline RL_27,且不要求每次迭代中的 Policy evaluation 收敛。通常这里 evaluation 和 improvement 两步都使用梯度方法,具体使用的 operators 可以和 Multi-step 中相同
  • 下图(来自 R_BVE 论文)展示了 One-step 和其他两种涉及 Off-policy evaluation 的 Iterative 方法在流程上的区别
  • 论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_迭代_28

  • 下图(来自本文)显示了策略空间上的区别,注意学得策略 论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_one-step_29 被约束在 behavior policy 论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_one-step_30 附近的安全范围内
  • 论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_Offline RL_31

1.3 Related work

  • Iterative 方法:这类方法涉及到 论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_离线强化学习 函数的多步 iterative & off-policy 评估,涵盖了上文提到的 Multi-step 和 Iterative actor-critic,过去大多数 RL-based 类算法都属此类。为了减轻 Extrapolation Error(见 BCQ 论文解析 2.1 节) 问题对价值估计质量的影响,这些方法提出各种措施来确保学得策略不会偏离 behavior policy 太远,大致可以分成以下三类
  1. policy constraints/regularization: 直接优化 policy,使之和 behavior policy 接近。一类做法是对策略网络施加强约束,使其只选择 “能使 论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_lua_33 具有足够数据集支撑” 的动作 论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_lua_34(比如在 BC 的基础上加一个随机扰动),代表方法有 BCQ、SPIBB 等;另一类做法是在策略网络的优化目标中增加 KL、MMD 等正则化项,鼓励学得策略和 behavior policy 接近,代表方法有 BEAR 等
  2. modifications of imitation learning:基本都是 BC 的变体,比如先过滤掉低 论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_lua_08 价值数据再做模仿学习,或者根据 论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_lua_08
  3. Q regularization:这类方法主要从 论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_离线强化学习_37 函数估计(或者说 critic 的优化目标)入手,通过引入正则化措施,对未知或不确定的 论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_离线强化学习_38 保持悲观态度,从而间接地鼓励学得策略呆在 behavior policy 附近。比如 BRAC、CQL、Fisher-BRC、R_BVE 等
  • one-step 方法:这类方法只对 behavior policy 做一次 on-policy 的 论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_离线强化学习 价值评估,然后优化一步 policy 结束,不涉及任何 iterative & off-policy 评估操作,不存在 Extrapolation Error 问题。过去的方法有
  1. 在 D4RL 上做连续控制的 YOEO,该方法比较复杂,涉及 distributional 论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_lua_08
  2. 针对 Atari 等离散问题的 R_BVE,这种情况下 policy improvement 可以基于 论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_lua_08 估计精确地进行,本文则主要针对连续控制问题;另外 R_BVE 将 Iterative 方法的问题归结于对 论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_lua_08
  • 其实理解 One-step 的做法之后,熟悉 RL 的读者应该对它的性能有一个大概的估计了,One-step 只对 behavior policy 做了一步提升,其实不会比 behavior policy 好太多,特别是 behavior policy 比较差的时候,One-step 学到的策略 论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_Offline RL_43 应该也是挺差的。但人们发现很多时候 One-step 的性能常比 Multi-step 和 Iterative actor-critic 等 Off-policy 迭代方法强很多,这就说明一定有一些因素破坏了多步方法的性能,本文对此现象进行进一步分析,贡献包括
  1. 提出了一个简单的 one-step baseline,其在很多 Offline RL 问题上优于更复杂的 Iterative 方法
  2. 检查了 Iterative 方法中 off-policy 价值评估的失效模式
  3. 描述了何时 one-step 算法可能优于 Iterative 方法

2. 本文方法

  • 先回顾一下前面的算法模板
  • 对于 policy improvement,作者考察了以下常用算子
  1. Behavior cloning:直接返回 论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_迭代_44 作为新的策略 论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_迭代_45,其它算子应至少超过这个最简单的 baseline。这个算子和上文的 “modifications of imitation learning” 相关
  2. Constrained policy updates:BCQ 和 SPIBB 等算法使用这类算子将 policy 限制在 behavior policy 附近,作者这里用了一个简化版本的 BCQ 算子,称之 easy BCQ,它去掉了扰动网络,改成从 论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_迭代_46 中采样 论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_迭代_47 个样本,然后根据 论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_离线强化学习_48 贪心地更新策略,如下
    论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_one-step_49 这个算子和上文的 “policy constraints/regularization” 相关

Note:这里我感觉公式有点问题,策略的优化过程没有被约束到 behavior policy 附加,候选动作 论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_迭代_50 应当采样自 论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_迭代_51,即改成
论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_Offline RL_52

  1. Regularized policy updates:BRAC 等算法使用这类算子向 Offline RL 的最大化 return 目标中引入正则项,来控制策略优化过程中和 behavior policy 的偏离程度。给定任意散度 论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_迭代_53,如下进行 policy improvement
    论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_lua_54 过去的研究发现 论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_迭代_53 的不同选择影响不大,实践中通常使用 reverse KL divergence 论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_one-step_56。直观上看,这种正则化迫使 论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_离线强化学习_57 保持在 论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_one-step_58 的支持下,而 2 中的正则化鼓励 论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_离线强化学习_57 覆盖 论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_one-step_58。此算子和上文的 “Q regularization” 相关
  2. Variants of imitation learning:这类算子通过对观察到的行为进行过滤或加权来修改模仿学习算法,以进行 policy improvement。作者这里使用优势估计的指数来加权动作
    论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_离线强化学习_61
  • 对于 policy evaluation,本文作者仅考虑了 DDPG 那种简单的配合 target 网络进行的 td-style learning,没有使用更复杂的 Double Q Learning 或 Q ensembles 等做法,作者认为这些值得未来进一步研究

3. 实验

  • 作者将 one-step、multi-step、iterative 等算法模板和 Easy BCQ、reverse KL regularization、exponentially weighted imitation 等 improvement operator 进行各种组合,并在 D4RL 数据集上测试性能

    这里第一列是 D4RL 里几种 Iterative 算法经过超参数调优后的最佳结果,后面是使用不同 policy improvement 算子的 one-step 方法。可见大多数情况下 one-step 都超过了 Iterative 方法,唯一的例外是在 random 数据集上
  • 为了进一步探索 one-step 的性能特点,作者对使用 Rev KL Reg 算子的 one-step 方法进行了更多迭代,性能如下

    发现更多的迭代计算往往破坏性能,这启发我们:在尝试一些更复杂的东西之前,将 one-step 算法作为 baseline 运行是值得的,这种简单的方法经常取得更好的性能

4. 讨论

4.1 迭代算法的问题

4.1.1 问题的表现

  • 作者通过调整 Rev KL Reg 算子中逆 KL 散度正则化项的系数来调整约束强度,考察不同强度下的训练曲线
  • 论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_迭代_62

  • 可见
    1. Iterative & multi-step 方法的训练过程在约束强度不足时会迅速崩溃,加强正则化可以帮助防止这种崩溃,因为对行为策略的足够强的正则化确保了评估几乎是 on-policy 的
    2. one-step 方法关于约束强度要鲁棒得多,且其最优约束强度也要低一些
    3. 当约束足够强时,各种方法的性能差不多,这是因为学得策略被严格约束到 behavior policy 附近,policy evaluation 过程几乎变成和 one-step 一样的 on-policy 了
  • 作者将迭代算法崩溃的原因归咎于 Distribution shiftIterative error exploitation,下面分别说明

4.1.2 Distribution shift

  • 这个老生常谈了,任何依赖于 off-policy evaluation 的算法都会遇到 Distribution shift 问题,这会减少有效样本量,并增加估计的方差。过去有一些文章对此进行了理论分析,BCQ 论文中将这个问题称作 Extrapolation Error,为了减轻此问题,大多数 RL-based 方法都要对 policy 施加约束,这也产生了这类方法的一个核心矛盾:为了得到并利用更准确的价值估计,学得策略不能离 behavior policy 太远,而我们又想学得策略性能尽量超越 behavior policy,因此二者又不能离得太近,需要估计并利用那些 OOD 的 论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_迭代_63,这里就产生了一个 trade-off
  • 作者检查了 off-policy 评估过程中 Distribution shift 发生的过程。先用 behavior policy 采样一个数据集从头训练 论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_one-step_64 价值,然后从 reply buffer 中采样 1000 个数据检查 论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_one-step_64 估计质量
  • 论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_Offline RL_66

  • 可见约束越弱,Distribution shift 问题越严重,论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_离线强化学习 估计质量越低;而约束足够强时,off-policy 评估的 论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_离线强化学习

4.1.3 Iterative error exploitation

  • Iterative & multi-step 方法在 policy evaluation 时会使用上一轮迭代的价值估计进行 warm-start,并使用和 policy improvement 步骤相同的数据,这导致了步骤间的依赖性,并引发 Iterative error exploitation 问题。简而言之,产生该问题的原因是 policy improvement 步骤中 论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_离线强化学习_69,R_BVE 论文中对此问题有清晰的解释
  • 论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_Offline RL_70

  • 另一张相当直观的示意图如下
  • 论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_离线强化学习_71


  • 作者也做了一点理论分析,考虑在每个 论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_离线强化学习_72 处,基于行为策略 论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_one-step_73 收集的固定数据集,对当前策略 论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_lua_74 进行policy evaluation 时会有 论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_离线强化学习_75 的误差,即价值估计为
    论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_Offline RL_76 这里误差 论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_离线强化学习_75 吸收了包括 函数近似误差缺乏样本导致的误差 等所有误差,它通常随着数据集覆盖程度减小而增大。只要 论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_迭代_78 在在不同的 论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_离线强化学习_79,为了简单起见,这里假设 论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_离线强化学习_75 对于使用固定数据集评估的所有策略 论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_lua_74 都是相同的,并把符号简化为 论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_one-step_82这种情况下估计误差不依赖于被评估的策略 论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_离线强化学习_79,因而可以将其看作辅助 reward,即有
    论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_离线强化学习_84 这样一来,当使用上一步的 论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_Offline RL_85 构造 TD target 进行 warm-start 时,误差 论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_lua_86。下面我们可以概括一下 Iterative error exploitation 的过程:
    1. 给定固定数据集,就会决定一个随着距离数据集支撑范围而增大的 “辅助奖励” 论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_lua_87
    2. 在不加约束的情况下,迭代算法会不断增大这个 “辅助奖励”,导致当前学得策略 论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_one-step_88 越来越远离行为策略 论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_Offline RL_17,使得 论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_Offline RL_90 相对 论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_one-step_91
    3. 尽管随着迭代进行,论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_one-step_91 可能给出比 论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_离线强化学习_93 更好的信号,但它很容易被 论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_Offline RL_90
    4. 相比而言,论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_one-step_95
  • 作者同时给出了例子说明
  • 论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_迭代_96

  • 这个网格环境有一个确定性奖励为 1 的好状态和一系列奖励分布为 论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_one-step_97 的坏状态,因为所有的误差都来自缺乏样本导致的奖励估计错误,所以 论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_one-step_98 确实在所有的 论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_lua_74 上都是恒定的。直观地说,当有这么多的噪声状态时,很可能其中的一些会被高估,由于重用数据,这些高估持续存在并在状态空间中传播,产生 Iterative error exploitation,实验也表明这时 one-step 确实常优于 Iterative 方法。在 benchmark 中的许多高维控制问题中,这种 “具有许多估计不佳的状态” 的特性很可能也存在,特别是当 Offline 数据分布狭窄时更是如此
  • 另外作者发现,如果打破迭代过程中由于 “重用数据” 和 “用上轮 论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_离线强化学习
  • 论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_lua_101

  • 这里右图中每次 policy evaluation 都是重新独立采样数据,从头开始进行的,可见价值高估得到有效缓解,不过这不影响 4.2 节中的 Distribution shift 问题

4.2 迭代方法的优势

  • 根据上一节的讨论,我们知道 multi-step 和 iterative 方法会传播估计误差 论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_离线强化学习_102,但不应忽视它们在传播噪声的同时也传播了有用的信号 论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_one-step_103,如果数据集有足够的覆盖范围来降低噪声的大小,信号的传播相对来说就不容易被误差 论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_离线强化学习_102。如下示例
  • 论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_lua_105

  • 这里仅仅将 behavior policy 改成了更倾向于走向带噪声状态,使得 Offline 数据能充分覆盖这些状态,就能有效降低价值估计的误差,使多步 Iterative 方法能进行可靠的,更积极的规划;另一方面由于降低了 behavior policy 进入右上角良好状态的概率,损害了 one-step 方法的奖励信号传播,这两个变化使得 Iterative 方法的性能显著优于 one-step
  • 另一个更加直观的实验如下
  • 论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation_离线强化学习_106

  • 如图可见这里将来自 random behavior policy 的数据与来自 medium behavior policy 的数据按不同比例进行混合来构造 Offline 数据集,可见只需引入一点 medium 数据,就能破坏 Iterative 方法使之不如 one-step 的性能了




标签:Off,迭代,Iterative,policy,step,behavior,RL,Offline
From: https://blog.51cto.com/u_15887260/6147274

相关文章

  • OFFICE2007安装出错:“错误 1311。没有找到源文件: Y:/OFFICE11/SKU011.CAB” 的解决办
    前几天下载了一个OfficeEnterprice2007WithServicePack2中文版(石油大学原版),今天在安装时报错:“错误1311。没有找到源文件:Y:/OFFICE11/SKU011.CAB。请确认文件是......
  • 获取url参数
    URI:UniformResourceIdentifiers即通用资源标识符。有效的URI中不能包含某些字符(例如空格),URI编码方法就可以对URI进行编码(UTF-8编码),Global对象的encodeURI()和enc......
  • zeRO-Offload代码实践
    https://mp.weixin.qq.com/s/VOgNPEcDhmhMuDdy_HL0BAfromdeepspeed.ops.zero_offloadimportFP16ZeROOffloadEngine#InitializetheZeRO-Offloadenginezero_offlo......
  • DrawerLayout(官方侧滑菜单)的简单使用
    本节给大家带来基础UI控件部分的最后一个控件:DrawerLayout,官方给我们提供的一个侧滑菜单控件,和上一节的ViewPager一样,3.0以后引入,低版本使用它,需要v4兼容包,说到侧滑,相信很多......
  • 编写HelloWorld程序
    编写HelloWorld程序新建一个文件夹,用于存放代码新建一个Java文件(Hello.Java)后缀名为.java编写代码publicclassHello{publicstaticvoidmain(String[]a......
  • LeetCode剑指 Offer 05. 替换空格
    题目描述:请实现一个函数,把字符串s中的每个空格替换成"%20"。 示例1:输入:s="Wearehappy."输出:"We%20are%20happy." 限制:0<=s的长度<=10000  //使......
  • wx.TextCtrl超链接实现demo
    wx.TextCtrl超链接实现demo;直接看代码,可以直接运行。importwximportwebbrowserclassMyFrame(wx.Frame):def__init__(self):super().__init__(pare......
  • CRLF注入
    CRLF注入【漏洞介绍】CRLF注入可以将一条合法日志拆分成两条,甚至多条,使得日志内容令人误解,对日志审计造成很大的困难。或者将HTTP消息头注入恶意换行,造成会话固定、不安全......
  • curl: (35) error:0A000126:SSL routines::unexpected eof while reading
    这个错误信息"curl:(35)error:0A000126:SSLroutines::unexpectedeofwhilereading"通常表示客户端(curl)和服务器之间的SSL/TLS握手存在问题。以下是一些可能的原因和......
  • Linux 中间件 | Nginx 支持 perl-cgi
    本文环境,AmazonLinuxrelease2,全程用root用户。前提是已经装好了Nginx,并且有--with-http_perl_module模块。没有则参考添加一、首先确认并安装perl-FCGIrpm-q......