离线强化学习 Offline Reinforcement Learning 之 BEAR 算法

标签：策略动作离线 BEAR 学习算法 Reinforcement policy

BEAR Bootstrapping Error Accumulation Reduction

时间：2019 NIPS Conference and Workshop on Neural Information Processing System
题目：Stabilizing Off-policy Q-Learning via Bootstrapping Error Reduction
作者：Arival Kumar等

Motivation

众所周知强化学习 on-policy 水到渠成，学到什么策略就去试探然后改进，最后得到最优策略。为了提高样本利用率，我可以来学习你的经验这就是 off-policy。所有的经验都可以实时获取实时改变，这就是 online。你只有你现在有的，这就是 offline。从一些不是你的东西的东西中学到属于你的东西必然是提升样本效率的一大利器，所以 offline RL 这么火也是必然的（毕竟还是要落地的）。
off-policy数据不更新不就是offline吗，所以本文提出的方法也属于offline RL。

贝尔曼算子积累的bootstrapping error 是本文思路的切入点。

主要思路

当我们将话题转向数据不更新的 off-policy 强化学习时，（限定下讨论范围为 value-based）问题自然转向为什么有些动作状态对的值会估计不准确。这正是由于数据不更新，如果本来就没有这个只靠你自己拟合出来的值函数泛化，自然就容易出问题（你也不一定能猜对啊），即为 out-of-distribution inputs。本文就是针对该情况形式化并分析了从非策略数据学习时不稳定和性能差的原因。并表明通过仔细的动作选择，可以减轻通过Q函数的错误传播。具体提出的方法就是基于支撑集概念的BEAR算法。“Our approach is motivated as reducing the rate of propagation of error propagation between states.”

论文试验表明该方法在连续控制MuJoCo任务上的有效性，包括各种非策略数据集：由随机、次优或最优策略生成。BEAR对训练数据集始终具有鲁棒性，在所有情况下都匹配或超过最新技术，而现有算法仅对特定数据集表现良好。

误差分析

background 部分属于强化学习常规知识介绍，在此不做赘述。
重点分析下误差的产生，文中给出了贝尔曼误差和第\(k\)次迭代的总误差之间的关系

根据之前的描述，在那些 OOD 状态和动作上，他们的贝尔曼误差自然就大（因为没有出现所以从未优化过）

为了减轻自举错误，可以限制策略确保它输出支持训练分发的操作。这与BCQ不同，后者隐式地限制学习策略的分布，使其接近行为策略，类似于行为克隆。虽然这足以确保动作以高概率出现在训练集中，但限制性太强。例如，如果行为策略接近统一，则学习的策略将随机行为，导致性能不佳，即使数据足以学习强策略。

受上述情境的影响，我们可以限制动作，但不限制其值与行为策略得到的一致。【这样就可以从大部分次优动作少部分最优动作中也能选出好的动作，而不局限于和行为策略一样，不知道这么理解对不对，有想法的朋友可以多多提出建议互相讨论一下。】当然，一些很稀有的动作弄出来还是不太好拟合，所以就引入支撑集的概念，筛去那些很少见的动作。

算法介绍

。。。未完待续

参考链接

【论文笔记】BEAR: 通过减小Bootstrapping Error来进行离线RL学习 - Eric Liu的文章 - 知乎 https://zhuanlan.zhihu.com/p/250498558
【论文笔记 6】BEAR - Tairan He的文章 - 知乎 https://zhuanlan.zhihu.com/p/266707283
【离线强化学习(Offline RL)系列3: (算法篇)策略约束- BEAR算法原理详解与实现 - 旺仔搬砖记的文章 - 知乎https://zhuanlan.zhihu.com/p/493490905

标签：策略,动作,离线,BEAR,学习,算法,Reinforcement,policy
From： https://www.cnblogs.com/yuyuanliu/p/16640601.html