首页 > 编程语言 >离线强化学习 Offline Reinforcement Learning 之 BEAR 算法

离线强化学习 Offline Reinforcement Learning 之 BEAR 算法

时间:2022-08-30 21:44:56浏览次数:101  
标签:策略 动作 离线 BEAR 学习 算法 Reinforcement policy

BEAR Bootstrapping Error Accumulation Reduction

时间:2019 NIPS Conference and Workshop on Neural Information Processing System
题目:Stabilizing Off-policy Q-Learning via Bootstrapping Error Reduction
作者:Arival Kumar等

Motivation

众所周知强化学习 on-policy 水到渠成,学到什么策略就去试探然后改进,最后得到最优策略。为了提高样本利用率,我可以来学习你的经验这就是 off-policy。所有的经验都可以实时获取实时改变,这就是 online。你只有你现在有的,这就是 offline。从一些不是你的东西的东西中学到属于你的东西必然是提升样本效率的一大利器,所以 offline RL 这么火也是必然的(毕竟还是要落地的)。
off-policy数据不更新不就是offline吗,所以本文提出的方法也属于offline RL。

贝尔曼算子积累的bootstrapping error 是本文思路的切入点。

主要思路

当我们将话题转向数据不更新的 off-policy 强化学习时,(限定下讨论范围为 value-based)问题自然转向为什么有些动作状态对的值会估计不准确。这正是由于数据不更新,如果本来就没有这个 只靠你自己拟合出来的值函数泛化,自然就容易出问题(你也不一定能猜对啊),即为 out-of-distribution inputs。本文就是针对该情况形式化并分析了从非策略数据学习时不稳定和性能差的原因。并表明通过仔细的动作选择,可以减轻通过Q函数的错误传播。具体提出的方法就是基于支撑集概念的BEAR算法。“Our approach is motivated as reducing the rate of propagation of error propagation between states.”

论文试验表明该方法在连续控制MuJoCo任务上的有效性,包括各种非策略数据集:由随机、次优或最优策略生成。BEAR对训练数据集始终具有鲁棒性,在所有情况下都匹配或超过最新技术,而现有算法仅对特定数据集表现良好。

误差分析

background 部分 属于强化学习常规知识介绍,在此不做赘述。
重点分析下误差的产生,文中给出了贝尔曼误差和第\(k\)次迭代的总误差之间的关系

根据之前的描述,在那些 OOD 状态和动作上,他们的贝尔曼误差自然就大(因为没有出现 所以从未优化过)

为了减轻自举错误,可以限制策略确保它输出支持训练分发的操作。这与BCQ不同,后者隐式地限制学习策略的分布,使其接近行为策略,类似于行为克隆。虽然这足以确保动作以高概率出现在训练集中,但限制性太强。例如,如果行为策略接近统一,则学习的策略将随机行为,导致性能不佳,即使数据足以学习强策略。

受上述情境的影响,我们可以限制动作,但不限制其值与行为策略得到的一致。【这样就可以从大部分次优动作少部分最优动作中也能选出好的动作,而不局限于和行为策略一样,不知道这么理解对不对,有想法的朋友可以多多提出建议互相讨论一下。】当然,一些很稀有的动作弄出来还是不太好拟合,所以就引入支撑集的概念,筛去那些很少见的动作。

算法介绍

。。。未完待续

参考链接

  1. 【论文笔记】BEAR: 通过减小Bootstrapping Error来进行离线RL学习 - Eric Liu的文章 - 知乎 https://zhuanlan.zhihu.com/p/250498558
  2. 【论文笔记 6】BEAR - Tairan He的文章 - 知乎 https://zhuanlan.zhihu.com/p/266707283
  3. 【离线强化学习(Offline RL)系列3: (算法篇)策略约束- BEAR算法原理详解与实现 - 旺仔搬砖记的文章 - 知乎https://zhuanlan.zhihu.com/p/493490905

标签:策略,动作,离线,BEAR,学习,算法,Reinforcement,policy
From: https://www.cnblogs.com/yuyuanliu/p/16640601.html

相关文章

  • Centos7 离线升级SSH9.0
    前两天也是看到园里大佬的在线升级SSH的脚本,所以利用晚上的时候把离线包下载下来,做成可离线升级的包。百度网盘地址:链接:https://pan.baidu.com/s/15oW9K-hQ8ZITIbYKJ4TVD......
  • linux离线安装JDK方法
    下载文件:jdk-8u241-linux-x64.tar.gz一.卸载1.检查系统中原版本:[root@localhost~]#java-versionjavaversion"1.7.0_"OpenJDKRuntimeEnvironment(IcedTea61.......
  • E 华华和月月种树 添加子节点并给子树加权值 树状数组+dfs序+离线操作
     链接:https://ac.nowcoder.com/acm/problem/23051来源:牛客网题目描述华华看书了解到,一起玩养成类的游戏有助于两人培养感情。所以他决定和月月......
  • 5.Springboot离线新建环境
    1.新建Maven项目2.pom文件导入org.springframework.bootspring-boot-starter-parent2.7.2org.springframework.bootspring-boot-starter-web<dependency>......
  • ecs离线方式安装ansilbe的rpm包
    1.安装包下载文章背景:因为ecs机器没有连接外网,同时需要安装ansilbe,这时就需要从其他机器将包下载到本地。系统:AlibabaCloudLinux2.1903LTS64位软件包名版本......
  • visual studio 2022离线安装包制作教程
    1、在线下载VisualStudi安装包https://aka.ms/vs/17/release/vs_enterprise.exe  2、在线安装visualsudio22布局 2.1.NETWeb和.NET桌面开发,运行(不选en-US......
  • iGG离线安装器
    安装器下载地址:iGG学术助手官网https://iguge.xyz/ 第一步:下载并解压缩本插件    第二步:打开Google浏览器(Chrome)在地址输入chrome://extensions/或者:点......
  • VSCODE离线配置远程开发环境
    1.下载VSCODE插件VSCODE的插件和VSCODE的版本是对应的,为了下载到兼容的版本,首先查看VSCODE的版本。帮助---》关于从上图中可以看到VSCODE的版本和日期,下载的插件只要时......
  • EasyCVR集群服务器离线后,设备依然显示在线的问题优化
    关于EasyCVR的集群功能,我们在前期的文章中也分享过很多,感兴趣的用户可以翻阅我们往期的文章进行了解。作为一种高效的服务器协作方式,服务器集群在流媒体服务中运用也较多。......
  • 离线升级openssh
    1.相关地址openssh下载地址:http://ftp.openbsd.org/pub/OpenBSD/OpenSSH/portable/openssl下载地址:https://www.openssl.org/source/zlib下载地址:http://www.zlib.net/......