Sample-Efficient Deep Reinforcement Learning via Episodic Backward Update

时间：2024-02-11 09:02:06浏览次数：31

标签：diffusion via Episodic Efficient learner Update rewards transitions

发表时间：2019 (NeurIPS 2019)
文章要点：这篇文章提出Episodic Backward Update (EBU)算法，采样一整条轨迹，然后从后往前依次更新做experience replay，这种方法对稀疏和延迟回报的环境有很好的效果（allows sparse and delayed rewards to propagate directly through all transitions of the sampled episode.）。
作者的观点是
(1) We have a low chance of sampling a transition with a reward for its sparsity.
(2) there is no point in updating values of one-step transitions with zero rewards if the values of future transitions with nonzero rewards have not been updated yet.
作者的解决方法是
(1) by sampling transitions in an episodic manner.
(2) by updating the values of transitions in a backward manner
为了打破数据的相关性缓解overestimation，作者采用了一个diffusion factor \(\beta\)来做trade off。这个参数会在最新的估计和之前的估计之间做加权，take a weighted sum of the new backpropagated value and the pre-existing value estimate
算法伪代码如下

最后作者用多个learner设置不同的diffusion factor来学习，最终选一个来输出动作。We generate K learner networks with different diffusion factors, and a single actor to output a policy. For each episode, the single actor selects one of the learner networks in a regular sequence.这些learner的参数隔一段时间同步一次。
最终看起来有一定效果

总结：感觉依次更新问题应该不少啊，可能trick有点多。另外作者强调achieves the same mean and median human normalized performance of DQN by using only 5% and 10% of samples，有点牵强了。明显看出来训练一样多的step，很多游戏提升也不大

疑问：里面这个diffusion factor好像也不能打乱数据之间的相关性吧，不知道会不会有问题。

标签：diffusion,via,Episodic,Efficient,learner,Update,rewards,transitions
From： https://www.cnblogs.com/initial-h/p/18013149

eviacam在Arch/Manjaro Linux下的安装
安装base-devel安装编译工具，默认的依赖里没有编译工具sudoyay-Sbase-devel如果安装编译工具，会报类似下面的错误：安装eviacamyay-Seviacam这里主要是用AUR的方式来顺便把依赖安装了，也可以手动安装依赖，然后Clone源码这一步会报类似下面的错误：根据错误提示修......
【阅读笔记】《A New Hardware-Efficient Algorithm and Reconfigurable Architecture
一、对比度增强算法AGCWD硬件化实现2013年发表在TIP上的对比度增强算法AGCWD（Efficientcontrastenhancementusingadaptivegammacorrectionwithweightingdistribution）2014年发表在IEEETransactionsonImageProcessing的《ANewHardware-EfficientAlgorithmandReco......
【阅读笔记】对比度增强-《Efficientcontrast enhancement using adaptive gamma corr
2013年发表在TIP上的对比度增强算法AGCWD（Efficientcontrastenhancementusingadaptivegammacorrectionwithweightingdistribution）提出了一种自动映射技术，通过亮度像素的伽马校正和概率分布来提高调暗图像的亮度。为了增强视频，所提出的图像增强方法使用关于每帧之间差异的......
【阅读笔记】对比度增强-《Efficientcontrast enhancement using adaptive gamma corr
2013年发表在TIP上的对比度增强算法AGCWD（Efficientcontrastenhancementusingadaptivegammacorrectionwithweightingdistribution）提出了一种自动映射技术，通过亮度像素的伽马校正和概率分布来提高调暗图像的亮度。为了增强视频，所提出的图像增强方法使用关于每帧之间差异的......
神经网络优化篇：详解超参数调试的实践：Pandas VS Caviar（Hyperparameters tuning in prac
超参数调试的实践如今的深度学习已经应用到许多不同的领域，某个应用领域的超参数设定，有可能通用于另一领域，不同的应用领域出现相互交融。比如，曾经看到过计算机视觉领域中涌现的巧妙方法，比如说Confonets或ResNets。它还成功应用于语音识别，还看到过最初起源于语音识别的想法成功应......
2024AAAI_SGNet Structure Guided Network via Gradient-Frequency Awareness for Dep
1.任务描述: 给定输入LR深度图和HRRGB图像，引导DSR目的是在ground-truth深度图监督的条件下，预测HR深度图2.Network本文提出的SGNet主要包括两部分，即梯度校准模块(GCM)和频率感知模块（FAM）。首先将RGB图像和上采样后的LR深度图送入到GCM，利用RGB丰富的梯度信息在梯度域中......
论文总结：Efficient Long-Text Understanding with Short-Text Models
1）背景问题：基于Transformer的预训练语言模型，会限制长度，一般是512以内，因为二次复杂度的原因O(N^2)，无法应用于长序列例如故事、科学文章和长文档。2）现有方法：高效的Transformer变体，但是，它们通常基于自定义实现，需要从头开始进行昂贵的预训练。比如：1.Reformer2.Funnel-Transfo......
【代码复现（吐槽向）】Revisiting a Methodology for Efficient CNN Architectures in Pr
【论文写不出来，痛苦中】这篇文章是我看到框架最简单，效果最好的对于公开数据集的攻击没有之一。代码：KULeuven-COSIC/TCHES20V3_CNN_SCA(github.com)吐槽：1坑：TF的版本问题，有了torch，谁用TF，但是偏偏GITHUB上所有的SCA的代码都是TF写的，还有丧心病狂TF1.x，版本安装几十年，不如选一个服......
[论文阅读 ] Domain generalization via feature variation decorrelation
Domaingeneralizationviafeaturevariationdecorrelation3METHOD在本节中，我们首先在第3.2节解释我们的动机。然后，在第3.3节中，我们介绍特征变化的解缠和讨论方差转移的想法。最后，在第3.4节中，我们提出了我们的新颖特征变化解相关损失。图2显示了所提出方法的框架。3.1Prob......
SHARPNESS-AWARE MINIMIZATION FOR EFFICIENTLY IMPROVING GENERALIZATION论文阅读笔
Intro在训练集上最小化损失很可能导致泛化性低，因为当今模型的过参数化会导致trainingloss的landscape异常复杂且非凸，包含很多local/globalminima，因此优化器的选择至关重要。losslandscape的几何性质（特别是minima的flatness）与泛化性有着紧密的联系，为此作者提出了SAM（Sharpness-A......

Sample-Efficient Deep Reinforcement Learning via Episodic Backward Update

相关文章

赞助商

阅读排行