首页 > 其他分享 >MAY 2022-Composite Experience Replay-Based Deep Reinforcement Learning With Application in Wind Farm

MAY 2022-Composite Experience Replay-Based Deep Reinforcement Learning With Application in Wind Farm

时间:2023-05-19 17:48:28浏览次数:37  
标签:Control 采样 Based transition CER Learning 优先级 TD DDPG

摘要:本文提出了一种基于深度强化学习(RL)的控制方法,以提高学习效率和效果来解决风电场控制问题。具体地,设计了一种新的复合体验重放(CER)策略,并将其嵌入到深度确定性策略梯度(DDPG)算法中。CER提供了一种新的采样方案,通过在奖励和时间差异(TD)误差之间进行权衡,可以深入挖掘存储变迁的信息。在神经网络的训练过程中引入修正的重要性-采样权重,以解决CER导致的分布不匹配问题。然后,将CER-DDPG方法应用于风电场总发电量优化。

I. INTRODUCTION

A. Deep Reinforcement Learning-Based Control

   与原始DDPG相比,直接移植PER到DDPG可能不会获得太多(甚至会导致性能下降)。这是因为PER最初是为DQN设计的,其中只有动作状态值函数(即Q函数)是近似的。TD误差直接用于驱动这个近似过程,使其完美地满足优先级的目的。然而,与DQN相比,DDPG有一个额外的actor来生成连续的控制策略。因此,DDPG转换的优先级需要重新设计因为TD误差对actor的重要性是值得怀疑的

B. Control of Wind Farm

【略去;不在我的研究范围内】

C. Our Contributions

   在DDPG框架中引入了一种新的采样策略。我们将其命名为复合经验回放(CER),因为它不仅利用了TD误差的信息,还利用了奖励来对训练批次进行采样,在这里,奖励被用来衡量转换相对于执行器网络的优先级。这种设计基于这样的观察,即执行器网络的更新是由策略梯度算法中的奖励隐式驱动的。
   策略梯度算法的早期版本【REINFORCE】直接使用奖励进行训练。CER有能力平衡两组优先级(即TD错误和奖励),在critic和actor的学习之间进行权衡。此外,采用基于复合优先级的修正重要性采样权重(modified importancesampling weights, ISWs)来修正CER中由于分布不匹配引起的偏差。

II. DESIGN OF DEEP DETERMINISTIC POLICY GRADIENT WITH COMPOSITE EXPERIENCE REPLAY

A. Algorithm Overview

它包括几部分: DDPG, CER, reward regularization, and the
wind farm

B. Deep Deterministic Policy Gradient

main critic network的更新是由以下损失函数驱动的:

n表示每个训练步骤所选样本的批大小
ωi是第i个样本的重要权值,在CER设计中给出了它的具体表达式
δi为第i个样本的TD误差:

main actor的更新通过policy gradient策略:

C. Composite Experience Replay

需要定义transition的采样优先级。

一方面,TD误差直接参与了critic的损失构建。即可以衡量相应的transition对于critic来说有多“surprise”。
另一方面,行动者受到rewards的隐性驱动。rewards是transition优先级目的的适当选择。

基于以上,在CER中存储了两组优先级:

  • 第一组优先级是基于TD-error的:

  • 另一组优先级是基于rewards:

为了确保PR中的所有优先级都是有效的概率,我们需要将奖励空间从R投影到R+;实现这一目标的一个简单方法是设置:

R可能需要被投影到一个有界的区间:


即,基于projected的奖励,我们将PR中的优先级设计为:

由于transition由两组优先级采样,因此需要解决重复问题。

其中,在小批量B中,li = 1,表示transition只进行PT采样;li = 2表示仅用PR对transition进行采样;最后,li = 3表示同时对transition进行PT和PR采样
基于这些标签,CER确保B中所有的transition都是不同的,无论它们是否在采样过程中重复

偏差修正:期望值的估计依赖于与期望相同的分布对应的更新。CER和其他优先级抽样策略(例如PER)改变了这种分布

ISWs可用于CER中,以缓解因分布不匹配而导致的潜在估计偏差。与PER不同,CER中的ISWs与相应transition的重复条件有关。

CER实质上通过PT和PR构建了两组平行的transition,即T组和R组,在组T和组R中都没有内部重复。因此,对于只在组T或组R中的transition,它们的isw直接由它们的采样概率决定:

对于T组和R,它们的isw是原始isw的线性组合:

无论在两个组中重复多少次transition,CER都确保最终的minibatch B始终具有固定的大小,并且B中的transition都彼此不同。

Algorithm 1 CER

对于每次采样:初始化参数为0
采样BT batch:从BT中根据TD-error优先采样[1-a]n个transition,并设置它们的l=1;和w
采样BR batch:进入while循环:直到采样transition的个数满足于B minibatch结束
从buffer里根据rewards采样一个transition:

  • 如果这个transition的l=0【说明没有被采样过】,设置其l=2,w,并把它放入BR batch中,其数量+1
  • 如果这个transition的l=1【说明被BT采样过】,设置其l=3,调整ISW:w
  • 如果这个transition的l=2、3【说明被BR采集过或者BR和BT共享的】,忽略并重新采样

总数量到达采样N,连接BT和BR成为B minibatch

III. CONTROL OF WIND FARM

标签:Control,采样,Based,transition,CER,Learning,优先级,TD,DDPG
From: https://www.cnblogs.com/yunshalee/p/17415858.html

相关文章

  • 对比学习(contrastive learning)
    对比学习是一种机器学习技术,算法学习区分相似和不相似的数据点。对比学习的目标是学习数据的表示,以捕捉不同数据点之间的基本结构和关系。在对比学习中,算法被训练最大化相似数据点之间的相似度,并最小化不相似数据点之间的相似度。通常的做法是通过训练算法来预测两个数据点是否......
  • ARM DMA Controller PL330 使用经验分享
    总体简介DMAC提供一个AXI主接口来执行DMA传输,并提供两个APB从接口来控制其操作。DMAC采用TrustZone技术,其中一个APB接口运行在secure状态,另一个运行在非secure状态。secure策略是ARM的TrustZone技术一部分。整个DMA操作受一个小的指令集控制,这是与传统链表BD模式的不同之处。......
  • HTB ACADEMY-Stack-Based Buffer Overflows on Linux x86 WRITE UP
    WewereabletogainSSHaccesstoaLinuxmachinewhosepasswordwasreusedbyanothermachineduringourpenetrationtest.Onthismachine,wehaveastandarduser"htb-student"whocanleaveamessagetotheadministratorusingaself-written......
  • Stable Diffusion 的 ControlNet 扩展
    本文介绍如何安装ControlNet扩展?和ControlNet的模型安装,同时给了两个例子。一、ControlNet扩展安装进入StableDiffusion界面,点击扩展标签,选择从URL安装,然后输入ControlNet网址(https://github.com/Mikubill/sd-webui-controlnet),粘贴到对应的地方,然后点击安装。完成......
  • P1344 [USACO4.4] 追查坏牛奶 Pollutant Control (网络流)
    P1344[USACO4.4]追查坏牛奶PollutantControl(网络流)题目链接目录P1344[USACO4.4]追查坏牛奶PollutantControl(网络流)题目描述输入格式输出格式样例#1样例输入#1样例输出#1提示题目大意思路分析code双倍经验思路code后记不会网络流的可以看这个题目描述你第一天接......
  • Machine Learning:什么是谷歌云功能
    推荐:将NSDT场景编辑器加入你的3D工具链3D工具集:NSDT简石数字孪生行动和反应。 简而言之,这就是GoogleCloudFunctions。但是,当然,由于这并不能涵盖此服务很酷的所有方式,因此让我们更详细地介绍一下。在本文中,我将更详细地概述GoogleCloudFunctions,比较第一代和第二代环境,并讨......
  • How to use micro:bit V2 to control built-in sensors All In One
    Howtousemicro:bitV2tocontrolbuilt-insensorsAllInOnemicro:bitV2&PythonMakeCodeMakeCodeformicro:bithttps://makecode.microbit.org/https://www.microsoft.com/zh-cn/makecodeAdafruitCircuitPlaygroundExpresshttps://makecode.a......
  • Jmeter部署到Linux实现分发压测时,controller机器回收测试报告时卡死
    问题检查与定位:检查slave-A和slave-B两台执行机,执行机已经finished,无报错,说明执行机已完成测试任务采集到的日志批量分析后得出的结论:在完成并发测试后,vuser要进行释放,由于没有完全释放导致controller机器一直等待(像卡死),而实际上是等待,问题定位后,进行检查发现:问题1: reportge......
  • 【图像数据增强】Image Data Augmentation for Deep Learning: A Survey
    原始题目ImageDataAugmentationforDeepLearning:ASurvey中文名称深度学习的图像数据增强:综述发表时间2022年4月19日平台arXiv来源南京大学文章链接https://arxiv.org/abs/2204.08610引言挑战在于,数据增强方法是独立于任务的。由于同时对图......
  • Jan 2023-Prioritizing Samples in Reinforcement Learning with Reducible Loss
    1Introduction本文建议根据样本的可学习性进行抽样,而不是从经验回放中随机抽样。如果有可能减少代理对该样本的损失,则认为该样本是可学习的。我们将可以减少样本损失的数量称为其可减少损失(ReLo)。这与Schaul等人[2016]的vanilla优先级不同,后者只是对具有高损失的样本给予高优......