Effective Diversity in Population-Based Reinforcement Learning

时间：2023-07-07 09:01:28浏览次数：44

标签：种群 Based 策略 Effective Reinforcement 2020 文章 Diversity

发表时间：2020 (NeurIPS 2020)
文章要点：这篇文章提出了Diversity via Determinants (DvD)算法来提升种群里的多样性。之前的方法通常都考虑的两两之间的距离，然后设计一些指标或者加权来增加种群多样性，这种方式容易出现cycling，也就是类似石头剪刀布的循环克制的关系，造成训练不上去，或者冗余的策略。作者提出的DvD是基于行列式的，在优化的时候同时考虑种群里的所有策略，这就比两两比较距离有更好的效果。
具体的，先定义一个策略表征向量来表示一个策略

然后用核函数来计算各个策略的相似度

有了这个之后，就可以构建整个种群相似度的行列式

有了这个之后就用强化的方式更新就好了

这里就相当于在通常的强化上面再加了一个population diversity的正则项，比如文章用的TD3。
文章还介绍了一种基于进化算法的学习方式，这里不提了。
总结：挺有意思的文章。
疑问：之前想看看这个文章能不能用到experience replay上面，来sample更加diverse的样本，看起来好像不是很适用。

标签：种群,Based,策略,Effective,Reinforcement,2020,文章,Diversity
From： https://www.cnblogs.com/initial-h/p/17533838.html

《Effective C++ 改善程序与设计的55个具体做法》读书笔记
1.让自己习惯C++条款01视C++为一个语言联邦CObject-OrientedC++TemplateC++STLC++高效编程守则视情况而变化，取决于你使用C++的哪一部分。条款02尽量与const，enum，inline替换#define对于单纯常量，最好以const对象或enums替换#defines。对于形似函数的宏（macros），最好改......
【论文阅读】CrossFormer: A Versatile Vision Transformer Based on Cross-scale Att
来自CVPR2021论文地址：https://link.zhihu.com/?target=https%3A//arxiv.org/pdf/2108.00154.pdf代码地址：https://link.zhihu.com/?target=https%3A//github.com/cheerss/CrossFormer一、Motivation 主要还是ViT的历史遗留问题ViT在处理输入时，将图片划分为了相等大小的图像......
Paper Reading: Model-Based Synthetic Sampling for Imbalanced Data
目录研究动机文章贡献本文方法训练特征模型生成临时采样数据生成最终的合成数据实验结果数据集和实验设置实验结果消融实验结果可视化和集成学习相结合对非线性特征模型的影响特征关系对合成样本的影响优点和创新点PaperReading是从个人角度进行的一些总结分享，受到个人关注点的......
Netty-LengthFieldBasedFrameDecoder-解决拆包粘包问题的解码器
LengthFieldBasedFrameDecoder的构造器参数中包括：maxFrameLength：指定解码器所能处理的数据包的最大长度，超过该长度则抛出TooLongFrameException异常。lengthFieldOffset：指定长度字段的起始位置。lengthFieldLength：指定长度字段的长度。lengthAdjustment：指定长度字段所表示......
Variable 'xxxx' is accessed from within inner class, needs to be final or effect
问题的原因问题代码：publicstaticvoidmain(String[]args){Integersum=0;Integercount=0;List<Integer>list=newArrayList<>(Arrays.asList(1,2,3,4,5));list.stream().forEach(e->{sum+=e;//这步会编译错误--Varia......
Spectrum Random Masking for Generalization in Image-based Reinforcement Learning
郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！ ......
KEDA — Kubernetes Based Event Driven Auto scaling(转载)
原文：https://itnext.io/keda-kubernetes-based-event-driven-autoscaling-48491c79ec74 Event-drivencomputingishardlyanewidea;peopleinthedatabaseworldhaveuseddatabasetriggersforyears.Theconceptissimple:wheneveryouadd,change,orde......
Faster sorting algorithms discovered using deep reinforcement learning
摘要：AlphaDev模型优化排序算法，将排序算法提速70％。通过强化学习，AlphaDev发现了更加有效的算法，直接超越了科学家和工程师们几十年来的精心打磨。现在，新的算法已经成为两个标准C++编码库的一部分，每天都会被全球的程序员使用数万亿次。介绍优化目标为排序算法的CPU延迟时间......
How to restore ASM based OCR after complete loss of the CRS diskgroup on Linux/U
HowtorestoreASMbasedOCRaftercompletelossoftheCRSdiskgrouponLinux/Unixsystems[ID1062983.1]--------------------------------------------------------------------------------修改时间12-FEB-2012类型HOWTO状态PUBLISHEDInthis......
Reinforcement learning
如图1所示，强化学习中，state是环境的状态，就是observation。图1强化学习一、Policybasedapproach---learninganactorThepolicybasedapproachistolearnanactor(agentorpolicy).图2exampleof policybasedapproach 所谓on-p......

Effective Diversity in Population-Based Reinforcement Learning

相关文章

赞助商

阅读排行