ES(evolution strategy)进化策略、RL(reinforcement learning)强化学习

时间：2024-08-14 20:27:47浏览次数：19

标签：evolution 进化 reinforcement strategy 学习监督参数 RL 强化

进化策略
进化策略可被视为这样一个过程：从个体构成的群体中采样并让其中成功的个体引导未来后代的分布。如图中，一个白色箭头是由黑点中的优胜个体引导。

策略作用方式以交叉熵CEM（一种进化算法）为例：算法先随机初始化参数和确定根据参数生成解的规则，根据参数生成N组解并评价每组解的好坏，选出评估结果在前百分之ρ的解并根据这些精英解采取重要性采样方法更新参数，新参数被用作下一轮生成N组解，如此循环直到收敛。
特别的几点包括：进化策略的实现更加简单（不需要反向传播），更容易在分布式环境中扩展，不会受到奖励稀疏的影响，有更少的超参数。
强化学习
本质是：基于环境而行动，以取得最大化的预期收益。
强化学习具有高分导向性，和监督学习中的标签有些类似。但是又有些区别，区别就在于数据和标签一开始是不存在的，需要模型自己不断摸索。通过不断尝试，找到那些带来高分的行为。强化学习是机器学习中的一个领域，是除监督学习和非监督学习的第三种基本的机器学习方法。<A,S,R,P>就是强化学习中的经典四元组。

强化学习和有监督学习的区别：

有监督学习的训练样本是有标签的，强化学习的训练是没有标签的，它是通过环境给出的奖惩来学习；
有监督学习的学习过程是静态的，强化学习的学习过程是动态的。这里静态与动态的区别在于是否会与环境进行交互，有监督学习是给什么样本就学什么，而强化学习是要和环境进行交互，再通过环境给出的奖惩来学习；
有监督学习解决的更多是感知问题，尤其是深度学习，强化学习解决的主要是决策问题。因此有监督学习更像是五官，而强化学习更像大脑。

两者异同
相同点：两者目标都是预期奖励。
不同点：

强化学习是将噪声注入动作空间并使用反向传播来计算参数更新，而进化策略则是直接向参数空间注入噪声。
RL通过与环境交互来进行学习，而ES通过种群迭代来进行学习；
强化学习一般在动作空间（Action Space）进行探索（Exploration）。而相应的Credit或者奖励，必须在动作空间起作用，因此，存在梯度回传（back propagation）。进化算法直接在参数空间探索，不关心动作空间多大，以及对动作空间造成多大影响。
RL通过最大化累计回报来解决序列问题，而EAs通过最大化适应函数（Fitness Function）来寻求单步最优；
RL对于state过于依赖，而EA在agent不能准确感知环境的状态类问题上也能适用。

参考：
RL&EA

标签：evolution,进化,reinforcement,strategy,学习,监督,参数,RL,强化
From： https://www.cnblogs.com/tangshine/p/18359710

BIOS1101 Evolutionary and Functional
BIOS1101Evolutionaryand Functional Biology -2024GeneralCourseInformationCourseCode: BIOS1101Year : 2024Term: Term2CourseDetails&OutcomesCourseDescriptionThis course examines the evolutionary history of life on earth fr......
强化学习Reinforcement Learning算法的样本效率提升策略
强化学习ReinforcementLearning算法的样本效率提升策略1.背景介绍1.1问题的由来在强化学习领域，提升算法的样本效率是关键挑战之一。在许多现实世界的应用场景中，比如机器人自主导航、智能游戏、自动驾驶、医疗健康决策以及大规模服务系统优化，获取高价值的环境反馈往往......
Enhancing Diffusion Models with Reinforcement Learning
EnhancingDiffusionModelswithReinforcementLearningSep27,2023 | UncategorizedTL;DRTodaywe'regoingtotellyouallabout DRLX -ourlibraryforDiffusionReinforcementLearning!Releasedafewweeksago,DRLXisalibraryforscalabledist......
策略模式（Strategy Pattern）
一.策略模式定义1.Context封装角色它也叫上下文，起承上启下的封装作用，屏蔽高层模块对策略、算法的直接访问，封装肯存在变化。2.Strategy抽象策略角色策略、算法家族的抽象，通常为接口，定义每个策略或算法必须具有的方法和属性。3.ConcreteStrategy具体策略角色实现抽象策......
Real-Time Federated Evolutionary Neural Architecture Search-_TEC'22(B)-RT-FedEvo
背景：1.介绍FL2.介绍NAS(讨论范围限制在CNN)宏搜索空间覆盖整个CNN模型，例如，隐藏层的数量n、操作类型（例如，卷积）和快捷连接的链接方法微观搜索空间仅覆盖整个模型结构中重复的基序或细胞。并且这些单元在复杂的多分支操作中构建介绍RT(强化学习)在NAS中的运用，因为RT要模拟采样，......
java设计模式（十四）策略模式（Strategy Pattern）
1、模式介绍：策略模式是一种行为设计模式，它定义了算法族，分别封装起来，让它们之间可以互相替换，此模式让算法的变化独立于使用算法的客户。2、应用场景：当一个对象有多种行为，而需要动态选择一种行为时。不同的策略可以实现不同的行为，客户端根据需要在运行时选择合适的策略。当......
强化学习（Reinforcement Learning，简称RL）
强化学习（ReinforcementLearning，简称RL）是一种机器学习范式，它允许智能体（agent）通过与环境互动来学习如何采取行动，以最大化某种累积奖励。在机器人控制中，强化学习可以用来解决各种复杂的问题，如运动规划、动态平衡、抓取和操纵物体等。下面是一些关键概念和步骤，说明如何使用强化......
强化学习（Reinforcement Lrarning，RL）03：贝尔曼方程
强化学习（ReinforcementLrarning，RL）03：贝尔曼方程强化学习（ReinforcementLrarning，RL）03：贝尔曼方程1.状态价值1.1状态价值函数（StateValueFunction）1.2最优策略（OptimalPolicy）2.贝尔曼方程2.1贝尔曼方程（BellmanEquation）2.2贝尔曼方程的推导2.3贝尔曼方程矩阵形式（Matr......
强化学习（Reinforcement Lrarning，RL）02：马尔科夫决策过程
强化学习（ReinforcementLrarning，RL）02：马尔科夫决策过程强化学习（ReinforcementLrarning，RL）02：马尔科夫决策过程状态与状态空间动作与动作空间策略函数状态转移与状态转移函数奖励轨迹回报与折扣回报一个重要性质强化学习（ReinforcementLrarning，RL）02：马尔科夫决策过程马......
Vision-Language Models are Zero-Shot Reward Models for Reinforcement Learning
发表时间：2024(ICLR2024)文章要点：文章提出用预训练的视觉语言模型作为zero-shot的rewardmodel（VLM-RMs）。好处在于可以通过自然语言来给定一个具体的任务，通过VLM-RMs让强化学习基于reward学习这个任务（usingpretrainedvision-languagemodels(VLMs)aszeroshotrewardmodels......

ES(evolution strategy)进化策略、RL(reinforcement learning)强化学习

相关文章

赞助商

阅读排行