策略梯度

策略梯度

时间：2023-12-28 20:47:42浏览次数：27

策略梯度呢，顾名思义，策略就是一个状态或者是action的分布，梯度就是我们的老朋友，梯度上升或者梯度下降。

就是说，J函数的自变量是西塔，然后对J求梯度，进而去更新西塔，比如说，J西塔，是一个该策略下预测状态值，也可以说是策略值，那么我们当然希望这个策略值越大越好，于是就要使用梯度上升，来不断更新自变量，然后那个V（pai）ba，就是一个状态值的分布，你每个状态肯定都拥有一个状态值，然后他就是看看哪个状态分布的比较多

不仅可以求状态均值最值，而且还可以。。。

先看看普通的r（pai）S,这个就是某个状态下，记住，某个状态，下的奖励均值，奖励的一个分布，对所有（S，a）某个特定S对应的无数a的奖励求期望,这个是基础，先记住，OK接下来上强度

r(Π)ba,就是等于某个状态奖励预测值，乘上，状态的分布，然后就成为了一个期望值，当然，这个分布就是策略Π，就是一个权重，而权重的自变量就是θ，所以运用梯度上升或者下降更新的就是θ，然后reward期望和state期望它们是成正比的，没错，正比，而不是正相关

然后捏，接下来就是对Q(s,a),求一个期望，还是按照上面老套路，一层套一层

就求完梯度，如第一个公式所示，当然，为了简化，可以化简成第二个公式，S服从η分布，行为A服从Π分布，然后自变量就是θ

然后温故知新一下贝尔曼方程

然后其实没太搞懂为什么它要减去rba

接下来，有个很重要的就是

引入了一个β比值，分母就是q(s,a),q(s,a)越大，那么步长就越大，就是该策略下，这个动作的出现概率越大，，而分母就是，这个动作越稀有，步长越大，下次出现的机会越大，这样去做一个探索，然后分子分母去做一个平衡，致力于发现并发展宝藏选手，至于为什么θ更新后该策略下该动作出现概率会增加，涉及到线性代数的知识，我还没学，会尽快

就到这吧，感觉有些不会的点都是受限于数学知识的积累，那我尽量数学也学快点吧，数学好才能好好做科研啊，终于要到演员评论家了，总结一下吧，我觉得策略梯度算法就是通过概率论去求一个预期，函数形式的预期，然后这个预期的灵魂是它的策略Π，而Π的变量就是我们重点更新的对象，而更新的方式当然就是梯度上升，然后再加入一些小参数比如β去控制步长，尽可能探索以及求最佳，使函数更好地收敛

标签：状态,策略,梯度,然后,就是,自变量
From： https://www.cnblogs.com/cjtaaa/p/17933520.html

在线教育系统源码解读：定制化企业培训APP的开发策略
当下，企业培训正经历着一场数字化的迭代，定制化企业培训APP应运而生，成为提升员工技能、推动企业发展的重要工具。下文小编将与大家一同深入了解在线教育系统的源码，探讨开发定制化企业培训APP的策略，以满足不同企业的培训需求。 1.源码结构解析常见的在线教育系统可能包括用户管理、课......
智安网络|实现安全与网络功能一体化：SASE的全新安全策略
随着企业信息化和数字化程度的不断提升，网络安全面临着前所未有的挑战。传统的网络安全模式已经无法满足日益复杂的安全需求。在这一背景下，安全访问服务边缘（SASE）崭露头角，并逐渐成为新一代网络安全架构的关键概念。企业网络的规模扩大和云计算、物联网等技术的广泛应用，传统的网络安全......
Win7系统开始菜单没有关机/重启解决办法刷新组策略
Win7系统开始菜单没有关机/重启选项是怎么回事？由于Win7系统的本地组策略启用了“删除和阻止访问‘关机’、‘重新启动’、‘睡眠’和‘休眠’命令”，而导致Win7系统开始菜单没有关机/重启等选项。恢复方法：1、点击“开始”菜单，然后点击“运行”或者点击“WIN+R”快捷键，打开“运行”窗......
Redis过期删除策略
定时删除；惰性删除；定期删除；定时删除策略是怎么样的？定时删除策略的做法是，在设置key的过期时间时，同时创建一个定时事件，当时间到达时，由事件处理器自动执行key的删除操作。定时删除策略的优点：可以保证过期key会被尽快删除，也就是内存可以被尽快地释放。因此，定时删除对内存......
【K8S系列】Pod重启策略及重启可能原因
简介：【K8S系列】Pod重启策略及重启可能原因1重启策略1.1AlwaysPod中的容器，不管因为什么原因停止，都会自动重启。该为默认策略，没有定义重启策略时，默认的就是always1.2 OnFailurePod中的容器，非正常停止/异常退出时，会自动重启容器，如果是正常停止，则不会1.3Ne......
Spring Security区分session失效与踢出登录策略
两种场景简单说明session失效：正常session过期，需要提示用户登录过期等提示，跳回登录页，让用户重新登录。踢出登录：系统只允许设备单一登录，一旦账号在另一个设备如浏览器登录了，则前一个登录账号会被踢出，同时给用户一个账号在另一个地方登录，防止密码泄漏等友好提示。session失效策......
RPC 流量控制与限流策略
1.背景介绍随着互联网的发展，分布式系统已经成为我们处理大规模数据和复杂任务的必不可少的技术。在分布式系统中，RemoteProcedureCall（RPC）技术是一种非常重要的通信方式，它允许程序调用其他程序的过程（过程调用的过程被称为调用方，调用的过程被称为被调用方），使得程序的调用过程与被调用......
K8S发布策略，无损发布
大家好，相信大部分公司都已经使用K8S进行容器管理和编排了，但是关于K8S的发布策略，还有很多同学不太清楚，通过这篇文章的介绍，相信大家对目前K8S的发布情况有一个概括的认识。总结下来，共有如下几种：重建（recreate)：即停止一个原有的容器，然后进行容器的新建。滚动更新（rollingUpdate)：停......
分享两种Pulsar消息积压topic级别策略老化办法
本文分享自华为云社区《Pulsar消息积压topic级别策略老化的两种方案》，作者：张俭。Pulsar像大多数消息中间件一样,支持按时间和大小对消息积压进行老化。但是默认的策略只能在namespace级别配置。本文将介绍如何在topic级别实现老化策略的两种方案。方案一：开启TopicLevelPolicy......
ClickHouse 的水平扩展策略与实践
1.背景介绍水平扩展（HorizontalScaling）是一种在数据库系统中增加服务器数量以提高系统性能的方法。在大数据时代，数据量越来越大，传统的垂直扩展方式已经无法满足业务需求。因此，水平扩展成为了一种必须要学习和掌握的技术。ClickHouse是一个高性能的列式数据库管理系统，专为OLAP类应用......

相关文章

赞助商

阅读排行