actor-critic 演员评论家算法

时间：2023-12-28 21:22:57浏览次数：46

好了终于到这里了，强化学习这个小山坡我算是终于到了最上面，但是还有更高的山峰让我去远眺，现在也只是敲开了我科研之路的大门，而演员评论家就是我要去学习的第一个前沿算法，先通俗点讲，就是有个演员，他就是演戏，会有一个经纪人，根据观众们的反馈以及票房数据（环境reward），给他打分，演员再根据这些分数，去更新他的演技，接着继续演，经纪人继续打分，这样子迭代下去。。。。。

接下来细讲，就是Actor那边就是用策略迭代，梯度上升，去更新策略（通过更新策略的变量θ），但是里面有个参数q（s,a,w）,就来自评论家那边的更新，通过更新变量w来更新q(s,a,w)，进而更新θ最后更新策略，而评论家那边就运用一个时序差分去更新w，就是演员演戏产生的动作值作为参数，并对其求梯度，然后更新w进而更新q(s,a,t)(想要更新状态值或者动作值，可以通过更新其变量，更新变量当然是采取梯度方法)，然后这样子循环迭代下去

接下来是A2C Advantage Actor-Critic

A2C的讲解

A2C就是，一个小小的改动，比如说，我想要设定一个基准值，比如它是对状态值求期望或者对动作值求期望，为什么要有这个基准值呢，没有这个基准值的话，我每次更新时候，比如说有个不好的动作，它的q值不高，低于基准值，但毕竟他是正数，还是得尊重一下，因此最后的结果只是，q值不好的动作下次出现概率增长的速率低于好动作，那还是都增长呀，那效率就会比较低，那要怎么办呢，既然你q值不高，那我就让你减去平均值，直接让你成为负数，打入18层地狱难以超生，这样它在更新的时候，更新自变量的时候，就会是一个梯度下降的方法，被选中的概率就下降了

如图所示，会有一个TDerror,正数梯度上升，负数梯度下降

重要性采样放着和确定性一起更新吧，这个。。再说了好累，然后放几张图吧，就是一些我对于强化学习学到现在的一些感想

我觉得虽然我的学习停留在表层，但明白了什么是真正的细思极恐:女娲可以造人，生物克隆可以造人，算法也可以造人。。。。。而且是比女娲和生物克隆强几万倍的，然后就开始多愁善感思考人类的未来。。

热爱强化学习

标签：动作,演员,基准值,梯度,更新,critic,actor,评论家
From： https://www.cnblogs.com/cjtaaa/p/17933601.html

Spring BeanFactoryAware 解决 prototype 作用域失效问题
跟着孙哥学Spring，b站：https://www.bilibili.com/video/BV185411477k/?spm_id_from=333.337.search-card.all.click在Spring中，如果一个singletonbean依赖了一个prototypebean，那么这个prototypebean在初始化时只会被创建一次，这就是所谓的"prototypescope失效"的问题......
mybatis在读取配置文件，创建SqlSessionFactory对象时。需要对密码进行解密，再连接数据库
1、我看了网上很多的方法，主要是说通过新建一个jdbc.properties来获取数据库连接池。但是我试了并没有作用。 2、解决办法：简单粗暴。先用后代码读取原有的mybatis-configuration.xml，然后将密码进行解密后，设值到xml中。最后把解密的xml作为源。去生成一份新的xml文件，把心的xml......
springboot项目Mapper注入失败：@org.springframework.beans.factory.annotation.Autowi
同事发给我一个项目，说启动时，报mapper无法注入，让我帮忙排查一下问题记录一下我自己遇到这个问题的排查顺序首先先排除以下问题：1.mapper类是否加入到ioc容器中（有没有使用@Mapper标签），如果报错是service层，那就看看是不是没有添加server标签2.检查项目是否扫描mapper类所在......
From Bench to Bioreactor: Scaling Up Bioprocesses for Commercial Success
1.背景介绍Bioprocessesarefundamentaltomanyindustries,includingpharmaceuticals,foodandbeverage,andbioenergy.Astheseindustriesgrow,theneedtoscaleupbioprocessesbecomesincreasinglyimportant.However,scalingupbioprocessesisnotatrivi......
BeanFactory后置处理器之PropertySourcesPlaceholderConfigurer
有的时候，我们需要读取配置文件中的属性，将其作为成员变量赋给对应的Bean，如下通过xml配置：<beanid="dataSource"class="com.alibaba.druid.pool.DruidDataSource"init-method="init"destroy-method="close"><propertyname="url"val......
工厂模式 Factory Method
一、简单工厂定义一个工厂类，根据传入的参数的值的不同返回不同是实例1、特点被创建的实例具有共同的父类或接口2、适用场景需要创建的对象较少客户端（应用层）只知道传入工厂的参数，对如何创建对象（逻辑）不关心3、优缺点优点：可以对创建的对象进行“加工”，对客户端隐藏相关......
抽象工厂模式 Abstract Factory
一、定义提供一个创建一系列相关或相互依赖对象的接口抽象工厂模式侧重的是同一产品族，而抽象工厂侧重的是同一产品等级二、适用场景客户端（应用层）不依赖于产品类实例如何被创建、实现等细节强调一些列相关的产品对象（属于同一产品族）一起使用，创建对象需要大量复杂代码提......
Why caused the dead factory?
Thedeathofafactorycanbecausedbyvariousfactors,whichcanbebroadlycategorizedintoeconomic,social,andenvironmentalreasons.Someofthekeyfactorsthatcontributetotheclosureofafactoryincludethelackofdemandfortheproduct,hig......
Why the developed country choose the countries of southeast Asia to build proces
ThedevelopedcountrieschoosecountriesinSoutheastAsiatobuildprocessingfactoriesandutilizetheirlaborforceforvariousreasons.Someofthekeyfactorsthatcontributetothisdecisionincludethelowcostoflabor,favorablegovernmentpolici......
Spring Boot 之 ModelFactory
1.initModel 功能：publicvoidinitModel(NativeWebRequestrequest,ModelAndViewContainercontainer,HandlerMethodhandlerMethod) throwsException{ Map<String,?>sessionAttributes=this.sessionAttributesHandler.retrieveAttributes(request)......

actor-critic 演员评论家算法

相关文章

赞助商

阅读排行