首页 > 其他分享 >强化学习的基本概念

强化学习的基本概念

时间:2023-05-09 17:48:31浏览次数:36  
标签:function 函数 动作 value 学习 state policy 强化 基本概念

  • 概率密度函数

  • 期望(expect)

  • state s
  • action a
  • agent
  • policy Π(a|s)
  • reward r
  • state transition p(s'|s,a)
  • return(cumulative future reward 未来累计回报)
  • discounted return(γ 折扣回报)

Ut是未来获得的奖励总和,Ut随机变量 它依赖于所有未来的随机动作

  • value function(价值函数)

action-value function (动作价值函数)

sate-value function(状态价值函数)

动作价值函数(Action-value function):QΠ,它跟策略函数(policy function)Π、状态s、动作a有关
如果使用policy Π,agent在状态(state)s时,做出动作(action)a是否明智,QΠ可以给动作a打分

状态价值函数(State-value function):VΠ,跟策略函数(policy function)Π、状态s、动作a无关
如果使用policy Π,VΠ可以评价当前情况是好是坏,如果Π是固定的,状态s越好,VΠ数值越大
VΠ还能评价policy函数Π的好坏,如果Π越好,那VΠ的平均值[ES(VΠ(S)]就越大

标签:function,函数,动作,value,学习,state,policy,强化,基本概念
From: https://www.cnblogs.com/yuqi-yoki/p/17383524.html

相关文章

  • 如何完整地掌握一个机器学习模型
    如何完整地掌握一个机器学习模型要全面地学习、掌握一个机器学习模型,可以遵循以下步骤:基础理论学习:了解该模型的背后数学原理和推导过程,包括假设、损失函数、优化方法等。学习算法实现:通过查阅论文、教程或开源代码,了解算法的具体实现过程。尝试使用Python等编程语言手动实现算......
  • httprunner 4.x学习 -8.base_url 环境地址的使用
    前言config中有个base_url关键字可以设置环境地址,这样其它接口就只需写相对地址了base_url环境地址比如我要测试的API接口如下http://httpbin.org/get第一个是get请求http://httpbin.org/post第二个是post请求如果一个测试用例,有多个步骤中,测试环境地址不变http://......
  • Vue2--入门学习
    看了慕课网的教学视频,觉得挺不错的,在此做个随堂记录,有兴趣的可以去看视频vue版本:2.5文档链接:https://v2.cn.vuejs.org/v2/guide/installation.html视频链接:https://www.imooc.com/video/16976 在vue官网下载开发版本的vue.js,并复制其代码到编译器中创建的vue.js文件中 ......
  • Spring AOP官方文档学习笔记(四)之Spring AOP的其他知识点
    1.选择哪种AOP(1)使用SpringAOP比使用完整版的AspectJ更方便简单,因为不需要在开发和构建过程中引入AspectJ编译器以及织入器,如果我们只希望通知能够在SpringBean上执行,那么选用SpringAOP就可以了,如果我们希望通知能够在不由Spring所管理的对象上执行,那么就需要使用Aspect......
  • html5 2.0学习
    列表定义:是一种特别的对象集合。集合:集中在一起合二为一(聚集)。聚集:多个列(信息资源)排在一起。信息资源:一堆数据,可能是字符,可能是图片。列表分类:有序列表无序列表 (自)定义列表 有序列表:有顺序的列表。列表结构:<ol><li></li></ol> 有顺序,每个li独占一行,默认li标签前面有顺......
  • 【pytorch】土堆pytorch教程学习(六)神经网络的基本骨架——nn.module的使用
    torch.nn是pytorch的一个神经网络库(nn是neuralnetwork的简称)。Containerstorch.nn构建神经网络的模型容器(Containers,骨架)有以下六个:ModuleSequentialModuleListModuleDictParameterListParameterDict本博文将介绍神经网络的基本骨架——nn.module的使用。......
  • httprunner 4.x学习 - 7.环境变量.env 的使用
    前言一般来说,在进行实际应用的开发过程中,应用会拥有不同的运行环境,通常会有以下环境:本地开发环境测试环境生产环境在不同环境中,我们可能会使用不同的数据库或邮件发送等配置,这时候则需要通过.env文件来针对不同的运行环境作不同的设置。环境变量基础知识在自动化测试中......
  • 爬虫学习基础
    第一个爬虫程序,抓取网页源码并保存为html文件fromurllib.requestimporturlopenurl='http://www.baidu.com'res=urlopen(url)#print(res.read().decode('utf-8'))withopen('save_baidu.html','w',encoding='utf-8')asf:......
  • LDAP学习(1)
    轻型目录访问协议(LightweightDirectoryAccessProtocol,LDAP):是一个开放的、中立的、业标准的应用协议,通过IP协议提供访问控制和维护分布式信息的目录信息,它是由目录数据库和一套访问协议组成的系统LDAP相关概念dn(DistinguishedName):区分名称,LDAP中每个条目都有自己的dn,dn是该条......
  • 《Linux高性能服务器编程》学习记录(二)linux网络编程基础API
    Linux网络API主要有三种:socket地址API。socket最开始的含义是一个IP地址和端口对(ip,port)。它唯一地表示了使用TCP通信的一端,称其为socket地址。socket基础API。socket的主要API都定义在sys/socket.h头文件中,包括创建socket、命名socket、监听socket、接受连接、发起连接、读写......