强化学习的基本概念

时间：2023-05-09 17:48:31浏览次数：43

标签：function 函数动作 value 学习 state policy 强化基本概念

概率密度函数

期望（expect）

state s
action a
agent
policy Π(a|s)
reward r
state transition p(s'|s,a)
return（cumulative future reward 未来累计回报）
discounted return（γ 折扣回报）

U_t是未来获得的奖励总和，U_t是随机变量 它依赖于所有未来的随机动作

value function（价值函数）

action-value function （动作价值函数）

sate-value function（状态价值函数）

动作价值函数（Action-value function）：Q_Π，它跟策略函数（policy function）Π、状态s、动作a有关
如果使用policy Π，agent在状态（state）s时，做出动作（action）a是否明智，QΠ可以给动作a打分

状态价值函数（State-value function）：V_Π，跟策略函数（policy function）Π、状态s、动作a无关
如果使用policy Π，V_Π可以评价当前情况是好是坏，如果Π是固定的，状态s越好，V_Π数值越大
V_Π还能评价policy函数Π的好坏，如果Π越好，那V_Π的平均值[E_S（V_Π（S）]就越大

标签：function,函数,动作,value,学习,state,policy,强化,基本概念
From： https://www.cnblogs.com/yuqi-yoki/p/17383524.html

如何完整地掌握一个机器学习模型
如何完整地掌握一个机器学习模型要全面地学习、掌握一个机器学习模型，可以遵循以下步骤：基础理论学习：了解该模型的背后数学原理和推导过程，包括假设、损失函数、优化方法等。学习算法实现：通过查阅论文、教程或开源代码，了解算法的具体实现过程。尝试使用Python等编程语言手动实现算......
httprunner 4.x学习 -8.base_url 环境地址的使用
前言config中有个base_url关键字可以设置环境地址，这样其它接口就只需写相对地址了base_url环境地址比如我要测试的API接口如下http://httpbin.org/get第一个是get请求http://httpbin.org/post第二个是post请求如果一个测试用例，有多个步骤中，测试环境地址不变http://......
Vue2--入门学习
看了慕课网的教学视频，觉得挺不错的，在此做个随堂记录，有兴趣的可以去看视频vue版本：2.5文档链接：https://v2.cn.vuejs.org/v2/guide/installation.html视频链接：https://www.imooc.com/video/16976 在vue官网下载开发版本的vue.js，并复制其代码到编译器中创建的vue.js文件中 ......
Spring AOP官方文档学习笔记（四）之Spring AOP的其他知识点
1.选择哪种AOP(1)使用SpringAOP比使用完整版的AspectJ更方便简单，因为不需要在开发和构建过程中引入AspectJ编译器以及织入器,如果我们只希望通知能够在SpringBean上执行,那么选用SpringAOP就可以了,如果我们希望通知能够在不由Spring所管理的对象上执行,那么就需要使用Aspect......
html5 2.0学习
列表定义：是一种特别的对象集合。集合：集中在一起合二为一（聚集）。聚集：多个列（信息资源）排在一起。信息资源：一堆数据，可能是字符，可能是图片。列表分类：有序列表无序列表（自）定义列表有序列表：有顺序的列表。列表结构：<ol><li></li></ol> 有顺序，每个li独占一行，默认li标签前面有顺......
【pytorch】土堆pytorch教程学习（六）神经网络的基本骨架——nn.module的使用
torch.nn是pytorch的一个神经网络库(nn是neuralnetwork的简称)。Containerstorch.nn构建神经网络的模型容器(Containers,骨架)有以下六个：ModuleSequentialModuleListModuleDictParameterListParameterDict本博文将介绍神经网络的基本骨架——nn.module的使用。......
httprunner 4.x学习 - 7.环境变量.env 的使用
前言一般来说，在进行实际应用的开发过程中，应用会拥有不同的运行环境，通常会有以下环境：本地开发环境测试环境生产环境在不同环境中，我们可能会使用不同的数据库或邮件发送等配置，这时候则需要通过.env文件来针对不同的运行环境作不同的设置。环境变量基础知识在自动化测试中......
爬虫学习基础
第一个爬虫程序,抓取网页源码并保存为html文件fromurllib.requestimporturlopenurl='http://www.baidu.com'res=urlopen(url)#print(res.read().decode('utf-8'))withopen('save_baidu.html','w',encoding='utf-8')asf:......
LDAP学习（1）
轻型目录访问协议（LightweightDirectoryAccessProtocol，LDAP）：是一个开放的、中立的、业标准的应用协议，通过IP协议提供访问控制和维护分布式信息的目录信息，它是由目录数据库和一套访问协议组成的系统LDAP相关概念dn（DistinguishedName）：区分名称，LDAP中每个条目都有自己的dn，dn是该条......
《Linux高性能服务器编程》学习记录（二）linux网络编程基础API
Linux网络API主要有三种：socket地址API。socket最开始的含义是一个IP地址和端口对（ip，port）。它唯一地表示了使用TCP通信的一端，称其为socket地址。socket基础API。socket的主要API都定义在sys/socket.h头文件中，包括创建socket、命名socket、监听socket、接受连接、发起连接、读写......

强化学习的基本概念

相关文章

赞助商

阅读排行