首页 > 其他分享 >深度强化学习 基本概念

深度强化学习 基本概念

时间:2023-05-20 12:44:06浏览次数:34  
标签:状态 函数 动作 作出 奖励 深度 policy 强化 基本概念

 

 state:状态;Action:动作;Agent:主体;

在状态s下主体可以选择自己的动作a。

 policy函数π:给出在状态s下作出动作a的概率,策略作出的动作是随机的。

 状态转移:在旧状态s1下作出动作a转移到新状态。

转态转移也是随机的,随机性依环境而变。

在状态s下作出动作a转移到s‘的概率。

 主体与环境的交互图:主体在状态s下作出动作a,环境依据主体的状态s和动作a决定状态转移即决定下一个状态s‘,并给出主体奖励。

 在深度强化学习中有俩个随机抽样的应用,一个是动作具有随机性,一个是转态转移具有随机性。

 主体在AI的辅助下计算当前状态作出的动作的概率,然后随机抽样决定动作,作出动作得到新的状态以及奖励,重复这个步骤得到轨迹(state,action,reward)。

 Ut定义为t时刻及t以后直到游戏结束时得到的奖励。考虑到当前的奖励和以后的奖励并不等价(例如现在就给你100块和一年后给你100块,肯定是现在的价值要高一点),于是定义出折扣奖励,使越远的奖励价值越低。

 由于当前的奖励取决于当前的状态和做出的动作,且,则Ut则与有关。

 

 动作价值函数表明在当前状态s下作出动作a的ut期望,意义为在状态s下做动作a的价值。由于动作价值函数与policy函数π有关,故我们可以求最大化的动作价值函数求得最好的policy函数。

 状态价值函数把动作a积掉,故与动作a无关,能用来评估状态s的好坏。

 

用状态价值函数的平均值来评估policy函数π的好坏。

 

 有俩种方法控制ai玩游戏,一种是有优秀的policy函数,执行函数随机生成的动作;另一种是执行使动作价值函数最大化的动作。

 

 

 

 

 

标签:状态,函数,动作,作出,奖励,深度,policy,强化,基本概念
From: https://www.cnblogs.com/huzixin666/p/17408523.html

相关文章

  • /deep/ 深度选择器
    vue引用了第三方组件,需要在组件中局部修改第三方组件的样式,而又不想去除scoped属性造成组件之间的样式污染。此时只能通过>>>,穿透scoped。有些Sass之类的预处理器无法正确解析>>>。可以使用/deep/操作符(>>>的别名)<stylescoped>外层>>>第三方组件{样式......
  • Linux 基础入门(新版)”实验报告 基本概念及操作
    实验2基本概念及操作1.Linux桌面环境介绍UNIX/Linux本身是没有图形界面的,UNIX/Linux发行版上看到的图形界面实际都只是运行在Linux系统之上的一套软件。现在这套软件为xorg(X.Org),而这套软件又是通过X窗口系统(XWindowSystem,也常被称为X11或X)实现的,X本身只是工具包及......
  • DFS(深度优先搜索)
    代码:#include<bits/stdc++.h>usingnamespacestd;intm,n,p,q,minn=99999999;inta[100][100];//1为空,2为障碍intv[100][100];//0未访问,1已访问intdx[4]={0,1,0,-1};intdy[4]={1,0,-1,0};//设置遍历方向voiddfs(intx,inty,intstep){ if(x==p&&y==......
  • 《动手学深度学习》
    《动手学深度学习》https://zh.d2l.ai/chapter_preliminaries/index.htmlhttps://tangshusen.me/Dive-into-DL-PyTorch/#/chapter02_prerequisite/2.2_tensorhttps://blog.csdn.net/qq_52358603/category_12064968_2.html......
  • 深度学习代码实践_train.py文件内容(识别数字0-9)
    importcv2fromMLPimportMLPfromCnnimportsave_modelimporttorchimporttorch.nn.functionalasFfromsklearn.metricsimportaccuracy_score,precision_score,recall_score,f1_scorefromsklearn.model_selectionimporttrain_test_splitimporttorch.ut......
  • ftok()函数深度解析
    关于ftok函数,先不去了解它的作用,先来说说为什么要用它,共享内存,消息队列\信号量它们三个都是一个中间介质,来进行通信的.这种介质多的是。就是怎么区分出来,就像唯一一个身份证来区分人一样。你随便来一个就行,就是因为这。只要唯一就行,就想起来了文件的设备编号和节点,它是唯一的......
  • 【操作系统】操作系统基本概念
    本系列参考资料:王道操作系统课程基本概念与知识点OS:控制和管理整个计算机系统的硬件和软件资源,并合理组织调度计算机的工作和资源的分配,以提供用户和其他软件方便的接口和环境。是计算机系统中最基本的系统软件。OS提供的功能:处理机管理、存储器管理、文件管理、设备管理。OS......
  • 影子clone,深度clone
    下面的例子包含三个类UnCloneA,CloneB,CloneMain。CloneB类包含了一个UnCloneA的实例和一个int类型变量,并且重载clone()方法。CloneMain类初始化UnCloneA类的一个实例b1,然后调用clone()方法生成了一个b1的拷贝b2。最后考察一下b1和b2的输出: packageclone;classUnCloneA{p......
  • 动手学深度学习(三) 多层感知机
    多层感知机多层感知机的基本知识使用多层感知机图像分类的从零开始的实现使用pytorch的简洁实现多层感知机的基本知识深度学习主要关注多层模型。在这里,我们将以多层感知机(multilayerperceptron,MLP)为例,介绍多层神经网络的概念。隐藏层下图展示了一个多层感知机的神经网络图,它含有......
  • 动手学深度学习(十二) NLP循环神经网络进阶
    GRURNN存在的问题:梯度较容易出现衰减或爆炸(BPTT)⻔控循环神经⽹络:捕捉时间序列中时间步距离较⼤的依赖关系RNN:ImageNameGRU:ImageName•重置⻔有助于捕捉时间序列⾥短期的依赖关系;•更新⻔有助于捕捉时间序列⾥⻓期的依赖关系。载入数据集importos......