首页 > 其他分享 >西湖大学赵世钰老师【强化学习的理论基础】02基本概念

西湖大学赵世钰老师【强化学习的理论基础】02基本概念

时间:2024-06-06 12:33:56浏览次数:15  
标签:02 状态 return 赵世钰 奖励 state reward 基本概念 gamma

文章目录

概念介绍

例子:网格世界,机器人可以在网格中相邻两个块之间移动,找到比较好的路径,最后达到目标。如何定义好的,比如说就是要避免forbidden cells,消除没有意义的拐弯,不能试图超越边界等。

state(状态)

agent相对于环境的一个状态
grid-world例子当中state指的就是location
在这里插入图片描述 s1真正对应的状态可能是二维空间的一个坐标

  • 状态空间(集合)
    S = { s i } , i = 1 , 2 , … 9 S=\{s_i\},i=1,2,…9 S={si​},i=1,2,…9

Action(动作)

a1~a5分别表示向上、右、下、左、原地不动,它会与状态有关,故
A ( s i ) = { a i } , i = 1 , 2 , 3 , 4 , 5 A(s_i)=\{a_i\},i=1,2,3,4,5 A(si​)={ai​},i=1,2,3,4,5

State transition(状态转移)

  • agent从一个state移动到另一个state,定义agent和环境的交互行为
  • 实际中不可以任意定义,但是游戏中可以定义,比如a1往上走被弹回来,到s4或者s7
    1) Forbidden area:处于 s5状态,选择动作 a2,那么下一个状态会是什么?
    Answer:第一种就是可以进去但是会受到惩罚;第二种就是进不去。所以第一种难,比如可以进去会得到惩罚,但是是进入target最近的路径,但这也有可能会因为扣分项创造更高的奖励。
    2) 状态转移的tabular表现形式:
    只能表示确定性情况,如果存在多种情况无法表达在这里插入图片描述 3)状态转移的可能性(state transition probability)
    比如说在s1状态,选择a2的动作,那么下一个状态就是s2
    p ( s 2 ∣ s 1 , a 2 ) = 1 , p ( s i ∣ s 1 , a 2 ) = 0 ( 任给 i 不等于 2 ) p(s_2|s_1,a_2)=1,p(s_i|s_1,a_2)=0(任给i不等于2) p(s2​∣s1​,a2​)=1,p(si​∣s1​,a2​)=0(任给i不等于2)

Policy(策略)

告知Agent在一个状态会采取的行动
在这里插入图片描述
在这里插入图片描述
对每一个状态都要有它的策略,上图是确定性的,当然也有不确定的。

  • 其中用条件概率来表示策略,使用符号π来表示任何一个state下,具体一个action的条件概率是多少。
  • 同样也可以采用表格的表示方法
    在这里插入图片描述

reward(奖励)

是一个数或者说是标量,agent采取动作之后的数

  • 一般来说正数是鼓励行为发生的,如果正数是惩罚,那reward就要minimize

  • 表示我们与机器交互的一种手段,引导Agent实现合适的策略。用表格或者条件概率的方法,比如:

    P ( r = − 1 ∣ s 1 , a 1 ) P(r=-1|s_1,a_1) P(r=−1∣s1​,a1​)

    1)奖励的分布是随机的
    2)如果努力学习,会获得奖励但是奖励的多少不确定
    3)奖励取决于当前状态和动作,而不是依赖下一状态(下一状态相同但是reward不一样的例子)
    4) grid-world的例子:如果Agent想要冲破边界或者进入forbidden cells,那么奖励就是-1;如果达到目标块,奖励就是+1
    在这里插入图片描述

Trajectory(轨迹) and return

  • 是一个state-action-reward链
  • return 是沿着这个轨迹所有的reward加起来
    在这里插入图片描述
    在这里插入图片描述
    policy不同,trajectory也会不同,那么这两个哪个比较好?
  • 直观上来说,第一个没有进入forbidden区域,算比较好
  • 但是从数学的角度来说,第一个策略的return更大(在下一节中会用return评估这个策略是好还是坏

Discounted return(折扣回报)

在这里插入图片描述
如果达到target之后,策略还在继续,那么return就会沿着无穷长的轨迹发散掉。
解决办法:实现无穷级数收敛,引入discount rate属于[0,1)
将discounted rate和return相结合就得到了discounted return
就变成了
d i s c o u n t e d − r e t u r n = 0 + γ 0 + γ 2 0 + γ 3 1 + γ 4 1 + γ 5 1 … = γ 3 ( 1 + γ + γ 2 … ) = γ 3 1 1 − γ discounted-return=0+\gamma0+\gamma^20+\gamma^31+\gamma^41+\gamma^51… =\gamma^3(1+\gamma+\gamma^2…)=\gamma^3{1\over1-\gamma} discounted−return=0+γ0+γ20+γ31+γ41+γ51…=γ3(1+γ+γ2…)=γ31−γ1​
这样做的好处:
1)无穷级数的收敛性,就变成了一个有限的值
2)平衡更远或者更近所得到的reward。gamma趋于0的话,discounted-reurn依赖于最开始得到的reward(即时奖励);gamma趋于1的话,discounted-return依赖于更远的reward(长期奖励)。(短视和近视)

Episode(回合)一般是有终止点的轨迹

在这里插入图片描述

  • 有些任务是没有terminal states,这就意味着agent和环境的交互会永远持续,这样的任务就叫做continuing tasks

  • 在grid-world中,到达目标区域之后是不动还是?
    实际上有一种统一方法来描述episodic tasks和continuing tasks,把episodic tasks转化为continuing tasks
    1)方法一:把这个target state当作是一个特殊的absorbing state。到达这个之后就会一直留在这,之后所有的reward都是0
    2)方法二:把它认为是普通状态,也有策略,如果策略好就会一直留在那,收集正的reward
    在这里我们使用的是第二个,把目标不会区别对待还是作为一般状态

Markov decision process(MDP)-一个对应三个单词的过程

要素

  1. 集合
  • state:状态S的集合
  • Action:the set of action A(s) is associated for the state s属于S
  • Reward:R(s,a)
  1. 概率分布
  • 状态转移的概率:就是在状态s,选择动作a,转换到状态s’的概率
    p ( s ’ ∣ s , a ) p(s’|s,a) p(s’∣s,a)
  • 奖励概率:是在状态s,选择动作a,获得奖励r的概率
    p ( r ∣ s , a ) p(r|s,a) p(r∣s,a)
  1. 策略-对应于马尔可夫决策过程中的决策:在状态s下,选择行动a的概率是
    π ( a ∣ s ) \pi(a|s) π(a∣s)
  2. 马尔可夫的性质:无记忆性
    在这里插入图片描述

马尔可夫的过程

在这里插入图片描述

  • 马尔科夫决策过程当有了一个确定的策略之后就变成马尔科夫过程

标签:02,状态,return,赵世钰,奖励,state,reward,基本概念,gamma
From: https://blog.csdn.net/weixin_57640874/article/details/139483827

相关文章

  • 「漏洞复现」Apache OFBiz 路径遍历漏洞(CVE-2024-36104)
    0x01 免责声明请勿利用文章内的相关技术从事非法测试,由于传播、利用此文所提供的信息而造成的任何直接或者间接的后果及损失,均由使用者本人负责,作者不为此承担任何责任。工具来自网络,安全性自测,如有侵权请联系删除。本次测试仅供学习使用,如若非法他用,与平台和本文作者无关,需......
  • 2024ide构建maven项目是总是卡在解析Maven依赖项目 加速方案
    总是这样要加载好久好久才能完成构建我们可以添加阿里云镜像下载镜像是一个包含完整文件系统的容器运行环境的静态快照。它包含了运行某个应用程序所需的所有内容:代码、运行时、库、环境变量和配置文件等。镜像可以被用来创建容器实例,即容器是镜像的运行时实例。在容器化......
  • Sz-Admin | SpringBoot3 JDK21 Vue3开源后台RBAC管理系统 | 2024年好用的开源RBAC管理
    简介接触了很多优秀的开源和闭源项目,在使用过程中也发现一些问题,不甘满足的我遂产生了想法:于是利用休息时间编写了一套后台管理系统,它灵活、简洁、高效,拥抱最新的技术,因此Sz-Admin便诞生了,也意为升职Admin,升职加薪节节高。SzAdmin,一个基于SpringBoot3、Vue3和El......
  • ICML 2024|用于统一分子建模的多尺度蛋白质语言模型ESM-AA
    多模态蛋白质语言模型是一个新兴的方向。《Multi-scaleProteinLanguageModelforUnifiedMolecularModeling》是一篇发表在ICML2024的文献,作者是KangjieZheng、SiyuLong、TianyuLu、JunweiYang、XinyuDai、MingZhang、ZaiqingNie、Wei-YingMa和HaoZhou。文章的......
  • 2024年腾讯云618玩法攻略大全,让你一薅到底!
     重要事情说三遍,2024年腾讯云618活动来了,它来了,它真来了!!今年直接干到骨折价格,云服务器秒杀0.5折起;代金券抵扣折上折;爆品产品88元专区选购、618神秘彩蛋... 关键的关键是,老用户也能享受! 多重福利堪称丧心病狂,但是想全拿完,还是的花点时间研究。废话不多说,教你如何快、准、狠薅腾......
  • 【2024-06-05】贴身感受
    20:00梅子留酸软齿牙,芭蕉分绿与窗纱。日长睡起无情思,闲看儿童捉柳花。                                                 ——《闲居初夏午睡起》杨万里·宋连续两天陪......
  • 2024年6月 AWVS -24.4.27详细安装教程附下载教程含windows和linux多版本
    免责声明请勿利用文章内的相关技术从事非法测试。由于传播、利用此文所提供的信息而造成的任何直接或者间接的后果及损失,均由使用者本人负责,作者不为此承担任何责任,请务必遵守网络安全法律法规。本文仅用于测试,请完成测试后24小时删除,请勿用于商业用途。如文中内容涉及侵权......
  • 【高质量】2024年数学建模国赛A题保奖思路(点个关注,后续会更新)
    您的点赞收藏是我继续更新的最大动力!一定要点击如下的卡片链接,那是获取资料的入口!点击链接加入群聊【2024国赛资料合集】:http://qm.qq.com/cgi-bin/qm/qr?_wv=1027&k=i9iTpd5r3L546ho71Fv5Ml5JNPODziWg&authKey=0vIFaOH5PnDnmvvkstjxvIoD6S919ufxy2Y7AxbtgmgESZAFaSOwqlP73Jx......
  • Day15 | 102. 二叉树的层序遍历 、226.翻转二叉树 101. 对称二叉树
    102.二叉树的层序遍历看完本篇可以一口气刷十道题,试一试,层序遍历并不难,大家可以很快刷了十道题。题目链接/文章讲解/视频讲解:https://programmercarl.com/0102.二叉树的层序遍历.html#Definitionforabinarytreenode.#classTreeNode:#def__init__(self,val=0......
  • 【软件插件】SketchUP插件-最新版坯子插件2024 v3.2.2(支持SketchUp2012-2024版本)安装
    下载链接:https://r0vr8xquwul.feishu.cn/docx/MXC5dUMZroLibaxYgZ3cmkyinDe详细图文教程:https://www.yuque.com/zhefengerhuanzaigua/bld6x5/kc2baq1msy6dehb3软件介绍坯子插件库是为SketchUp(草图大师)用户推出的一款插件管理工具,我们知道在使用sketchup进行模型设计的时候是......