首页 > 其他分享 >Reinforcement Learning Charpter 3

Reinforcement Learning Charpter 3

时间:2024-02-26 16:13:45浏览次数:12  
标签:方程 Charpter 有限 Reinforcement state Learning RL MDP reward

本文参考《Reinforcement Learning:An Introduction(2nd Edition)》Sutton


 

有限MDP

有限MDP在RL中一般就是指如下图的交互式学习框架。(为了方便起见,把它当成离散化的过程)

其“有限”的特点表现在:state、reward、action三者只有有限个元素

其markov性体现在:

所以在这种情况下state,reward是两个具有明确定义的离散概率分布的随机变量,并且对前继状态有依赖性;

由条件概率的性质,不难看出函数p实际上是为state=s,action=a的所有后继状态(包括state与reward)指定了一个概率分布。

值得注意的一点是我们现在讨论的模型是随机的,也就是state,action,reward之间本质上是相互独立的。

对于函数p,我们取适当的定义域可以自然的衍生出一系列的关于环境的信息:

如状态转移概率:

还有很多,不再赘述。

有限MDP作为RL的学习框架之一核心就在于智能体和环境之间三个信号(s,r,a)的来回传递,经过大量实践已证明有限MDP方法的普适性和有效性。

联系我们之前bandit问题的例子,对于有限MDP框架而言,其目标在于最大化 收益和 (决策过程中)的期望值;

所以很重要的一点就是:收益信号r只是目标的一种间接表达,并不一定是目标本身。收益信号强不代表达到RL目标,但是达到RL目标时收益信号一定不弱。

依赖于有限MDP框架,我们可以公式化的描述我们的策略、状态价值,从而评估我们的策略是否足够优秀:

最下的式子即为著名的贝尔曼方程,由于其递归依赖的特性,对于有限MDP过程这个方程组总是有唯一解(保证解一定存在)。

那么比较自然的我们得到了一个新的问题:是否存在一个策略使得在任何状态下状态的价值都大于其他策略下该状态的价值?

即上述两式代表的 贝尔曼最优方程是否存在解? 

从数学上可以证明必然存在最优解,且解唯一:

证明过程可参考:强化学习中无处不在的贝尔曼最优性方程,背后的数学原理为何? - 知乎 (zhihu.com),主要运用到了压缩映射的性质和巴拿赫不动点定理。

然而解存在不代表我们可直接解出,我们希望能够得到最优方程的解,但不同于bellman方程,最优方程显式解法需要足够充足的算力且要对环境有精确完备的建模,所以我们只能尽可能的近似求解。

 

标签:方程,Charpter,有限,Reinforcement,state,Learning,RL,MDP,reward
From: https://www.cnblogs.com/LGL-sdu/p/18010901

相关文章

  • HTML-Learning
    WebLearningHTML标签属性HTML基本结构注释文档声明字符编码设置语言排版语义化标签块级元素和行内元素不常用的标签图片标签相对/绝对路径常见图片格式超链接列表表格常用标签表单HTML字符实体全局属性meta元信息HTML标签规范:小写https://www.w......
  • CSS-Learning
    CSSCSS注释/**/样式表优先级行内:<h1style="color:red;">,属性:值;内部:在head内的style外部:存放在.css文件里CSS风格开发时用展开风格,利于开发上线时用紧凑风格,利于节省体积,加速,(webpack)CSS三大特性布局浮动float定位position:用于指定一个元素在文档......
  • Machine Learning - The Sigmoid Function
    CalculateNodeOutput.TaskYouaregiventhevaluesforw1,w2,b,x1andx2andyoumustcomputetheoutputforthenode.Usethesigmoidastheactivationfunction.InputFormatw1,w2,b,x1andx2ononelineseparatedbyspacesOutputFormatFloatrounded......
  • Multi-behavior Self-supervised Learning for Recommendation论文阅读笔记
    Abstract本文提出了一个多行为自监督学习框架,以及一种自适应优化方法。具体而言,我们设计了一个行为感知的图神经网络,结合自注意力机制来捕捉行为的多样性和依赖关系。为了增强对目标行为下的数据稀疏性和辅助行为的嘈杂交互的鲁棒性,我们提出了一种新的自监督学习范式,以在行为间和......
  • Machine Learning - A Forest of Trees
    BuildaRandomForestmodel.TaskYouwillbegivenafeaturematrixXandtargetarrayy.Yourtaskistosplitthedataintotrainingandtestsets,buildaRandomForestmodelwiththetrainingset,andmakepredictionsforthetestset.Givetherandom......
  • 神经网络优化篇:详解深度学习框架(Deep Learning frameworks)
    深度学习框架一小点作者内心os:24年春节已过完,从熟悉的地方又回到陌生的地方谋生,愿新的一年都得偿所愿,心想事成。学到这会儿会发现,除非应用更复杂的模型,例如卷积神经网络,或者循环神经网络,或者当开始应用很大的模型,否则它就越来越不实用了,至少对大多数人而言,从零开始全部靠自己......
  • 【Python】强化学习Q-Learning走迷宫
    Q-Learning是一种基于值函数的强化学习算法,这里用该算法解决走迷宫问题。算法步骤如下:1.初始化Q表:每个表格对应状态动作的Q值。这里就是一个H*W*4的表,4代表上下左右四个动作。2.选择动作:根据Q表格选择最优动作或者以一定概率随机选择动作。3.执行动作,得到返回奖励(这......
  • Edu-Dict + English Learning Materials: Mdict
    https://mdict.orghttps://github.com/xiaolai/apple-computer-literacy/blob/main/Install-Mdict-Dictionaries-to-macOS-Dictionary.mdhttps://downloads-direct.freemdict.com/Language_Learning_Videos/英语/https://downloads.freemdict.comhttps://mdx.mdict.orgMdic......
  • Sample-Efficient Deep Reinforcement Learning via Episodic Backward Update
    发表时间:2019(NeurIPS2019)文章要点:这篇文章提出EpisodicBackwardUpdate(EBU)算法,采样一整条轨迹,然后从后往前依次更新做experiencereplay,这种方法对稀疏和延迟回报的环境有很好的效果(allowssparseanddelayedrewardstopropagatedirectlythroughalltransitionso......
  • 《Learning from Context or Names?An Empirical Study on Neural Relation Extractio
    代码原文地址预备知识:1.什么是对比学习?对比学习是一种机器学习范例,将未标记的数据点相互并列,以教导模型哪些点相似,哪些点不同。也就是说,顾名思义,样本相互对比,属于同一分布的样本在嵌入空间中被推向彼此。相比之下,属于不同分布的那些则相互拉扯。摘要神经模型在关系抽取(RE......