首页 > 其他分享 >1-有限马尔可夫决策过程

1-有限马尔可夫决策过程

时间:2022-09-02 08:45:39浏览次数:83  
标签:状态 函数 有限 决策 奖励 马尔可夫 MDP 我们

1-有限马尔可夫决策过程

在本文中,我们将探讨马尔可夫决策过程在强化学习中的原理和性质。

马尔可夫链的性质:

马尔可夫链是一种特殊的随机过程,旨在根据先前状态预测过程的未来状态。马尔可夫链可以通过不同的顺序来区分。顺序是指使用了多少先前的状态来预测未来的状态。在我们的例子中,我们关注一阶马尔可夫链,这意味着未来与现在直接相关,而不是与过去状态相关(参见下面等式中的公式)。

§ 例子

让我们考虑一个使用一阶马尔可夫链的天气预报示例,这意味着预测明天天气参数的必要和充分信息在当前而不是前几天已经可用。

马尔可夫决策过程的背景:

马尔可夫决策过程( ** MDP** ) 是一个数学框架,用于在具有以下条件的环境中对决策进行建模 ** 马尔可夫性质** :状态之间的转换中的一阶马尔可夫链,结果受每个状态中的静态转换概率的影响,并且状态的数量受到控制,这意味着不是无限大。

具有此特征的函数 MDP 是个 ** 动态函数** 等式。 (3.2)允许计算在当前状态和将在该状态下执行的动作的条件下具有一定奖励的某个下一个状态的概率。

§ 例子

在这个例子中,我们将说明如何在相同的开始和结果条件下获得不同的奖励:

移动机器人的任务是在办公环境中收集空饮料罐。为了简单起见,我们假设只能区分两个电荷水平(作为状态),包括一个小的状态集 S = {高电荷,低电荷}。

在每种状态下,代理都可以决定是在一段时间内主动寻找罐头,还是保持静止等待有人给它带来罐头,或者返回其基地充电。

那么动作集是:

现在让我们考虑一下我们更关心让机器人更关注其电池充电而不是收集空罐的情况。

来自 ” 低电荷 ” - 状态,在执行相应的操作之后 搜索 或者 等待 ,奖励被分成两个可能的结果,具有相应的概率。

这个奖励模型告诉机器人可以继续检查空罐;但是,应该非常小心电池电量。

用上图解释这个请求:

现在我们考虑一个奖励模型,其中电池的电量不再是主要关注点,而是在机器人处于“低电量”状态时考虑到电池电量特殊的收集空罐的数量。 (这里没有每次动作后的奖励划分)

正如你所注意到的,我们非常关注最后一个方程 ** 动态函数** .原因是这个方程是基本的并且落后于 MDP 原则;理解它对于接下来的步骤至关重要。基于动态函数,我们可以推导出许多不同的重要方程,这些方程使我们能够以不同的计算视角对不同的情况进行许多估计,例如:

这是代理通过在状态“s”中执行动作“a”然后到达下一个状态可以获得的所有可能奖励概率分布的总和。使用这个新函数,我们通过在状态“s”中执行动作“a”来获得到达下一个状态的概率分布,而不管奖励结果的可能性如何。

MDP下价值函数和动作价值函数的计算:

MDP的价值函数表达:

价值函数的推导 MDP 从以下等式可以看出这种情况:

§ 解释

让我们尝试解释当我们从某个状态迭代到最终状态时,累积奖励是如何计算的,以及驱动这个过程的影响因素是什么

如果我们为代理定义概率策略,其中在左图中概述了其在每个状态下的概率决策,并且在执行“N”个情节之后,我们发现代理处于某些状态的概率与最优运行不对应政策(在蓝色标记的路径中)。

这种估计的代理在环境状态之间的移动或转换取决于它的 政策职能动态函数 环境的 ,我们在上一节中已经看到了。

右图反映了当我们经常从开始状态(黄色)开始时,状态之间的预期移动以达到最终状态。从状态之间转换的这个角度,计算估计的累积奖励。

§ 解释

为了概述在某些状态下的值函数的计算中涉及的计算密集程度和组合可能性,接下来将讨论计算过程:

  1. 我们将状态作为计算的起始状态:

2. 在代理策略的帮助下,我们得到所有可能的动作以及它们在状态下的执行概率:

3. 我们现在选择行动作为在状态下进一步计算的例子:

4. 借助策略函数,我们从状态中的代理那里得到这个动作的执行概率:

5. 从代理处于状态并且动作可能执行的角度来看,我们然后使用动态函数来识别所有可能的下一个状态及其相应的奖励:

6. 如果我们将自己限制在下一个状态及其奖励,我们从动态函数中得到这个事件发生的概率,下一个状态的下一个奖励和价值函数等元素将被包括在进一步的计算中:

MDP对动作价值函数的表达:

通过动作价值函数,我们已经在当前状态下执行了一个动作,现在想要估计这个马尔可夫环境中剩余的下一个状态的累积奖励。

参考:

  • 网络物理系统的强化学习:通过网络安全案例研究, Chong Li , Meikang Qiu
  • 强化学习:简介,Richard S. Sutton 和 Andrew G. Barto

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明

本文链接:https://www.qanswer.top/10928/36150208

标签:状态,函数,有限,决策,奖励,马尔可夫,MDP,我们
From: https://www.cnblogs.com/amboke/p/16648526.html

相关文章

  • RabbitMQ 入门系列:10、扩展内容:延时队列:延时队列插件及其有限的适用场景(系列大结局)。
    系列目录RabbitMQ入门系列:1、MQ的应用场景的选择与RabbitMQ安装。RabbitMQ入门系列:2、基础含义:链接、通道、队列、交换机。RabbitMQ入门系列:3、基础含义:持久化、......
  • 小卫生物科技有限公司萌趣洗手机—大黄鸭好不好用
    小卫生物科技有限公司萌趣洗手机—大黄鸭小卫生物科技有限公司的专家告诉我们,频繁洗手会破坏皮肤表层皮脂膜,失去部分天然保湿力,影响皮肤保持水分的能力。虽然每次洗手后,手......
  • 如何使用CleanMyMac X的空间透镜功能快速决策清理垃圾?
    CleanMyMac是一款专业的苹果电脑清理软件,它支持快速清扫电脑垃圾、卸载应用程序和清理隐私痕迹等常用功能,同时还支持使用其强大的空间透镜功能,像Windows系统一样实时浏览电......
  • 机器学习和 Python 中的贷款偿还预测(决策树算法)。
    机器学习和Python中的贷款偿还预测(决策树算法)。资源→我需要了解我的客户是否会归还他们从我的银行获得的贷款。问题陈述:-使用python中的决策树算法预测客户是否......
  • 机器学习和 Python 中的决策树算法
    机器学习和Python中的决策树算法→决策树是一种树形算法,用于确定行动过程,树的每个分支代表一个可能的决策、发生或反应。让我们看一下术语:-熵——熵是数据集中“随......
  • 决策的艺术
    提出正确的问题Problem打破常规,创造性地思考写出对问题最初的评估,质疑、检查、完善它是什么触发地这项决策?检视问题中的限制条件求助于他人求助与朋友或者相关领域地......
  • 决策树算法
    1.决策树在机器学习中,决策树是一个预测模型,他代表的是对象属性与对象值之间的一种映射关系。决策树是一种树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表......
  • sklearn中的决策树(1)—— 分类树
     sklearn中的决策树(1)——分类树¶  DecisionTreeClassifier¶  重要参数¶  Criterion:不纯度,gini&entropyentropy......
  • 【速度决策规划】S型速度规划
    【速度决策规划】S型速度规划概要小车控制需要缓慢加速,即速度平缓上升,对于小车走定距离,速度规划很有帮助来做点数学吧速度规划的最根本的点还是想要让小车的加速度连续......
  • 【DP】决策单调性小记
    何谓决策单调性?指的就是在最优化dp中,状态的最优转移点单调不减的性质。这使得我们在做dp的时候可以减少冗余计算以达到优化的效果。这类优化方法常用于分段问题。0x......