1-有限马尔可夫决策过程
在本文中,我们将探讨马尔可夫决策过程在强化学习中的原理和性质。
马尔可夫链的性质:
马尔可夫链是一种特殊的随机过程,旨在根据先前状态预测过程的未来状态。马尔可夫链可以通过不同的顺序来区分。顺序是指使用了多少先前的状态来预测未来的状态。在我们的例子中,我们关注一阶马尔可夫链,这意味着未来与现在直接相关,而不是与过去状态相关(参见下面等式中的公式)。
§ 例子 :
让我们考虑一个使用一阶马尔可夫链的天气预报示例,这意味着预测明天天气参数的必要和充分信息在当前而不是前几天已经可用。
马尔可夫决策过程的背景:
马尔可夫决策过程( ** MDP** ) 是一个数学框架,用于在具有以下条件的环境中对决策进行建模 ** 马尔可夫性质** :状态之间的转换中的一阶马尔可夫链,结果受每个状态中的静态转换概率的影响,并且状态的数量受到控制,这意味着不是无限大。
具有此特征的函数 MDP 是个 ** 动态函数** 等式。 (3.2)允许计算在当前状态和将在该状态下执行的动作的条件下具有一定奖励的某个下一个状态的概率。
§ 例子 :
在这个例子中,我们将说明如何在相同的开始和结果条件下获得不同的奖励:
移动机器人的任务是在办公环境中收集空饮料罐。为了简单起见,我们假设只能区分两个电荷水平(作为状态),包括一个小的状态集 S = {高电荷,低电荷}。
在每种状态下,代理都可以决定是在一段时间内主动寻找罐头,还是保持静止等待有人给它带来罐头,或者返回其基地充电。
那么动作集是:
现在让我们考虑一下我们更关心让机器人更关注其电池充电而不是收集空罐的情况。
来自 ” 低电荷 ” - 状态,在执行相应的操作之后 搜索 或者 等待 ,奖励被分成两个可能的结果,具有相应的概率。
这个奖励模型告诉机器人可以继续检查空罐;但是,应该非常小心电池电量。
用上图解释这个请求:
现在我们考虑一个奖励模型,其中电池的电量不再是主要关注点,而是在机器人处于“低电量”状态时考虑到电池电量特殊的收集空罐的数量。 (这里没有每次动作后的奖励划分)
正如你所注意到的,我们非常关注最后一个方程 ** 动态函数** .原因是这个方程是基本的并且落后于 MDP 原则;理解它对于接下来的步骤至关重要。基于动态函数,我们可以推导出许多不同的重要方程,这些方程使我们能够以不同的计算视角对不同的情况进行许多估计,例如:
这是代理通过在状态“s”中执行动作“a”然后到达下一个状态可以获得的所有可能奖励概率分布的总和。使用这个新函数,我们通过在状态“s”中执行动作“a”来获得到达下一个状态的概率分布,而不管奖励结果的可能性如何。
MDP下价值函数和动作价值函数的计算:
MDP的价值函数表达:
价值函数的推导 MDP 从以下等式可以看出这种情况:
§ 解释 :
让我们尝试解释当我们从某个状态迭代到最终状态时,累积奖励是如何计算的,以及驱动这个过程的影响因素是什么 :
如果我们为代理定义概率策略,其中在左图中概述了其在每个状态下的概率决策,并且在执行“N”个情节之后,我们发现代理处于某些状态的概率与最优运行不对应政策(在蓝色标记的路径中)。
这种估计的代理在环境状态之间的移动或转换取决于它的 政策职能 和 动态函数 环境的 ,我们在上一节中已经看到了。
右图反映了当我们经常从开始状态(黄色)开始时,状态之间的预期移动以达到最终状态。从状态之间转换的这个角度,计算估计的累积奖励。
§ 解释 :
为了概述在某些状态下的值函数的计算中涉及的计算密集程度和组合可能性,接下来将讨论计算过程:
- 我们将状态作为计算的起始状态:
2. 在代理策略的帮助下,我们得到所有可能的动作以及它们在状态下的执行概率:
3. 我们现在选择行动作为在状态下进一步计算的例子:
4. 借助策略函数,我们从状态中的代理那里得到这个动作的执行概率:
5. 从代理处于状态并且动作可能执行的角度来看,我们然后使用动态函数来识别所有可能的下一个状态及其相应的奖励:
6. 如果我们将自己限制在下一个状态及其奖励,我们从动态函数中得到这个事件发生的概率,下一个状态的下一个奖励和价值函数等元素将被包括在进一步的计算中:
MDP对动作价值函数的表达:
通过动作价值函数,我们已经在当前状态下执行了一个动作,现在想要估计这个马尔可夫环境中剩余的下一个状态的累积奖励。
参考:
- 网络物理系统的强化学习:通过网络安全案例研究, Chong Li , Meikang Qiu
- 强化学习:简介,Richard S. Sutton 和 Andrew G. Barto
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明
本文链接:https://www.qanswer.top/10928/36150208
标签:状态,函数,有限,决策,奖励,马尔可夫,MDP,我们 From: https://www.cnblogs.com/amboke/p/16648526.html