强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）

强化学习 — 马尔科夫决策过程（MDP）

1、强化学习介绍

强化学习任务通常使用马尔可夫决策过程（Markov Decision Process，简称MDP）来描述，具体而言：机器处在一个环境中，每个状态为机器对当前环境的感知；机器只能通过动作来影响环境，当机器执行一个动作后，会使得环境按某种概率转移到另一个状态；同时，环境会根据潜在的奖赏函数反馈给机器一个奖赏。综合而言，强化学习主要包含四个要素：状态、动作、转移概率以及奖赏函数。

强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）_强化学习

根据上图，agent（智能体）在进行某个任务时，首先与environment进行交互，产生新的状态state，同时环境给出奖励reward，如此循环下去，agent和environment不断交互产生更多新的数据。强化学习算法就是通过一系列动作策略与环境交互，产生新的数据，再利用新的数据去修改自身的动作策略，经过数次迭代后，agent就会学习到完成任务所需要的动作策略。

2、马尔科夫过程（Markov Process）

马尔可夫性当前状态包含了对未来预测所需要的有用信息，过去信息对未来预测不重要，该就满足了马尔科夫性，严格来说，就是某一状态信息包含了所有相关的历史，只要当前状态可知，所有的历史信息都不再需要，当前状态就可以决定未来，则认为该状态具有马尔科夫性。用公式描述为：
$强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）_深度学习_02$

马尔科夫过程又叫做马尔科夫链（Markov Chain）,它是一个无记忆的随机过程，可以用一个元组<S, P>表示，其中

S是有限数量的状态集 $ S ={s_1, s_2, s_3, \cdots, s_t} $
P是状态转移概率矩阵 $强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）_强化学习_03$ 其中 $强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）_深度学习_04$ 表示下一时刻的状态， $强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）_马尔科夫链_05$

如下如所示：对于状态 $强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）_马尔科夫决策过程_06$ 来说，有0.1的概率保持不变，有0.2的概率转移到 $强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）_马尔科夫决策过程_07$ 状态，有0.7的概率转移到 $强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）_算法_08$ 状态。

强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）_马尔科夫链_09

我们可以使用矩阵来表示：
$强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）_深度学习_10$

3、马尔科夫奖励过程（Markov Reward Process）

3.1、概念介绍

马尔科夫奖励过程是在马尔科夫过程基础上增加了奖励函数 $强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）_深度学习_11$ 和衰减系数 $强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）_马尔科夫决策过程_12$ ，用 $强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）_算法_13$ 表示

$强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）_深度学习_14$ : 表示 $强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）_深度学习_15$ 状态下某一时刻的状态 $强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）_强化学习_16$ 在下一个时刻 $强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）_马尔科夫链_17$

$强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）_算法_18$

$强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）_马尔科夫决策过程_19$ : 收获 $强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）_马尔科夫决策过程_19$ 为在一个马尔科夫奖励链上从t时刻开始往后所有的奖励的有衰减的收益总和

$强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）_马尔科夫链_21$

$强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）_马尔科夫决策过程_22$ : 折扣因子 $强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）_深度学习_23$

1、为了避免出现状态循环的情况
2、系统对于将来的预测并不一定都是准确的，所以要打折扣
很显然越靠近1，考虑的利益越长远。

$强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）_深度学习_24$ : 状态价值函数（state value function） 表示从从该状态开始的马尔科夫链收获 $强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）_马尔科夫决策过程_19$ 的期望

$强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）_深度学习_26$

例子：对于如下状态，我们设定进入 $强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）_马尔科夫决策过程_27$ 状态奖励为 5，进入 $强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）_算法_28$ 状态奖励为 10，其余状态奖励为 0。则 $强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）_深度学习_11$ 可以如下表示： $强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）_马尔科夫决策过程_30$ ，折扣因子 $强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）_马尔科夫决策过程_12$

$强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）_深度学习_32$
$强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）_马尔科夫链_33$

强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）_马尔科夫链_34

3.2、Bellman Equation 贝尔曼方程

$强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）_深度学习_35$

$强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）_深度学习_36$

$强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）_算法_37$

$强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）_算法_38$

$强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）_马尔科夫决策过程_39$

使用贝尔曼方程状态价值 $强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）_强化学习_40$ 可以表示为：
$强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）_马尔科夫链_41$

S 表示下一时刻的所有状态，s’ 表示下一时刻可能的状态

通过贝尔曼方程，可以看到价值函数 $强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）_深度学习_42$ 有两部分组成，一个是当前获得的奖励的期望，即 $强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）_马尔科夫决策过程_43$ ，另一个是下一时刻的状态期望，即下一时刻可能的状态能获得奖励期望与对应状态转移概率乘积的和，最后在加上折扣。如下图所示，对于状态 $强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）_马尔科夫决策过程_06$ ，它的价值函数为： $强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）_强化学习_45$

强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）_马尔科夫链_46

4、马尔科夫决策过程（Markov Decision Process）

马尔科夫决策过程是在马尔科夫奖励过程的基础上加了 Decision 过程，相当于多了一个动作集合，可以用 $强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）_强化学习_47$ ，这里的 P 和 R 都与具体的行为 a 对应，而不像马尔科夫奖励过程那样仅对应于某个状态。

$强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）_马尔科夫决策过程_48$
$强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）_马尔科夫链_49$ 表示有限的状态集合
$强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）_马尔科夫决策过程_50$ is dynamics / transition model for each action
$强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）_深度学习_51$
$强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）_深度学习_52$ 是奖励函数 $强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）_马尔科夫决策过程_53$

4.1、策略（Policy）

用 $强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）_深度学习_54$ 表示策略的集合，其元素 $强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）_马尔科夫决策过程_55$ 表示某一状态 s 采取可能的行为 a 的概率
$强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）_强化学习_56$

这里需要注意的是：

Policy定义完整定义的个体行为方式，即包括了个体在各状态下的所有行为和概率
同时某一确定的Policy是静态的，与时间无关
Policy仅和当前的状态有关，与历史信息无关，但是个体可以随着时间更新策略

在马尔科夫奖励过程中策略 $强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）_深度学习_54$ 满足以下方程，可以参照下面图来理解
$强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）_算法_58$

状态转移概率可以描述为：在执行策略 $强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）_马尔科夫链_59$
奖励函数可以描述为：在执行策略 $强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）_马尔科夫链_59$

强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）_算法_61

我们引入策略，也可以理解为行动指南，更加规范的描述个体的行为，既然有了行动指南，我们要判断行动指南的价值，我们需要再引入基于策略的价值函数。

基于策略的状态价值函数（state value function）

$强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）_深度学习_24$ 表示从状态 $强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）_马尔科夫链_05$

$强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）_马尔科夫决策过程_64$

其中 $强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）_算法_65$

基于策略的行为价值函数（action value function）

$强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）_马尔科夫决策过程_66$ 当前状态s执行某一具体行为a所能的到的收获的期望

$强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）_马尔科夫链_67$

根据 Bellman 公式推导可得（参照马尔科夫奖励过程中 V 的推导）

$强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）_马尔科夫决策过程_68$

在某一个状态下采取某一个行为的价值，可以分为两部分：其一是离开这个状态的价值，其二是所有进入新的状态的价值于其转移概率乘积的和。参考下图右理解

由状态价值函数和行为价值函数的定义，可得两者的关系

$强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）_强化学习_69$

我们知道策略就是用来描述各个不同状态下执行各个不同行为的概率，而状态价值是遵循当前策略时所获得的收获的期望，即状态 s 的价值体现为在该状态下遵循某一策略而采取所有可能行为的价值按行为发生概率的乘积求和。参照下图左理解

强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）_马尔科夫链_70

上面两个公式组合可得 Bellman Expectation Equation

$强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）_马尔科夫链_71$

$强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）_马尔科夫链_72$

5、最优价值函数

解决强化学习问题意味着要寻找一个最优的策略让个体在与环境交互过程中获得始终比其它策略都要多的收获，这个最优策略我们可以用 $强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）_强化学习_73$ 表示。一旦找到这个最优策略 $强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）_强化学习_73$

我们一般是通过对应的价值函数来比较策略的优劣，也就是说，寻找较优策略可以通过寻找较优的价值函数来完成。可以定义最优状态价值函数是所有策略下产生的众多状态价值函数中的最大者，即：
$强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）_算法_75$
同理也可以定义最优动作价值函数是所有策略下产生的众多动作状态价值函数中的最大者，即：
$强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）_深度学习_76$
我们可以最大化最优行为价值函数找到最优策略：
$强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）_强化学习_77$
Bellman Optimality Equation

只要我们找到了最大的状态价值函数或者动作价值函数，那么对应的策略 $强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）_强化学习_73$ 就是我们强化学习问题的解。同时，利用状态价值函数和动作价值函数之间的关系，我们也可以得到：
$强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）_深度学习_79$

当到达最优的时候，一个状态的价值就等于在当前状态下最大的那个动作价值

$强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）_马尔科夫链_80$

把上面两个式子结合起来有Bellman Optimality Equation
$强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）_马尔科夫链_81$

$强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）_强化学习_82$

6、MDP 实例

下面给出一个例子，希望能能好的理解MDP过程

强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）_算法_83

例子是一个学生学习考试的MDP。里面左下那个圆圈位置是起点，方框那个位置是终点。上面的动作有study, pub, facebook, quit, sleep，每个状态动作对应的即时奖励R已经标出来了。我们的目标是找到最优的动作价值函数或者状态价值函数，进而找出最优的策略。

为了方便，我们假设衰减因子 $强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）_算法_84$

对于终点方框位置，由于其没有下一个状态，也没有当前状态的动作，因此其状态价值函数为0。对于其余四个状态，我们依次定义其价值为 $强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）_深度学习_85$ 分别对应左上，左下，中下，右下位置的圆圈。我们基于
$强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）_马尔科夫链_71$
来计算所有状态的价值函数，可以得到如下方程组

对于 v_1: $强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）_强化学习_87$
对于 v_2: $强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）_马尔科夫链_88$
对于 v_3: $强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）_强化学习_89$
对于 v_4: $强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）_马尔科夫决策过程_90$

解这个方程组可得： $强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）_马尔科夫决策过程_91$

强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）_马尔科夫决策过程_92

上面我们固定了策略 $强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）_深度学习_93$ 虽然求出了每个状态的状态价值函数，但是却并不一定是最优价值函数。那么如何求出最优价值函数呢？这里由于状态机简单，求出最优的状态价值函数 $强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）_强化学习_94$ 或者动作价值函数 $强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）_强化学习_95$

我们这次以动作价值函数 $强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）_强化学习_95$ 来为例求解。然后我们按照下面公式，
$强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）_马尔科夫决策过程_97$
可以得到下面等式
$强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）_强化学习_98$
然后求出所有的 $强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）_算法_99$ ，然后再利用 $强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）_马尔科夫链_100$ 就可以求出所有的 $强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）_强化学习_94$

强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）_马尔科夫决策过程_102

7、MDP 小结

虽然MDP可以直接用方程组求解简单的问题，但是却不能解决复杂的问题，因此我们需要寻找其他的方法来求解

下篇文章使用动态规划方法来解决 MDP问题，涉及到 Policy Iteration 和 Value Iteration 两个算法，还请大家多多关注。

本篇文章是我的强化学习开篇之作，如果觉得文章写的不错，还请各位看官老爷点赞收藏加关注啊，后面会一直写下去的，再此谢谢啦

参考资料：

B站周老师强化学习纲要第二讲上
刘建平Pinard

标签：状态,函数,奖励,马尔科夫,读懂,MDP,价值,策略
From： https://blog.51cto.com/u_11194105/6039073

强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）

强化学习 — 马尔科夫决策过程（MDP）

1、强化学习介绍

2、马尔科夫过程（Markov Process）