DRL | 02 由浅入深马尔科夫决策过程

标签：02 状态马尔科夫决策马尔可夫 DRL Markov 过程

导读

深度强化学习是近几年比较热门的技术，也是被很多大牛看做是实现真正的人工智能的最理想的工具。

今天这篇文章，我们一起来了解一下马尔科夫决策过程，从马尔科夫链开始由浅入深学习马尔科夫决策过程的定义、性质及其他相关理论。

注：马尔科夫和马尔可夫，都只是音译，不影响我们知识的学习，我们在本教程中统一使用马尔科夫。

接下来让我们一起走进今天的文章吧！

1、引入

DRL | 02 由浅入深马尔科夫决策过程_马尔科夫链

DRL | 02 由浅入深马尔科夫决策过程_强化学习_02

DRL | 02 由浅入深马尔科夫决策过程_马尔科夫链_03

2、马尔科夫决策过程

马尔可夫决策过程（Markov Decision Process, MDP）是具有马尔科夫性质的随机过程 （简单理解：随机过程就是一组随机变量，每个随机变量随着参数的改变而变为下一个随机变量，改变是随机的，这个改变的过程就是随机的过程），并根据某个特定的策略做出决策。MDP的得名来自于俄国数学家安德雷·马尔可夫（Андрей Андреевич Марков），以纪念其为马尔可夫链所做的研究。

马尔科夫决策过程是智能体和环境的交互，智能体在环境中进行学习根据环境得到的状态或者观测，按照某个策略执行某个特定的动作。环境根据智能体的动作给予智能体相应的奖励。一个轨迹上的所有奖励的总和就是回报。

如果我们观测的是局部状态，即在部分可观测的环境下，我们称之为部分可观测马尔科夫决策过程（partially observable Markov decision process, POMDP）。

上一节内容，我们有讲到这些概念，如果大家有遗漏，可以看上一节内容实时巩固。

DRL | 01 深入强化学习及基本概念详述

3、马尔科夫性质

前面我们有说马尔科夫决策过程是具有马尔科夫性质的决策过程，现在我们来讲一下什么是马尔科夫性质。

马尔可夫性质（英语：Markov property）是概率论中的一个概念，是说：当一个随机过程在给定现在状态及所有过去状态情况下，其未来状态的条件概率分布仅依赖于当前状态；换句话说，在给定现在状态时，它与过去状态（即该过程的历史路径）是条件独立的，那么此随机过程即具有马尔可夫性质。

为了更好理解马尔科夫性质，我们用最重要的应用——马尔科夫链来理解。

4、马尔科夫链/过程

马尔可夫链（Markov Chain, MC）的提出来自俄国数学家安德雷·马尔可夫。他首次提出马尔科夫链并对其收敛性质做了相关研究。马尔科夫链、马尔科夫性质、马尔科夫决策过程等命名均是为了纪念这位数学家。

马尔可夫链（Markov Chain, MC）是概率论和数理统计中具有马尔可夫性质且存在于离散指数集（index set）和状态空间（state space）内的随机过程（stochastic process）。适用于连续指数集的马尔可夫链被称为马尔可夫过程（Markov process），但有时也被视为马尔可夫链的子集，即连续时间马尔可夫链（Continuous-Time MC, CTMC），与离散时间马尔可夫链（Discrete-Time MC, DTMC）相对应，因此马尔可夫链是一个较为宽泛的概念。

为了让大家更好理解，接下来我们讲一下马尔科夫的相关理论。

马尔科夫理论

为了便于大家理解，我们以马尔科夫链作为示例给大家讲解马尔科夫相关理论。

DRL | 02 由浅入深马尔科夫决策过程_强化学习_05