导读
深度强化学习是近几年比较热门的技术,也是被很多大牛看做是实现真正的人工智能的最理想的工具。
今天这篇文章,我们一起来了解一下马尔科夫决策过程,从马尔科夫链开始由浅入深学习马尔科夫决策过程的定义、性质及其他相关理论。
注:马尔科夫和马尔可夫,都只是音译,不影响我们知识的学习,我们在本教程中统一使用马尔科夫。
接下来让我们一起走进今天的文章吧!
1、引入
2、马尔科夫决策过程
马尔可夫决策过程(Markov Decision Process, MDP)是具有马尔科夫性质的随机过程 (简单理解:随机过程就是一组随机变量,每个随机变量随着参数的改变而变为下一个随机变量,改变是随机的,这个改变的过程就是随机的过程),并根据某个特定的策略做出决策。MDP的得名来自于俄国数学家安德雷·马尔可夫(Андрей Андреевич Марков),以纪念其为马尔可夫链所做的研究。
马尔科夫决策过程是智能体和环境的交互,智能体在环境中进行学习根据环境得到的状态或者观测,按照某个策略执行某个特定的动作。环境根据智能体的动作给予智能体相应的奖励。一个轨迹上的所有奖励的总和就是回报。
如果我们观测的是局部状态,即在部分可观测的环境下,我们称之为部分可观测马尔科夫决策过程(partially observable Markov decision process, POMDP)。
上一节内容,我们有讲到这些概念,如果大家有遗漏,可以看上一节内容实时巩固。
3、马尔科夫性质
前面我们有说马尔科夫决策过程是具有马尔科夫性质的决策过程,现在我们来讲一下什么是马尔科夫性质。
马尔可夫性质(英语:Markov property)是概率论中的一个概念,是说:当一个随机过程在给定现在状态及所有过去状态情况下,其未来状态的条件概率分布仅依赖于当前状态;换句话说,在给定现在状态时,它与过去状态(即该过程的历史路径)是条件独立的,那么此随机过程即具有马尔可夫性质。
为了更好理解马尔科夫性质,我们用最重要的应用——马尔科夫链来理解。
4、马尔科夫链/过程
马尔可夫链(Markov Chain, MC)的提出来自俄国数学家安德雷·马尔可夫。他首次提出马尔科夫链并对其收敛性质做了相关研究。马尔科夫链、马尔科夫性质、马尔科夫决策过程等命名均是为了纪念这位数学家。
马尔可夫链(Markov Chain, MC)是概率论和数理统计中具有马尔可夫性质且存在于离散指数集(index set)和状态空间(state space)内的随机过程(stochastic process)。适用于连续指数集的马尔可夫链被称为马尔可夫过程(Markov process),但有时也被视为马尔可夫链的子集,即连续时间马尔可夫链(Continuous-Time MC, CTMC),与离散时间马尔可夫链(Discrete-Time MC, DTMC)相对应,因此马尔可夫链是一个较为宽泛的概念。
为了让大家更好理解,接下来我们讲一下马尔科夫的相关理论。
2
马尔科夫理论
为了便于大家理解,我们以马尔科夫链作为示例给大家讲解马尔科夫相关理论。
不考虑动作 | 考虑动作 | |
状态=观测 | MC | MDP |
状态>观测 | HMM | POMDP |
3
3、贝尔曼等式
4、马尔科夫奖励过程
1、马尔科夫决策过程
2、策略
因此,我们可以用期望来计算状态转移概率和奖励:
3、动作-价值函数:Q函数
长按二维码关注
标签:02,状态,马尔科夫,决策,马尔可夫,DRL,Markov,过程 From: https://blog.51cto.com/u_12001271/5997258