首页 > 其他分享 >DRL | 02 由浅入深马尔科夫决策过程

DRL | 02 由浅入深马尔科夫决策过程

时间:2023-01-09 15:43:24浏览次数:66  
标签:02 状态 马尔科夫 决策 马尔可夫 DRL Markov 过程



导读


深度强化学习是近几年比较热门的技术,也是被很多大牛看做是实现真正的人工智能的最理想的工具。


今天这篇文章,我们一起来了解一下马尔科夫决策过程,从马尔科夫链开始由浅入深学习马尔科夫决策过程的定义、性质及其他相关理论


注:马尔科夫和马尔可夫,都只是音译,不影响我们知识的学习,我们在本教程中统一使用马尔科夫。


接下来让我们一起走进今天的文章吧!




1、引入


DRL | 02 由浅入深马尔科夫决策过程_马尔科夫链


DRL | 02 由浅入深马尔科夫决策过程_强化学习_02


DRL | 02 由浅入深马尔科夫决策过程_马尔科夫链_03




2、马尔科夫决策过程


马尔可夫决策过程(Markov Decision Process, MDP)是具有马尔科夫性质随机过程 (简单理解:随机过程就是一组随机变量,每个随机变量随着参数的改变而变为下一个随机变量,改变是随机的,这个改变的过程就是随机的过程),并根据某个特定的策略做出决策。MDP的得名来自于俄国数学家安德雷·马尔可夫(Андрей Андреевич Марков),以纪念其为马尔可夫链所做的研究。


马尔科夫决策过程是智能体环境的交互,智能体在环境中进行学习根据环境得到的状态或者观测,按照某个策略执行某个特定的动作。环境根据智能体的动作给予智能体相应的奖励。一个轨迹上的所有奖励的总和就是回报


如果我们观测的是局部状态,即在部分可观测的环境下,我们称之为部分可观测马尔科夫决策过程(partially observable Markov decision process, POMDP)。


上一节内容,我们有讲到这些概念,如果大家有遗漏,可以看上一节内容实时巩固。



DRL | 02 由浅入深马尔科夫决策过程_决策过程_04

​DRL | 01 深入强化学习及基本概念详述​


3、马尔科夫性质


前面我们有说马尔科夫决策过程是具有马尔科夫性质的决策过程,现在我们来讲一下什么是马尔科夫性质。


马尔可夫性质(英语:Markov property)是概率论中的一个概念,是说:当一个随机过程在给定现在状态及所有过去状态情况下,其未来状态的条件概率分布仅依赖于当前状态;换句话说,在给定现在状态时,它与过去状态(即该过程的历史路径)是条件独立的,那么此随机过程即具有马尔可夫性质。


为了更好理解马尔科夫性质,我们用最重要的应用——马尔科夫链来理解。


4、马尔科夫链/过程


马尔可夫链(Markov Chain, MC)的提出来自俄国数学家安德雷·马尔可夫。他首次提出马尔科夫链并对其收敛性质做了相关研究。马尔科夫链、马尔科夫性质、马尔科夫决策过程等命名均是为了纪念这位数学家。


马尔可夫链(Markov Chain, MC)是概率论和数理统计中具有马尔可夫性质且存在于离散指数集(index set)和状态空间(state space)内的随机过程(stochastic process)。适用于连续指数集的马尔可夫链被称为马尔可夫过程(Markov process),但有时也被视为马尔可夫链的子集,即连续时间马尔可夫链(Continuous-Time MC, CTMC),与离散时间马尔可夫链(Discrete-Time MC, DTMC)相对应,因此马尔可夫链是一个较为宽泛的概念。


为了让大家更好理解,接下来我们讲一下马尔科夫的相关理论。


2

马尔科夫理论



为了便于大家理解,我们以马尔科夫链作为示例给大家讲解马尔科夫相关理论。


DRL | 02 由浅入深马尔科夫决策过程_强化学习_05


不考虑动作

考虑动作

状态=观测

MC

MDP

状态>观测

HMM

POMDP

DRL | 02 由浅入深马尔科夫决策过程_决策过程_06

3

DRL | 02 由浅入深马尔科夫决策过程_强化学习_07


3、贝尔曼等式


DRL | 02 由浅入深马尔科夫决策过程_马尔科夫链_08

4、马尔科夫奖励过程

DRL | 02 由浅入深马尔科夫决策过程_强化学习_09



1、马尔科夫决策过程


DRL | 02 由浅入深马尔科夫决策过程_强化学习_10


2、策略


DRL | 02 由浅入深马尔科夫决策过程_决策过程_11



DRL | 02 由浅入深马尔科夫决策过程_决策过程_04

​DRL | 01 深入强化学习及基本概念详述​


因此,我们可以用期望来计算状态转移概率和奖励:



3、动作-价值函数:Q函数


DRL | 02 由浅入深马尔科夫决策过程_马尔科夫链_13

DRL | 02 由浅入深马尔科夫决策过程_马尔科夫链_14

DRL | 02 由浅入深马尔科夫决策过程_决策过程_15

长按二维码关注

标签:02,状态,马尔科夫,决策,马尔可夫,DRL,Markov,过程
From: https://blog.51cto.com/u_12001271/5997258

相关文章