基本概念

State

\[s_i\quad, \quad S = \{s_i\} \]

表示状态和状态空间（集合）

Action

\[a_i \quad , \quad A = \{a_i\} \]

表示动作和动作空间（集合）
可用Tabular representation表示

Policy

\[\pi \quad , \quad \pi (a_i | s_j) = c_{k} \]

用概率形式表示动作可能的结果
针对一个状态的概率之和为1
可用Tabular representation表示

Deterministic policy （确定性情况）

对于一个状态S_j，一个动作a_i对他的概率为1，其余动作对该状态的概率均为0

Stochastic policy（不确定性情况）

不存在某一个动作对一个状态的概率为1

Reward

positive reward -> encouragement
negative reward -> punishment

\[p(r=-1|s_1, a_1) = 1 \quad \& \quad p(r \neq -1 | s_1,a_1) = 0 \]

Discount rate

\[\gamma \in [0,1) \]

Discounted return

\[\begin{align} \text{discounted return} &= p_1 + \gamma p_2 + \gamma ^2 p_3 + \gamma ^3 p_4 + \gamma ^4 p_5 + \gamma ^5 p_6 + \dots \\ \text{In the case: }& p_1 =0 , p_2=0 , p_3=0 , p_4=1 , p_5=1 , p_6=1 \\ \text{discounted return} &= \gamma ^3 (1+ \gamma + \gamma ^2 + \dots) \\ &=\gamma ^3 \frac{1}{1-\gamma}. \end{align} \]

Roles:

the sum becomes finite;
balance the far and near future rewards:
- \[\text{If } \gamma \text{ is close to 0, the value of the discounted return is dominated by the rewards obtained in the near future.} \]
- \[\text{If } \gamma \text{ is close to 1, the value of the discounted return is dominated by the rewards obtained in the far future.} \]

Markov decision process (MDP)

Markov property: memoryless property （不具有记忆性：与历史无关）

\[p(s_{t+1}|a_{t+1},s_t, \dots ,a_1,s_0) = p(s_{t+1}|a_{t+1},s_t), \\ p(r_{t+1}|a_{t+1},s_t, \dots ,a_1,s_0) = p(r_{t+1}|a_{t+1},s_t). \]

Markov process 是带有概率的动作
被赋予了 policy 的 Markov process 是 Markov decision process

标签：return,process,text,quad,Markov,基本概念,gamma
From： https://www.cnblogs.com/POLAYOR/p/17470924.html

面向对象的基本概念
面向过程：事物比较简单，可以用线性的思维去解决。具体到微观操作，仍然使用面向过程方式来处理。以分步骤的方式解决问题，顺序执行，逐步求精，用'方法'组织代码。面向对象：解决复杂问题，便于我们从宏观上把握事物之间复杂的关系、方便我们分析整个系统。以'分类'的方式解决问题，......
Java基本概念介绍
Java基本概念介绍Java是一种面向对象的编程语言，由JamesGosling等人在1995年开发而成。Java是跨平台的，这意味着可以在不同的操作系统上运行相同的程序。Java具有许多优点，包括安全性、可移植性、高效性和可扩展性。Java的基本结构Java程序在类中编写。每个Java程序至少需要一个类，并......
计算机组成原理---计算机基本概念
第二章的题型......
消息队列RocketMQ基本概念
1消息模型（MessageModel）RocketMQ主要由Producer、Broker、Consumer三部分组成，其中Producer负责生产消息，Consumer负责消费消息，Broker负责存储消息。Broker在实际部署过程中对应一台服务器，每个Broker可以存储多个Topic的消息，每个Topic的消息也可以分片存储于不......
机器学习的基本概念和应用领域
机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。它是人工智能核心，是使计算机具有智能的根本途径。机器学习的应用......
@Transactional基本概念和失效情况
一、事务......
PID学习（一）：基本概念+例子理解
一、定义在过程控制中，按偏差的比例（P）、积分（I）和微分（D）进行控制的PID控制器（亦称[PID调节器]，是应用最为广泛的一种自动控制器。PID即：Proportional（比例）、Integral（积分）、Differential（微分）的缩写二、各部分详解总述： image.png1.比例系数P在y=k·x中的，k是比例系数p。......
SD协议-基本概念
1.SD协议版本SD1.1SD2.0SD3.0在看协议的时候,需要注意协议的版本,注意版本之间的差别SD协议是常见的数据通信和存储卡之间的协议HDMI是显示相关的协议,遵循HDMI协议USB遵循USB协议,USB3.0协议的复杂度高于USB2.0主要学习的是协议的分析方法2.systemfeatureSD存储......
nebula入门学习——day1 nebula基本概念、原理和架构
什么是NebulaGraph¶NebulaGraph是一款开源的、分布式的、易扩展的原生图数据库，能够承载包含数千亿个点和数万亿条边的超大规模数据集，并且提供毫秒级查询。什么是图数据库¶图数据库是专门存储庞大的图形网络并从中检索信息的数据库。它可以将图中的数据高效存储为点（Vertex）和......
基本概念笔记
project：对资源进行分组和隔离。service：nova、cinder、glance......endpoint：url，service通过endpoint暴露api，user通过endpoint访问、操作资源role：通过定义role，赋予不同的权限，实现访问控制。openstack默认配置只区分admin和非adminrole。每个对象都有id，delete、show等操作......

基本概念

基本概念

State

Action

Policy

Deterministic policy （确定性情况）

Stochastic policy（不确定性情况）

Reward

Discount rate

Discounted return

Markov decision process (MDP)

相关文章

赞助商

阅读排行