首页 > 其他分享 >基本概念

基本概念

时间:2023-06-10 11:12:06浏览次数:45  
标签:return process text quad Markov 基本概念 gamma

基本概念

State

\[s_i\quad, \quad S = \{s_i\} \]

  • 表示状态和状态空间(集合)

Action

\[a_i \quad , \quad A = \{a_i\} \]

  • 表示动作和动作空间(集合)
  • 可用Tabular representation表示

Policy

\[\pi \quad , \quad \pi (a_i | s_j) = c_{k} \]

  • 用概率形式表示动作可能的结果
  • 针对一个状态的概率之和为1
  • 可用Tabular representation表示

Deterministic policy (确定性情况)

对于一个状态S_j,一个动作a_i对他的概率为1,其余动作对该状态的概率均为0

Stochastic policy(不确定性情况)

不存在某一个动作对一个状态的概率为1

Reward

  • positive reward -> encouragement
  • negative reward -> punishment

\[p(r=-1|s_1, a_1) = 1 \quad \& \quad p(r \neq -1 | s_1,a_1) = 0 \]

Discount rate

\[\gamma \in [0,1) \]

Discounted return

\[\begin{align} \text{discounted return} &= p_1 + \gamma p_2 + \gamma ^2 p_3 + \gamma ^3 p_4 + \gamma ^4 p_5 + \gamma ^5 p_6 + \dots \\ \text{In the case: }& p_1 =0 , p_2=0 , p_3=0 , p_4=1 , p_5=1 , p_6=1 \\ \text{discounted return} &= \gamma ^3 (1+ \gamma + \gamma ^2 + \dots) \\ &=\gamma ^3 \frac{1}{1-\gamma}. \end{align} \]

Roles:

  1. the sum becomes finite;

  2. balance the far and near future rewards:

    • \[\text{If } \gamma \text{ is close to 0, the value of the discounted return is dominated by the rewards obtained in the near future.} \]

    • \[\text{If } \gamma \text{ is close to 1, the value of the discounted return is dominated by the rewards obtained in the far future.} \]

Markov decision process (MDP)

Markov property: memoryless property (不具有记忆性:与历史无关)

\[p(s_{t+1}|a_{t+1},s_t, \dots ,a_1,s_0) = p(s_{t+1}|a_{t+1},s_t), \\ p(r_{t+1}|a_{t+1},s_t, \dots ,a_1,s_0) = p(r_{t+1}|a_{t+1},s_t). \]

  • Markov process 是带有概率的动作
  • 被赋予了 policy 的 Markov process 是 Markov decision process

标签:return,process,text,quad,Markov,基本概念,gamma
From: https://www.cnblogs.com/POLAYOR/p/17470924.html

相关文章

  • 面向对象的基本概念
    面向过程:事物比较简单,可以用线性的思维去解决。具体到微观操作,仍然使用面向过程方式来处理。以分步骤的方式解决问题,顺序执行,逐步求精,用'方法'组织代码。面向对象:解决复杂问题,便于我们从宏观上把握事物之间复杂的关系、方便我们分析整个系统。以'分类'的方式解决问题,......
  • Java基本概念介绍
    Java基本概念介绍Java是一种面向对象的编程语言,由JamesGosling等人在1995年开发而成。Java是跨平台的,这意味着可以在不同的操作系统上运行相同的程序。Java具有许多优点,包括安全性、可移植性、高效性和可扩展性。Java的基本结构Java程序在类中编写。每个Java程序至少需要一个类,并......
  • 计算机组成原理---计算机基本概念
    第二章的题型......
  • 消息队列RocketMQ基本概念
     1消息模型(MessageModel)RocketMQ主要由Producer、Broker、Consumer三部分组成,其中Producer负责生产消息,Consumer负责消费消息,Broker负责存储消息。Broker在实际部署过程中对应一台服务器,每个Broker可以存储多个Topic的消息,每个Topic的消息也可以分片存储于不......
  • 机器学习的基本概念和应用领域
    机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能核心,是使计算机具有智能的根本途径。机器学习的应用......
  • @Transactional基本概念和失效情况
    一、事务......
  • PID学习(一):基本概念+例子理解
    一、定义在过程控制中,按偏差的比例(P)、积分(I)和微分(D)进行控制的PID控制器(亦称[PID调节器],是应用最为广泛的一种自动控制器。PID即:Proportional(比例)、Integral(积分)、Differential(微分)的缩写二、各部分详解总述: image.png1.比例系数P在y=k·x中的,k是比例系数p。......
  • SD协议-基本概念
    1.SD协议版本SD1.1SD2.0SD3.0在看协议的时候,需要注意协议的版本,注意版本之间的差别SD协议是常见的数据通信和存储卡之间的协议HDMI是显示相关的协议,遵循HDMI协议USB遵循USB协议,USB3.0协议的复杂度高于USB2.0主要学习的是协议的分析方法2.systemfeatureSD存储......
  • nebula入门学习——day1 nebula基本概念、原理和架构
    什么是NebulaGraph¶NebulaGraph是一款开源的、分布式的、易扩展的原生图数据库,能够承载包含数千亿个点和数万亿条边的超大规模数据集,并且提供毫秒级查询。什么是图数据库¶图数据库是专门存储庞大的图形网络并从中检索信息的数据库。它可以将图中的数据高效存储为点(Vertex)和......
  • 基本概念笔记
    project:对资源进行分组和隔离。service:nova、cinder、glance......endpoint:url,service通过endpoint暴露api,user通过endpoint访问、操作资源role:通过定义role,赋予不同的权限,实现访问控制。openstack默认配置只区分admin和非adminrole。每个对象都有id,delete、show等操作......