西湖大学赵世钰老师【强化学习的理论基础】02基本概念

标签：02 状态 return 赵世钰奖励 state reward 基本概念 gamma

文章目录

概念介绍

概念介绍

例子：网格世界，机器人可以在网格中相邻两个块之间移动，找到比较好的路径，最后达到目标。如何定义好的，比如说就是要避免forbidden cells，消除没有意义的拐弯，不能试图超越边界等。

state（状态）

agent相对于环境的一个状态
grid-world例子当中state指的就是location
在这里插入图片描述 s1真正对应的状态可能是二维空间的一个坐标

状态空间（集合）
S = { s i } , i = 1 , 2 , … 9 S=\{s_i\},i=1,2,…9 S={si},i=1,2,…9

Action（动作）

a1～a5分别表示向上、右、下、左、原地不动，它会与状态有关，故
A ( s i ) = { a i } , i = 1 , 2 , 3 , 4 , 5 A(s_i)=\{a_i\},i=1,2,3,4,5 A(si)={ai},i=1,2,3,4,5

State transition（状态转移）

agent从一个state移动到另一个state，定义agent和环境的交互行为
实际中不可以任意定义，但是游戏中可以定义，比如a1往上走被弹回来，到s4或者s7
1） Forbidden area：处于 s5状态，选择动作 a2，那么下一个状态会是什么?
Answer:第一种就是可以进去但是会受到惩罚；第二种就是进不去。所以第一种难，比如可以进去会得到惩罚，但是是进入target最近的路径，但这也有可能会因为扣分项创造更高的奖励。
2）状态转移的tabular表现形式：
只能表示确定性情况，如果存在多种情况无法表达 3）状态转移的可能性（state transition probability）
比如说在s1状态，选择a2的动作，那么下一个状态就是s2
p ( s 2 ∣ s 1 , a 2 ) = 1 , p ( s i ∣ s 1 , a 2 ) = 0 ( 任给 i 不等于 2 ） p(s_2|s_1,a_2)=1,p(s_i|s_1,a_2)=0(任给i不等于2） p(s2∣s1,a2)=1,p(si∣s1,a2)=0(任给i不等于2）

Policy（策略）

告知Agent在一个状态会采取的行动
在这里插入图片描述

对每一个状态都要有它的策略，上图是确定性的，当然也有不确定的。

其中用条件概率来表示策略，使用符号π来表示任何一个state下，具体一个action的条件概率是多少。
同样也可以采用表格的表示方法

reward（奖励）

是一个数或者说是标量，agent采取动作之后的数

一般来说正数是鼓励行为发生的，如果正数是惩罚，那reward就要minimize
表示我们与机器交互的一种手段，引导Agent实现合适的策略。用表格或者条件概率的方法，比如：

P ( r = − 1 ∣ s 1 , a 1 ) P(r=-1|s_1,a_1) P(r=−1∣s1,a1)

1）奖励的分布是随机的
2）如果努力学习，会获得奖励但是奖励的多少不确定
3）奖励取决于当前状态和动作，而不是依赖下一状态（下一状态相同但是reward不一样的例子）
4） grid-world的例子：如果Agent想要冲破边界或者进入forbidden cells，那么奖励就是-1；如果达到目标块，奖励就是+1

Trajectory（轨迹） and return

是一个state-action-reward链
return 是沿着这个轨迹所有的reward加起来

policy不同，trajectory也会不同，那么这两个哪个比较好？

直观上来说，第一个没有进入forbidden区域，算比较好
但是从数学的角度来说，第一个策略的return更大（在下一节中会用return评估这个策略是好还是坏）

Discounted return（折扣回报）

在这里插入图片描述
如果达到target之后，策略还在继续，那么return就会沿着无穷长的轨迹发散掉。
解决办法：实现无穷级数收敛，引入discount rate属于[0,1)
将discounted rate和return相结合就得到了discounted return
就变成了
d i s c o u n t e d − r e t u r n = 0 + γ 0 + γ 2 0 + γ 3 1 + γ 4 1 + γ 5 1 … = γ 3 ( 1 + γ + γ 2 … ） = γ 3 1 1 − γ discounted-return=0+\gamma0+\gamma^20+\gamma^31+\gamma^41+\gamma^51… =\gamma^3(1+\gamma+\gamma^2…）=\gamma^3{1\over1-\gamma} discounted−return=0+γ0+γ20+γ31+γ41+γ51…=γ3(1+γ+γ2…）=γ31−γ1
这样做的好处：
1）无穷级数的收敛性，就变成了一个有限的值
2）平衡更远或者更近所得到的reward。gamma趋于0的话，discounted-reurn依赖于最开始得到的reward(即时奖励）；gamma趋于1的话，discounted-return依赖于更远的reward（长期奖励）。（短视和近视）

Episode（回合）一般是有终止点的轨迹

在这里插入图片描述

有些任务是没有terminal states，这就意味着agent和环境的交互会永远持续，这样的任务就叫做continuing tasks
在grid-world中，到达目标区域之后是不动还是？
实际上有一种统一方法来描述episodic tasks和continuing tasks，把episodic tasks转化为continuing tasks
1）方法一：把这个target state当作是一个特殊的absorbing state。到达这个之后就会一直留在这，之后所有的reward都是0
2）方法二：把它认为是普通状态，也有策略，如果策略好就会一直留在那，收集正的reward
在这里我们使用的是第二个，把目标不会区别对待还是作为一般状态

Markov decision process（MDP）-一个对应三个单词的过程

要素

集合

state：状态S的集合
Action：the set of action A(s) is associated for the state s属于S
Reward：R（s，a）

概率分布

状态转移的概率:就是在状态s，选择动作a，转换到状态s’的概率
p ( s ’ ∣ s , a ) p(s’|s,a) p(s’∣s,a)
奖励概率：是在状态s，选择动作a，获得奖励r的概率
p ( r ∣ s , a ) p(r|s,a) p(r∣s,a)

策略-对应于马尔可夫决策过程中的决策:在状态s下，选择行动a的概率是
π ( a ∣ s ) \pi(a|s) π(a∣s)
马尔可夫的性质：无记忆性

马尔可夫的过程