文章目录
概念介绍
例子:网格世界,机器人可以在网格中相邻两个块之间移动,找到比较好的路径,最后达到目标。如何定义好的,比如说就是要避免forbidden cells,消除没有意义的拐弯,不能试图超越边界等。
state(状态)
agent相对于环境的一个状态
grid-world例子当中state指的就是location
s1真正对应的状态可能是二维空间的一个坐标
- 状态空间(集合)
S = { s i } , i = 1 , 2 , … 9 S=\{s_i\},i=1,2,…9 S={si},i=1,2,…9
Action(动作)
a1~a5分别表示向上、右、下、左、原地不动,它会与状态有关,故
A
(
s
i
)
=
{
a
i
}
,
i
=
1
,
2
,
3
,
4
,
5
A(s_i)=\{a_i\},i=1,2,3,4,5
A(si)={ai},i=1,2,3,4,5
State transition(状态转移)
- agent从一个state移动到另一个state,定义agent和环境的交互行为
- 实际中不可以任意定义,但是游戏中可以定义,比如a1往上走被弹回来,到s4或者s7
1) Forbidden area:处于 s5状态,选择动作 a2,那么下一个状态会是什么?
Answer:第一种就是可以进去但是会受到惩罚;第二种就是进不去。所以第一种难,比如可以进去会得到惩罚,但是是进入target最近的路径,但这也有可能会因为扣分项创造更高的奖励。
2) 状态转移的tabular表现形式:
只能表示确定性情况,如果存在多种情况无法表达 3)状态转移的可能性(state transition probability)
比如说在s1状态,选择a2的动作,那么下一个状态就是s2
p ( s 2 ∣ s 1 , a 2 ) = 1 , p ( s i ∣ s 1 , a 2 ) = 0 ( 任给 i 不等于 2 ) p(s_2|s_1,a_2)=1,p(s_i|s_1,a_2)=0(任给i不等于2) p(s2∣s1,a2)=1,p(si∣s1,a2)=0(任给i不等于2)
Policy(策略)
告知Agent在一个状态会采取的行动
对每一个状态都要有它的策略,上图是确定性的,当然也有不确定的。
- 其中用条件概率来表示策略,使用符号π来表示任何一个state下,具体一个action的条件概率是多少。
- 同样也可以采用表格的表示方法
reward(奖励)
是一个数或者说是标量,agent采取动作之后的数
-
一般来说正数是鼓励行为发生的,如果正数是惩罚,那reward就要minimize
-
表示我们与机器交互的一种手段,引导Agent实现合适的策略。用表格或者条件概率的方法,比如:
P ( r = − 1 ∣ s 1 , a 1 ) P(r=-1|s_1,a_1) P(r=−1∣s1,a1)
1)奖励的分布是随机的
2)如果努力学习,会获得奖励但是奖励的多少不确定
3)奖励取决于当前状态和动作,而不是依赖下一状态(下一状态相同但是reward不一样的例子)
4) grid-world的例子:如果Agent想要冲破边界或者进入forbidden cells,那么奖励就是-1;如果达到目标块,奖励就是+1
Trajectory(轨迹) and return
- 是一个state-action-reward链
- return 是沿着这个轨迹所有的reward加起来
policy不同,trajectory也会不同,那么这两个哪个比较好?
- 直观上来说,第一个没有进入forbidden区域,算比较好
- 但是从数学的角度来说,第一个策略的return更大(在下一节中会用return评估这个策略是好还是坏)
Discounted return(折扣回报)
如果达到target之后,策略还在继续,那么return就会沿着无穷长的轨迹发散掉。
解决办法:实现无穷级数收敛,引入discount rate属于[0,1)
将discounted rate和return相结合就得到了discounted return
就变成了
d
i
s
c
o
u
n
t
e
d
−
r
e
t
u
r
n
=
0
+
γ
0
+
γ
2
0
+
γ
3
1
+
γ
4
1
+
γ
5
1
…
=
γ
3
(
1
+
γ
+
γ
2
…
)
=
γ
3
1
1
−
γ
discounted-return=0+\gamma0+\gamma^20+\gamma^31+\gamma^41+\gamma^51… =\gamma^3(1+\gamma+\gamma^2…)=\gamma^3{1\over1-\gamma}
discounted−return=0+γ0+γ20+γ31+γ41+γ51…=γ3(1+γ+γ2…)=γ31−γ1
这样做的好处:
1)无穷级数的收敛性,就变成了一个有限的值
2)平衡更远或者更近所得到的reward。gamma趋于0的话,discounted-reurn依赖于最开始得到的reward(即时奖励);gamma趋于1的话,discounted-return依赖于更远的reward(长期奖励)。(短视和近视)
Episode(回合)一般是有终止点的轨迹
-
有些任务是没有terminal states,这就意味着agent和环境的交互会永远持续,这样的任务就叫做continuing tasks
-
在grid-world中,到达目标区域之后是不动还是?
实际上有一种统一方法来描述episodic tasks和continuing tasks,把episodic tasks转化为continuing tasks
1)方法一:把这个target state当作是一个特殊的absorbing state。到达这个之后就会一直留在这,之后所有的reward都是0
2)方法二:把它认为是普通状态,也有策略,如果策略好就会一直留在那,收集正的reward
在这里我们使用的是第二个,把目标不会区别对待还是作为一般状态
Markov decision process(MDP)-一个对应三个单词的过程
要素
- 集合
- state:状态S的集合
- Action:the set of action A(s) is associated for the state s属于S
- Reward:R(s,a)
- 概率分布
- 状态转移的概率:就是在状态s,选择动作a,转换到状态s’的概率
p ( s ’ ∣ s , a ) p(s’|s,a) p(s’∣s,a) - 奖励概率:是在状态s,选择动作a,获得奖励r的概率
p ( r ∣ s , a ) p(r|s,a) p(r∣s,a)
- 策略-对应于马尔可夫决策过程中的决策:在状态s下,选择行动a的概率是
π ( a ∣ s ) \pi(a|s) π(a∣s) - 马尔可夫的性质:无记忆性
马尔可夫的过程
- 马尔科夫决策过程当有了一个确定的策略之后就变成马尔科夫过程