state:状态;Action:动作;Agent:主体;
在状态s下主体可以选择自己的动作a。
policy函数π:给出在状态s下作出动作a的概率,策略作出的动作是随机的。
状态转移:在旧状态s1下作出动作a转移到新状态。
转态转移也是随机的,随机性依环境而变。
在状态s下作出动作a转移到s‘的概率。
主体与环境的交互图:主体在状态s下作出动作a,环境依据主体的状态s和动作a决定状态转移即决定下一个状态s‘,并给出主体奖励。
在深度强化学习中有俩个随机抽样的应用,一个是动作具有随机性,一个是转态转移具有随机性。
主体在AI的辅助下计算当前状态作出的动作的概率,然后随机抽样决定动作,作出动作得到新的状态以及奖励,重复这个步骤得到轨迹(state,action,reward)。
Ut定义为t时刻及t以后直到游戏结束时得到的奖励。考虑到当前的奖励和以后的奖励并不等价(例如现在就给你100块和一年后给你100块,肯定是现在的价值要高一点),于是定义出折扣奖励,使越远的奖励价值越低。
由于当前的奖励取决于当前的状态和做出的动作,且,则Ut则与有关。
动作价值函数表明在当前状态s下作出动作a的ut期望,意义为在状态s下做动作a的价值。由于动作价值函数与policy函数π有关,故我们可以求最大化的动作价值函数求得最好的policy函数。
状态价值函数把动作a积掉,故与动作a无关,能用来评估状态s的好坏。
用状态价值函数的平均值来评估policy函数π的好坏。
有俩种方法控制ai玩游戏,一种是有优秀的policy函数,执行函数随机生成的动作;另一种是执行使动作价值函数最大化的动作。
标签:状态,函数,动作,作出,奖励,深度,policy,强化,基本概念 From: https://www.cnblogs.com/huzixin666/p/17408523.html