二者都是基于Qtable的算法,其中Qlearning属于off-policy,Sarsa属于on-policy。
算法伪代码:
二者主要区别是更新Qtable的方式不同:
标签:Qtable,区别,Sarsa,Learning,policy,2.20 From: https://www.cnblogs.com/flying23/p/17136283.html
二者都是基于Qtable的算法,其中Qlearning属于off-policy,Sarsa属于on-policy。
算法伪代码:
二者主要区别是更新Qtable的方式不同:
标签:Qtable,区别,Sarsa,Learning,policy,2.20 From: https://www.cnblogs.com/flying23/p/17136283.html