发表时间:2020(ICML 2020)
文章要点:这篇文章把MCTS和policy optimization结合起来,说AlphaZero这类算法其实可以看作是带正则项的policy optimization(AlphaZero's search heuristics, along with other common ones such as UCT, are an approximation to the solution of a specific regularized policy optimization problem.)。然后以policy optimization的角度提出了一种AlphaZero的变种,在simulation次数较少的情况下取得比AlphaZero更好的效果。
首先,在AlphaZero中,有个神经网络表示的policy \(\pi_\theta\),然后MCTS会得到一个由visit counts生成的概率分布\(\hat{\pi}\),然后更新的目的就是让网络接近\(\hat{\pi}\)
然后这个网络又会继续用到MCTS里面,继续提升。这个过程就相当于一个generalized policy improvement。然后在AlphaZero的MCTS里面,动作的选择为
而在policy optimization里面,策略表示为
这里第一项其实就是最大化Q value,后面一项就是一个正则项。接下来就是要把MCTS和这个policy optimization联系起来。首先把\(\hat{\pi}\)写出来
这里多加了一个动作空间的常数,不过不影响。然后定义一个乘子
就可以把式子(1)写成
拆开其实是一样的
写成向量形式可以表示为
接下来定义另一个策略\(\bar{\pi}\)作为regularized policy optimization的解
求解有
并且说\(\hat{\pi}\)其实是\(\bar{\pi}\)的近似。这里中间还有好几个proposition就不贴出来了,作者最后证到的就是在无穷范数下,这两策略的误差以O(1/N)的速度减小
然后作者提出的改进就是把基于visit count的policy \(\hat{\pi}\)换成从policy optimization求解出来的\(\bar{\pi}\),具体可以换三个地方,一个是和环境交互的时候,二个是在做搜索的时候,三个是在拟合policy网络的时候。然后基于muzero做了验证。
总结:很喜欢这篇文章啊,虽然最后做的实验其实不做也能想得到,但是能把MCTS和policy optimization联系到一起,找出其中的共同点,这是真的牛皮啊。
疑问:式子(8)那里\(\bar{\pi}\)是怎么求出来的没看。
几个proposition和附录的证明都没看。