发表时间:2021
文章要点:这篇文章主要想看看muzero里面的model具体学到了什么表征。通过PCA降维的方式,发现最开始编码状态的h函数学到的embedding和动态转移函数g学到的embedding并不统一,存在很大差异。因为muzero里面没有相关的loss来控制他俩一样。
然后作者就提出两种loss来约束这两的距离。第一种方式添加一个contrastive regularization,让dynamics g学到的表征接近h学到的embedding
注意,这里只有g有梯度,h是没有梯度更新的(only the dynamics function should move towards the embeddings)。
第二种方式是添加一个decoding regularization,再训练一个decoder将h反映射回原来的状态,让映射回去的状态和真实状态接近
最后performance看起来没有太大提升,主要就是加正则项让表征一致。
总结:感觉挺好的题目的,但是又感觉内容不够丰富,结论也不能说明什么问题。感觉Thomas M. Moerland这个人做了很多MCTS相关的工作,出发点都挺有意思的,但是总感觉做的实验啥的不太够支撑idea。
疑问:无。