• 2023-05-27POLICY IMPROVEMENT BY PLANNING WITH GUMBEL
    发表时间:2022(ICLR2022)文章要点:AlphaZero在搜索次数很少的时候甚至动作空间都不能完全被访问到,这个时候AlphaZero的效果是不好的。文章提出了GumbelAlphaZero算法,利用policyimprovement的思想不重复的采样动作,来替代原始的MCTS的搜索方式,在模拟次数很少的情况下提高了性能。改
  • 2023-04-16Value targets in off-policy AlphaZero: a new greedy backup
    发表时间:2021文章要点:这篇文章给AlphaZero设计了一个新的valuetargets,AlphaZerowithgreedybackups(A0GB)。AlphaZero的树里面有探索,而value又是所有结果的平均,所以并不准确。而选动作也是依概率选的,但真正测试的时候是选的访问次数最多的动作,所以这个方法是off-policy,也会
  • 2023-02-25Monte-Carlo tree search as regularized policy optimization
    发表时间:2020(ICML2020)文章要点:这篇文章把MCTS和policyoptimization结合起来,说AlphaZero这类算法其实可以看作是带正则项的policyoptimization(AlphaZero'ssearchheur
  • 2022-12-13Leela Chess Zero
    LeelaChessZero-ChessprogrammingwikiLeelaChessZeroisinitiatedandannouncedbyStockfishco-authorGaryLinscott.LeelaChessisopensource.Thegoal
  • 2022-12-11自己制作适合6寸阅读器的棋书
    网上有许多棋谱,例如 棋谱-象棋巫师棋谱仓库(xqbase.com) 。在 象棋资源-象棋百科全书(xqbase.com) 下载象棋巫师,选项—微博选项,图片类型选印刷,魔法—生成图片棋
  • 2022-11-08使用PyTorch实现简单的AlphaZero的算法(1):背景和介绍
    在本文中,我们将在PyTorch中为ChainReaction[2]游戏从头开始实现DeepMind的AlphaZero[1]。为了使AlphaZero的学习过程更有效,我们还将使用一个相对较新的改进,称为“Playout