AlphaZero

2024-10-10小马智行楼天成关于AI的观点大幅刷新我的认知
最近看了小马智行楼天成的访谈文章，非常推荐大家去看。其中他提到的几个核心观点，是大幅刷新我的AI认知的，分享给大家。楼的核心观点是 1）当前通过收集优质数据，数据驱动AI训练产出的端到端模型，只能做出L2.99999的智能驾驶。
2023-05-27POLICY IMPROVEMENT BY PLANNING WITH GUMBEL
发表时间：2022（ICLR2022）文章要点：AlphaZero在搜索次数很少的时候甚至动作空间都不能完全被访问到，这个时候AlphaZero的效果是不好的。文章提出了GumbelAlphaZero算法，利用policyimprovement的思想不重复的采样动作，来替代原始的MCTS的搜索方式，在模拟次数很少的情况下提高了性能。改
2023-04-16Value targets in off-policy AlphaZero: a new greedy backup
发表时间：2021文章要点：这篇文章给AlphaZero设计了一个新的valuetargets，AlphaZerowithgreedybackups(A0GB)。AlphaZero的树里面有探索，而value又是所有结果的平均，所以并不准确。而选动作也是依概率选的，但真正测试的时候是选的访问次数最多的动作，所以这个方法是off-policy，也会
2023-02-25Monte-Carlo tree search as regularized policy optimization
发表时间：2020（ICML2020）文章要点：这篇文章把MCTS和policyoptimization结合起来，说AlphaZero这类算法其实可以看作是带正则项的policyoptimization（AlphaZero'ssearchheur
2022-12-13Leela Chess Zero
LeelaChessZero-ChessprogrammingwikiLeelaChessZeroisinitiatedandannouncedbyStockfishco-authorGaryLinscott.LeelaChessisopensource.Thegoal
2022-12-11自己制作适合6寸阅读器的棋书
网上有许多棋谱，例如棋谱-象棋巫师棋谱仓库(xqbase.com) 。在象棋资源-象棋百科全书(xqbase.com) 下载象棋巫师，选项—微博选项，图片类型选印刷，魔法—生成图片棋
2022-11-08使用PyTorch实现简单的AlphaZero的算法（1）：背景和介绍
在本文中，我们将在PyTorch中为ChainReaction[2]游戏从头开始实现DeepMind的AlphaZero[1]。为了使AlphaZero的学习过程更有效，我们还将使用一个相对较新的改进，称为“Playout