AlphaGo Zero论文阅读笔记

原论文：《Mastering the game of Go without human knowledge》

简述：

论文提出了一种新的围棋人工智能算法AlphaGo Zero，该算法可以在完全无监督的情况下进行训练，并且超越了之前的AlphaGo Fan和AlphaGo Lee的表现。

该算法具有如下特点：

在无监督的情况下，使用自博弈的强化学习进行训练。从随机的行动逐渐具有一定的策略。
仅仅使用局面上的黑白棋落子情况作为输入，没有额外设计的输入特征
使用单一的神经网络，而不是（类似上一代AlphaGo）划分为策略网络和价值网络
使用基于这一单一神经网络的评估结果的树搜索算法，不使用蒙特卡洛树搜索的rollouts来评估结果

神经网络设计

使用单一的深度神经网络\(f\)，该网络具有两个输出\((\mathrm{p},v) = f_\theta(s)\)，其中\(s\)为棋盘局面输入，向量\(\mathrm{p}\)表示每一个可行移动的概率，值\(v\)为一个评估标量，表示在当前局面\(s\)下，当前操作的棋手获胜的可能性

神经网络包含多个卷积层的残差块，并使用了批归一化和非线性整流函数

强化学习策略

AlphaGo Zero使用基于自博弈的强化学习。在每个局面下，将执行一次基于神经网络\(f_\theta\)的MCTS搜索，每次搜索结束后，MCTS将给出一个概率向量\(\pi\)表示每一步行动的概率。通过MCTS得到的该概率相比于直接使用神经网络得到的概率\(\mathrm{p}\)是一个更强的行动，因此MCTS可以被视为一个强大的策略改进（policy improvement）操作。同理，MCTS得到的胜者\(z\)相比于神经网络结果\(v\)同样是一个策略改进操作。因此，训练神经网络的结果\((\mathrm{p},v) = f_\theta(s)\)匹配结果\((\pi,z)\)，然后用新的参数继续进行MCTS搜索并不断迭代。

MCTS（Monte-Carlo Tree Search）策略

蒙特卡洛树搜索使用神经网络\(f_\theta\)来引导模拟。在局面\(s\)下，对于每一个可行的操作边\((s,a)\)，保存了先验概率\(P(s,a)\)，访问数\(N(s,a)\)以及行为价值\(Q(s,a)\)，每次搜索时，从当前根状态出发，每次选择最大的\(Q(s,a) + U(s,a)\)，其中\(U(s,a) \propto P(s,a)/(1 + N(s,a))\)，直到到达一个叶子节点\(s'\)，在该叶子节点处，将进行拓展并使用神经网络进行单次的评估，产生先验概率和评估值\((P(s',),V(s'))=f_{\theta}(s')\)，在这过程中，每一条边 \((s,a)\)将会被更新访问数\(N(s,a)\)的值，同时，行为价值也会被更新为子节点的平均值，即\(Q(s,a) = 1 / N(s,a)\sum_{s'|s,a\rightarrow{s'}}V(s')\)，其中\(s,a\rightarrow s'\)代表状态\(s\)经过操作\(a\)后达到状态\(s'\)

参考资料

AlphaZero实战：从零学下五子棋（附代码） - 知乎 (zhihu.com)

AlphaGo Zero论文解析 | 蘑菇先生学习记 (xtf615.com)

如何学习蒙特卡罗树搜索（MCTS） - 知乎 (zhihu.com)

标签：knowledge,神经网络,Zero,AlphaGo,game,搜索,theta,MCTS
From： https://www.cnblogs.com/iceyz/p/18381019

SP10502 VIDEO - Video game combos 题解
题目传送门前置知识AC自动机解法多模式串匹配考虑AC自动机。令\(f_{i,j}\)表示前\(i\)个字符，当前运行到AC自动机的状态\(j\)时的最大得分。状态转移方程为\(f_{i,k}=\max\limits_{k\inSon(j)}\{f_{i-1,j}+sum_{k}\}\)，其中\(sum_{k}\)表示fail树上以\(k......
gameobject_template | gameobject_template_addon
目录gameobject_templateentrytypedisplayIdIconNameContentTuningIdAINamegameobject_template_addon factionflagsgameobject_templateentry gameobject模板的IDtype gameobject模板类型，取值参考源码GameObjectData.h的structGameObjectTemplat......
Twenty Lectures on Algorithmic Game Theory 算法博弈论二十讲 Lecture 5 Revenue-Ma
TwentyLecturesonAlgorithmicGameTheory算法博弈论二十讲Lecture5Revenue-MaximizingAuctions（上）Lecture5Revenue-MaximizingAuctions第2至第4讲聚焦于设计能够最大化社会福利的机制，无论是精确还是近似。这类机制的收益产生仅仅是副作用，是激励代理人如实......
pygame各类形状
代码:#coding=utf-8importos,sys,re,time,mathimportpygameimportrandomfromwin32apiimportGetSystemMetricsfrommathimportpipygame.init()pygame.display.set_caption("各种形状测试")percent=0.6screen_width=GetSystemMetrics(0)screen_hei......
DEFINITION OF THE SPORT ：GENERAL KNOWLEDGE
DEFINITIONOFTHESPORTOVERVIEWCanyoninginNewZealandCanyoningisanadventuresportpracticedwithinaveryspecificenvironment,namely,canyons!Typicallywhencanyoneerssay“canyon”,theymeananarrowgorgeorravine,ratherthansometh......
pygame物体碰撞
代码：#coding=utf-8importos,sys,re,timeimportpygameimportrandomimportmathfromwin32apiimportGetSystemMetricsfromtkinterimportmessageboxpygame.init()pygame.display.set_caption("我的游戏")percent=0.6screen_width=GetSystemMetri......
使用 Pygame 创建简单的移动方块游戏
Pygame是一个用于开发图形和多媒体应用的优秀Python库。下面，我们将逐步解释如何创建一个简单的游戏，其中一个蓝色方块可以在屏幕上移动。安装Pygame首先，确保你已经安装了Pygame。可以通过以下命令安装：pipinstallpygame 游戏结构1.初始化Pygame开始时，需......
[AtCoder - tdpc_game] ：ゲーム题解
[AtCoder-tdpc_game]：ゲーム题解一道小清新\(dp\)题。定义\(dp_{i,j}\)为第一堆山还有\(i\)个物品，第二堆山还有\(j\)个物品，すぬけ君能取得物品的最大价值。由于只能取两座山最上面的物品，假设当前两座山分别有\({x,y}\)个物品，すぬけ君选后只能有两种情况，分别为\(d......
《黑神话：悟空》Wegame版提示缺少DirectX工具怎么解决？黑神话悟空游戏启动时弹窗“缺少D
在《黑神话：悟空》的Wegame版本中，一些玩家会遇到提示缺少DirectX工具的情况。别担心，修复方法并不复杂。首先检查系统是否已安装最新版本的DirectX，若没有，可从官方渠道下载并安装，一般能有效解决此问题。本篇将为大家带来《黑神话：悟空》Wegame版提示缺少DirectX工具修复方法的内容，......

AlphaGo Zero论文《Mastering the game of Go without human knowledge》阅读笔记

AlphaGo Zero论文阅读笔记

简述：

神经网络设计

强化学习策略

MCTS（Monte-Carlo Tree Search）策略

参考资料

相关文章

赞助商

阅读排行