首页 > 其他分享 >AlphaGo Zero论文《Mastering the game of Go without human knowledge》阅读笔记

AlphaGo Zero论文《Mastering the game of Go without human knowledge》阅读笔记

时间:2024-08-26 14:48:43浏览次数:11  
标签:knowledge 神经网络 Zero AlphaGo game 搜索 theta MCTS

AlphaGo Zero论文阅读笔记

原论文:《Mastering the game of Go without human knowledge》


简述:

论文提出了一种新的围棋人工智能算法AlphaGo Zero,该算法可以在完全无监督的情况下进行训练,并且超越了之前的AlphaGo Fan和AlphaGo Lee的表现。

该算法具有如下特点:

  1. 在无监督的情况下,使用自博弈的强化学习进行训练。从随机的行动逐渐具有一定的策略。

  2. 仅仅使用局面上的黑白棋落子情况作为输入,没有额外设计的输入特征

  3. 使用单一的神经网络,而不是(类似上一代AlphaGo)划分为策略网络和价值网络

  4. 使用基于这一单一神经网络的评估结果的树搜索算法,不使用蒙特卡洛树搜索的rollouts来评估结果


神经网络设计

使用单一的深度神经网络\(f\),该网络具有两个输出\((\mathrm{p},v) = f_\theta(s)\),其中\(s\)为棋盘局面输入,向量\(\mathrm{p}\)表示每一个可行移动的概率,值\(v\)为一个评估标量,表示在当前局面\(s\)下,当前操作的棋手获胜的可能性

神经网络包含多个卷积层的残差块,并使用了批归一化和非线性整流函数

强化学习策略

AlphaGo Zero使用基于自博弈的强化学习。在每个局面下,将执行一次基于神经网络\(f_\theta\)的MCTS搜索,每次搜索结束后,MCTS将给出一个概率向量\(\pi\)表示每一步行动的概率。通过MCTS得到的该概率相比于直接使用神经网络得到的概率\(\mathrm{p}\)是一个更强的行动,因此MCTS可以被视为一个强大的策略改进(policy improvement)操作。同理,MCTS得到的胜者\(z\)相比于神经网络结果\(v\)同样是一个策略改进操作。因此,训练神经网络的结果\((\mathrm{p},v) = f_\theta(s)\)匹配结果\((\pi,z)\),然后用新的参数继续进行MCTS搜索并不断迭代。

MCTS(Monte-Carlo Tree Search)策略

蒙特卡洛树搜索使用神经网络\(f_\theta\)来引导模拟。在局面\(s\)下,对于每一个可行的操作边\((s,a)\),保存了先验概率\(P(s,a)\),访问数\(N(s,a)\)以及行为价值\(Q(s,a)\),每次搜索时,从当前根状态出发,每次选择最大的\(Q(s,a) + U(s,a)\),其中\(U(s,a) \propto P(s,a)/(1 + N(s,a))\),直到到达一个叶子节点\(s'\),在该叶子节点处,将进行拓展并使用神经网络进行单次的评估,产生先验概率和评估值\((P(s',),V(s'))=f_{\theta}(s')\),在这过程中,每一条边 \((s,a)\)将会被更新访问数\(N(s,a)\)的值,同时,行为价值也会被更新为子节点的平均值,即\(Q(s,a) = 1 / N(s,a)\sum_{s'|s,a\rightarrow{s'}}V(s')\),其中\(s,a\rightarrow s'\)代表状态\(s\)经过操作\(a\)后达到状态\(s'\)


参考资料

AlphaZero实战:从零学下五子棋(附代码) - 知乎 (zhihu.com)

AlphaGo Zero论文解析 | 蘑菇先生学习记 (xtf615.com)

如何学习蒙特卡罗树搜索(MCTS) - 知乎 (zhihu.com)

标签:knowledge,神经网络,Zero,AlphaGo,game,搜索,theta,MCTS
From: https://www.cnblogs.com/iceyz/p/18381019

相关文章

  • pygame手搓五子棋
    代码:#coding=utf-8importos,sys,re,timeimportpygameimportrandomfromwin32apiimportGetSystemMetricspygame.init()pygame.display.set_caption("五子棋")percent=0.6screen_width=GetSystemMetrics(0)screen_height=GetSystemMetrics(1)wi......
  • SP10502 VIDEO - Video game combos 题解
    题目传送门前置知识AC自动机解法多模式串匹配考虑AC自动机。令\(f_{i,j}\)表示前\(i\)个字符,当前运行到AC自动机的状态\(j\)时的最大得分。状态转移方程为\(f_{i,k}=\max\limits_{k\inSon(j)}\{f_{i-1,j}+sum_{k}\}\),其中\(sum_{k}\)表示fail树上以\(k......
  • gameobject_template | gameobject_template_addon
    目录gameobject_templateentrytypedisplayIdIconNameContentTuningIdAINamegameobject_template_addon factionflagsgameobject_templateentry gameobject模板的IDtype gameobject模板类型,取值参考源码GameObjectData.h的structGameObjectTemplat......
  • Twenty Lectures on Algorithmic Game Theory 算法博弈论二十讲 Lecture 5 Revenue-Ma
    TwentyLecturesonAlgorithmicGameTheory算法博弈论二十讲Lecture5Revenue-MaximizingAuctions(上)Lecture5Revenue-MaximizingAuctions第2至第4讲聚焦于设计能够最大化社会福利的机制,无论是精确还是近似。这类机制的收益产生仅仅是副作用,是激励代理人如实......
  • pygame各类形状
    代码:#coding=utf-8importos,sys,re,time,mathimportpygameimportrandomfromwin32apiimportGetSystemMetricsfrommathimportpipygame.init()pygame.display.set_caption("各种形状测试")percent=0.6screen_width=GetSystemMetrics(0)screen_hei......
  • DEFINITION OF THE SPORT :GENERAL KNOWLEDGE
    DEFINITIONOFTHESPORTOVERVIEWCanyoninginNewZealandCanyoningisanadventuresportpracticedwithinaveryspecificenvironment,namely,canyons!Typicallywhencanyoneerssay“canyon”,theymeananarrowgorgeorravine,ratherthansometh......
  • pygame物体碰撞
    代码:#coding=utf-8importos,sys,re,timeimportpygameimportrandomimportmathfromwin32apiimportGetSystemMetricsfromtkinterimportmessageboxpygame.init()pygame.display.set_caption("我的游戏")percent=0.6screen_width=GetSystemMetri......
  • 使用 Pygame 创建简单的移动方块游戏
    Pygame是一个用于开发图形和多媒体应用的优秀Python库。下面,我们将逐步解释如何创建一个简单的游戏,其中一个蓝色方块可以在屏幕上移动。 安装Pygame首先,确保你已经安装了Pygame。可以通过以下命令安装:pipinstallpygame 游戏结构1.初始化Pygame开始时,需......
  • [AtCoder - tdpc_game] :ゲーム 题解
    [AtCoder-tdpc_game]:ゲーム题解一道小清新\(dp\)题。定义\(dp_{i,j}\)为第一堆山还有\(i\)个物品,第二堆山还有\(j\)个物品,すぬけ君能取得物品的最大价值。由于只能取两座山最上面的物品,假设当前两座山分别有\({x,y}\)个物品,すぬけ君选后只能有两种情况,分别为\(d......
  • 《黑神话:悟空》Wegame版提示缺少DirectX工具怎么解决?黑神话悟空游戏启动时弹窗“缺少D
    在《黑神话:悟空》的Wegame版本中,一些玩家会遇到提示缺少DirectX工具的情况。别担心,修复方法并不复杂。首先检查系统是否已安装最新版本的DirectX,若没有,可从官方渠道下载并安装,一般能有效解决此问题。本篇将为大家带来《黑神话:悟空》Wegame版提示缺少DirectX工具修复方法的内容,......