The Second Type of Uncertainty in Monte Carlo Tree Search

时间：2023-04-20 23:22:22浏览次数：47

标签：Monte 子树访问 Uncertainty value 次数 uncertainty Type MCTS

发表时间：2020
文章要点：MCTS里通常通过计算访问次数来做探索，这个被称作count-derived uncertainty。这篇文章提出了第二种uncertainty，这种uncertainty来源于子树的大小，一个直觉的想法就是，如果一个动作对应下的子树小，那就不用探索那么多次，反之如果子树大，那就应该多探索探索。作者提出了MCTS-T和MCTS-T+算法，在树里添加度量子树大小的估计（estimate of the size of the subtree below an action），在稀疏回报的场景以及有loop的场景下取得了很好的效果。
具体的，作者定义每个状态的uncertainty $\sigma_{\tau}(s) \in [0,1]$，其中1表示这个状态下的子树完全没探索过，0表征这个子树已经被探索完全了。所以在初始化的时候，只有终结状态被设置为0，其他状态都被设置为1

然后更新的公式也是通过计算访问次数然后根据backup的uncertainty来算平均值

然后select的公式就变成

这个uncertainty以乘积的形式放到exploration那一项上。
另外一个需要注意的问题是，如果一个很大的子树的value都很差，但是因为uncertainty很大，那么访问次数就会很多，这样就会导致value更新不准，所以value的更新不能依据这个访问次数去做。作者的做法是依然保留一个和原版MCTS一样的访问次数的计算，就是如果新的select公式选择的动作和原版MCTS选择的动作一样，就算一次访问次数

然后用这个访问次数去更新value

另外一个需要解决的问题是Loops，也就是说在一次搜索中，search可能在几个动作之间来回横条，这就导致这个树变的平衡了，但是其实都是在相同几个状态之间来回跳，其实相当于没用

作者的做法也很直接，就是在一次搜索中，如果在后面的节点遇到了之前相同的状态，就把这个地方的uncertainty设置为0，那么就会避免相同状态反复横跳了。如果状态空间太大，还可以设置阈值来做近似的判断

而且注意这个方式是MCTS的扩展，如果没到terminal状态，所有的select，backup就和MCTS完全一样。
总结：很有意思的想法，感觉是不是可以试试结合到神经网络上面去。另外，目前做的还是确定性转移的情形。
疑问：如果有随机转移，会不会错误block掉很多loops?
另外如果一个游戏就是反复横跳得分最高，是不是效果也会差一点？

标签：Monte,子树,访问,Uncertainty,value,次数,uncertainty,Type,MCTS
From： https://www.cnblogs.com/initial-h/p/17338749.html

关于项目组件打包时遇到 `Uncaught TypeError: Cannot read property 'toLowerCase' o
在全局注册组件时采用遍历组件池的方法时每个组件都应该具备name属性否则会出现UncaughtTypeError:Cannotreadproperty'toLowerCase'ofundefined ......
关于报错：Error adding module to project: setSdk: sdk '1.8' type 'JavaSDK' is not
问题描述：Erroraddingmoduletoproject:setSdk:sdk'1.8'type'JavaSDK'isnotregisteredinProjectJdkTable（图片来自贴吧，看到有一个人问这个问题，然后自己碰到了但是忘了截图）说明当前项目在“ProjectJdkTable”里面是没有配置sdk1.8的。百度翻译过来就是：未在Project......
how to inject <class> type in spring
sample:ClassitemClass;publicClassgetItemClass(){returnitemClass}publicvoidsetItemClass(ClassitemClass){this.itemClass=itemClass;} NowinjectitemClasspropertyinspring:<beanid="shampoo"class="com.test.Product&......
【MathType】word2016数学公式编号
问题毕业论文排版中，对数学公式需要类似(3-1)的格式。解决技巧在写论文初稿的时候，先不要于公式的编号，先给它编一个号，比如(3)(2)(4)的。最后写完了以后，再再添加section，同意修改编号格式为(章-公式序号)可以先修改mathtype章节的样式为不隐藏，这样方便添加。添加完math......
TypeError: super(type, obj): obj must be an instance or subtype of type这个问题
TypeError:super(type,obj):objmustbeaninstanceorsubtypeoftype这个问题怎么处理？这个错误通常发生在使用super()函数时，第二个参数不是第一个参数的实例或子类型。在使用super()函数时，第一个参数应该是当前子类的类对象，而第二个参数应该是当前子类的实例。如果第......
ts报错：Property '$xxx' does not exist on type
问题在catch中统一处理异常信息，就想着写到一个函数里面，然后需要用到的地方自行调用就可以。一般两种方法，要不通过mixin，要不绑定到vue的prototype上面。这里采用的是后者。在以前没引入ts之前，是那么简单的一件事情。//先绑定Vue.prototype.$catchRequestError=function(......
taro3 报错 TypeError: className.split is not a function
项目原来跑的好好的,昨天升级了几个包,引用了个UI库,然后今天上班运行项目就跑不起来了,项目是在旧的项目上升级的之前的写法<Viewkey={idx}className={["tabbar-item",isActive&&"active"]}onClick={this.switchTab.bind(this,item.key)}>{......
16 Ray Tracing (Monte Carlo Path Tracing)
关键点MonteCarloIntegrationDistributedRayTracingPathTracingRussianRoulette(RR)SamplingtheLight(puremath)1.MonteCarloIntegration蒙特卡洛积分对于没有解析式的对象，可以使用该方法求其定积分。在积分范围内随机采样一个值，作为高，使用区间长度作为宽，......
关于typescript引入第三方js文件
一、通过require方法1.1.安装@types/node并在tsconfig.json配置，如下图所示。npmi@types/node1.2.在ts或vue中引入constvc:any=require('@/libs/VCtrl.js') 二、通过declare定义，然后import导入。2.1.在src目录下创建shims.d.ts文件。declaremodu......
Unable to create an object of type 'NetcoremvcDbcontext'. For the different patt
问题描述：我整个项目重新生成没有报错，但是用efcore迁移数据库命令：Add-Migrationinit就生成不了文件夹Migrations，并且报错：Unabletocreateanobjectoftype'NetcoremvcDbcontext'.Forthedifferentpatternssupportedatdesigntime,seehttps://go.microsoft.com/fwlink/......

The Second Type of Uncertainty in Monte Carlo Tree Search

相关文章

赞助商

阅读排行