首页 > 其他分享 >MCTS notes

MCTS notes

时间:2024-09-04 09:52:43浏览次数:3  
标签:子树 探索 notes MCTS reward 式子

采样 trajectory,从尾部到头考虑每个节点,重新计算探索它的奖励。

如果是在一棵树上,我们可以在采样的时候考虑究竟是走谁。MCTS 认为如果你对一个子树探索次数很多,就得给别人一些机会,即使这个子树的reward很高。我们用 \(p_x\) 表示 \(x\) 点的得分,具体式子感觉很奇怪,我不知道为什么又开根又 \(\ln\),可能是求导或者做函数分析得到的。这个 \(p_x\) 需要平衡探索 reward 和在子树里面探索的次数。

感觉这些函数设计很奇怪啊,完全不知道为什么要这么写式子

pipeline 其实很自然,优先选没有探索过的节点探索(这里在没探索过的点里面随机选一个),撞到南墙之后更新这条链上所有点的状态。如果某个点的所有后继都探索过了,就选 \(p_x\) 比较大的探索。

标签:子树,探索,notes,MCTS,reward,式子
From: https://www.cnblogs.com/yspm/p/18395897/MCTSnotes

相关文章

  • 高效达人必备!Simple Sticky Notes让灵感与任务不再遗漏!
    前言阿尔伯特·爱因斯坦所言:“我们不能用制造问题时的同一水平思维来解决它。”这句话深刻地揭示了创新与突破的必要性。正是基于这样的理念,SimpleStickyNotes这款桌面便签软件以其独特的创新视角和实用性,在众多同类软件中脱颖而出。它源自于开发团队对于高效工作与便捷生......
  • 个人成长加速器:Trilium Notes知识库构建指南
    前言信息即力量,组织决定效率--这句话不仅揭示了信息在现代社会中的核心价值,也指出了有效组织信息对于提升工作效率的重要性。正是基于这样的认识,一款名为Trilium的知识管理工具应运而生,它以其独特的组织模式和强大的功能,成为了众多知识工作者和终身学习者的得力助手。它源......
  • AI Python for Beginners-Andrew吴恩达-study notes(2)
    1Introduction    itisbelievedthatwiththehelpofAIchatbotwecanlearnpythonmoreeasilyanditwillbeamazingtoautomatetasksusingPython2 CompletingatasklistwithAI2.1List①listisasinglevariableoftype thatholdsm......
  • Mna Notes
    0716A?先考虑已知选取的线段如何算出答案:维护一个\(pos\)表示当前处理到的最右端的右端点,每次在\(pos<l\)的线段中选出\(r\)最小的一个,感性地理解这是最优的。再考虑原问题:使用DP,令\(f_{i,j}\)表示\(pos=i\),已经选取了\(j\)条合法线段的方案数,枚举下一条选取的......
  • ACM notes
    动态规划(DP)树形DP数学位运算异或异或前缀和\(s(n)为1到n的数的异或和\)\(s(n)=\begin{cases}1,~~~n\%4==1\\0,~~~n\%4==3\\n,~~~n\%4==0\\n+1,~~~n\%4==2\\\end{cases}\)代码实现如下:autoxorprefix=[&](ll......
  • August 1st, Java Study Notes,static&non-static method
    IfollowedthevideoandrecordedsomeofitMostoftheideasarealreadyinthecomments,andtoputitbluntly,theyarethetranslatedwordspublicclassdog{publicintweight;//dog没有一个固定的weight,所以我们不使用static定义weight//定......
  • Algorithm notes and references
    AlgorithmnotesandreferencesVersion:2024/02/03DataStructure1.SegmentTreeBeats(segb)from题解P4314【CPU监控】-He_Ren的博客-洛谷博客(luogu.com.cn)lazytag实际上可以看作是对于该节点表示的区间的操作序列,这也是线段树的精髓所在push_down操作就......
  • notes for llm-universe C2
    基本概念PromptPrompt最初是NLP(自然语言处理)研究者为下游任务设计出来的一种任务专属的输入模板,类似于一种任务(例如:分类,聚类等)会对应一种Prompt我们每一次访问大模型的输入为一个Prompt,而大模型给我们的返回结果则被称为Completion。TemperatureLLM生成是具有随......
  • MCT Self-Refine:创新集成蒙特卡洛树搜索 (MCTS)提高复杂数学推理任务的性能,超GPT4,使用 L
    ......
  • Helm 图表在调用测试(test-connection.yml)时出现任何错误,如何在 NOTES.txt 中显示错误
    下面是我的test-connection.ymlapiVersion:v1kind:Pod元数据:name:"{{include"demohelmapi.fullname".}}-test-connection";labels:{{-include"demohelmapi.labels".|nindent4}}annotations:"helm.sh/hook&qu......