MCTS notes

时间：2024-09-04 09:52:43浏览次数：14

采样 trajectory，从尾部到头考虑每个节点，重新计算探索它的奖励。

如果是在一棵树上，我们可以在采样的时候考虑究竟是走谁。MCTS 认为如果你对一个子树探索次数很多，就得给别人一些机会，即使这个子树的reward很高。我们用 \(p_x\) 表示 \(x\) 点的得分，具体式子感觉很奇怪，我不知道为什么又开根又 \(\ln\)，可能是求导或者做函数分析得到的。这个 \(p_x\) 需要平衡探索 reward 和在子树里面探索的次数。

~~感觉这些函数设计很奇怪啊，完全不知道为什么要这么写式子~~

pipeline 其实很自然，优先选没有探索过的节点探索（这里在没探索过的点里面随机选一个），撞到南墙之后更新这条链上所有点的状态。如果某个点的所有后继都探索过了，就选 \(p_x\) 比较大的探索。

标签：子树,探索,notes,MCTS,reward,式子
From： https://www.cnblogs.com/yspm/p/18395897/MCTSnotes

高效达人必备！Simple Sticky Notes让灵感与任务不再遗漏！
前言阿尔伯特·爱因斯坦所言：“我们不能用制造问题时的同一水平思维来解决它。”这句话深刻地揭示了创新与突破的必要性。正是基于这样的理念，SimpleStickyNotes这款桌面便签软件以其独特的创新视角和实用性，在众多同类软件中脱颖而出。它源自于开发团队对于高效工作与便捷生......
个人成长加速器：Trilium Notes知识库构建指南
前言信息即力量，组织决定效率--这句话不仅揭示了信息在现代社会中的核心价值，也指出了有效组织信息对于提升工作效率的重要性。正是基于这样的认识，一款名为Trilium的知识管理工具应运而生，它以其独特的组织模式和强大的功能，成为了众多知识工作者和终身学习者的得力助手。它源......
AI Python for Beginners-Andrew吴恩达-study notes（2）
1Introduction itisbelievedthatwiththehelpofAIchatbotwecanlearnpythonmoreeasilyanditwillbeamazingtoautomatetasksusingPython2 CompletingatasklistwithAI2.1List①listisasinglevariableoftype thatholdsm......
Mna Notes
0716A?先考虑已知选取的线段如何算出答案：维护一个\(pos\)表示当前处理到的最右端的右端点，每次在\(pos<l\)的线段中选出\(r\)最小的一个，感性地理解这是最优的。再考虑原问题：使用DP，令\(f_{i,j}\)表示\(pos=i\)，已经选取了\(j\)条合法线段的方案数，枚举下一条选取的......
ACM notes
动态规划（DP）树形DP数学位运算异或异或前缀和\(s(n)为1到n的数的异或和\)\(s(n)=\begin{cases}1,~~~n\%4==1\\0,~~~n\%4==3\\n,~~~n\%4==0\\n+1,~~~n\%4==2\\\end{cases}\)代码实现如下：autoxorprefix=[&](ll......
August 1st, Java Study Notes,static&non-static method
IfollowedthevideoandrecordedsomeofitMostoftheideasarealreadyinthecomments,andtoputitbluntly,theyarethetranslatedwordspublicclassdog{publicintweight;//dog没有一个固定的weight，所以我们不使用static定义weight//定......
Algorithm notes and references
AlgorithmnotesandreferencesVersion:2024/02/03DataStructure1.SegmentTreeBeats(segb)from题解P4314【CPU监控】-He_Ren的博客-洛谷博客(luogu.com.cn)lazytag实际上可以看作是对于该节点表示的区间的操作序列，这也是线段树的精髓所在push_down操作就......
notes for llm-universe C2
基本概念PromptPrompt最初是NLP（自然语言处理）研究者为下游任务设计出来的一种任务专属的输入模板，类似于一种任务（例如：分类，聚类等）会对应一种Prompt我们每一次访问大模型的输入为一个Prompt，而大模型给我们的返回结果则被称为Completion。TemperatureLLM生成是具有随......
MCT Self-Refine：创新集成蒙特卡洛树搜索（MCTS）提高复杂数学推理任务的性能，超GPT4，使用 L
......
Helm 图表在调用测试（test-connection.yml）时出现任何错误，如何在 NOTES.txt 中显示错误
下面是我的test-connection.ymlapiVersion:v1kind：Pod元数据：name:"{{include"demohelmapi.fullname".}}-test-connection"；labels：{{-include"demohelmapi.labels".|nindent4}}annotations："helm.sh/hook&qu......

MCTS notes

相关文章

赞助商

阅读排行