MCTS

2024-09-04MCTS notes
采样trajectory，从尾部到头考虑每个节点，重新计算探索它的奖励。如果是在一棵树上，我们可以在采样的时候考虑究竟是走谁。MCTS认为如果你对一个子树探索次数很多，就得给别人一些机会，即使这个子树的reward很高。我们用\(p_x\)表示\(x\)点的得分，具体式子感觉很奇怪，我不知道为什么
2024-08-26AlphaGo Zero论文《Mastering the game of Go without human knowledge》阅读笔记
AlphaGoZero论文阅读笔记原论文：《MasteringthegameofGowithouthumanknowledge》简述：论文提出了一种新的围棋人工智能算法AlphaGoZero，该算法可以在完全无监督的情况下进行训练，并且超越了之前的AlphaGoFan和AlphaGoLee的表现。该算法具有如下特点：在无监督的情况
2024-07-15快速入门：自动驾驶感知工程师的规划与决策核心技巧
亚马逊云AWS大模型训练自动驾驶技术欢迎来到雲闪世界，亚马逊AWS雲服务器。经典的模块化自动驾驶系统通常由感知、预测、规划和控制组成。直到2023年左右，AI（人工智能）或ML（机器学习）主要在大多数量产自动驾驶系统中增强感知，其影响力在下游组件中逐渐减弱。与规划堆栈中AI的