• 2024-09-04MCTS notes
    采样trajectory,从尾部到头考虑每个节点,重新计算探索它的奖励。如果是在一棵树上,我们可以在采样的时候考虑究竟是走谁。MCTS认为如果你对一个子树探索次数很多,就得给别人一些机会,即使这个子树的reward很高。我们用\(p_x\)表示\(x\)点的得分,具体式子感觉很奇怪,我不知道为什么
  • 2024-08-26AlphaGo Zero论文《Mastering the game of Go without human knowledge》阅读笔记
    AlphaGoZero论文阅读笔记原论文:《MasteringthegameofGowithouthumanknowledge》简述:论文提出了一种新的围棋人工智能算法AlphaGoZero,该算法可以在完全无监督的情况下进行训练,并且超越了之前的AlphaGoFan和AlphaGoLee的表现。该算法具有如下特点:在无监督的情况
  • 2024-07-15快速入门:自动驾驶感知工程师的规划与决策核心技巧
    亚马逊云AWS大模型训练自动驾驶技术欢迎来到雲闪世界,亚马逊AWS雲服务器。经典的模块化自动驾驶系统通常由感知、预测、规划和控制组成。直到2023年左右,AI(人工智能)或ML(机器学习)主要在大多数量产自动驾驶系统中增强感知,其影响力在下游组件中逐渐减弱。与规划堆栈中AI的