• 2024-07-05强化学习(Monte Carlo learning)-Today6
    MonteCarlolearning简称MC,是model-free算法,也就是不基于模型的算法,Today5发布的valueiterationandPolicyiterationalgorithm是model-based算法,是基于模型的算法,也就是说,没有模型的构建,需要数据的支撑,MC包括三个算法,分别是MCBasic、MCExploringStarts和这三个算法,