Today6

2024-07-05强化学习（Monte Carlo learning）-Today6
MonteCarlolearning简称MC，是model-free算法，也就是不基于模型的算法，Today5发布的valueiterationandPolicyiterationalgorithm是model-based算法，是基于模型的算法，也就是说，没有模型的构建，需要数据的支撑，MC包括三个算法，分别是MCBasic、MCExploringStarts和这三个算法，