网站首页
编程语言
数据库
系统相关
其他分享
编程问答
Today6
2024-07-05
强化学习(Monte Carlo learning)-Today6
MonteCarlolearning简称MC,是model-free算法,也就是不基于模型的算法,Today5发布的valueiterationandPolicyiterationalgorithm是model-based算法,是基于模型的算法,也就是说,没有模型的构建,需要数据的支撑,MC包括三个算法,分别是MCBasic、MCExploringStarts和这三个算法,