在强化学习领域,一般都是限定训练的episodes数和训练所需样本数的,也就是说在进行算法性能对比的时候各个算法都是在相同的训练的episodes数和训练所需样本数的,但是如果我们在算法得分数保持相同的情况下是不是可以将各个算法所用的不同的训练的episodes数和训练所需样本数作为性能指标之一呢?
最近看的强化学习的资料中有这类的性能对比,也就是说各个算法的算法得分,即平均episode的score得分相同的情况下,比较各个算法所用的训练的episodes数或训练所需样本数;这种性能指标的使用比较少见,不过和固定训练的episodes数和训练所需样本数然后对比各个算法的score得分的原理是一致的。不过这里建议作为测评的平均episode的score得分最好不要使用训练过程中的训练时的得分,而是在训练过程中设置一定的时间间隔,然后再在到达时间间隔后重新生成一个环境,然后单独的使用这个重新生成的环境进行测试,从而获得更准确的结果,当然在测试的时候最后使用多个episodes的结果取平均则更为恰当。
标签:得分,训练,样本数,算法,episodes,性能指标 From: https://www.cnblogs.com/xyz/p/18464243