1、PPO算法运用了clip函数限制取值范围,为什么还要加上min呢?
2、AC架构与PPO之间的区别?
3、什么是装饰器?
4、lamada函数?
5、什么是model-based与model-free?
6、python中map函数的用法?
7、准确率、精确率、召回率、F1score的意义?
8、PPO的上一个策略收集到的经验可以用多少次?
标签:总结,函数,PPO,面试,强化,model From: https://www.cnblogs.com/Halo-zyh-Go/p/17655110.html