https://www.bilibili.com/video/BV1ca41187qB?p=3
17分55秒
什么效果比较好
无论是奖励还是步数都是缓缓的上升
如果奖励不是一直向上升,例如是先上升再下降,那拿最高点的模型就好
标签:视频,训练,效果,奖励,RL,上升 From: https://www.cnblogs.com/libxing/p/16642405.html
https://www.bilibili.com/video/BV1ca41187qB?p=3
17分55秒
什么效果比较好
无论是奖励还是步数都是缓缓的上升
如果奖励不是一直向上升,例如是先上升再下降,那拿最高点的模型就好
标签:视频,训练,效果,奖励,RL,上升 From: https://www.cnblogs.com/libxing/p/16642405.html