老虎机

2024-07-07强化学习 --K臂老虎机(2)
3.1前提在前一节我们提出了一个强化学习经典问题“K臂老虎机”，并将这个问题数学形式化，并将求解“最大奖励概率分布”变换为求解“最小化累计懊悔”问题。之后又给出了K臂老虎机的环境生成问题，以及解决K臂老虎机算法的框架。在这节中，我们将会实现几个策略来解决K臂老虎机问题