• 2024-07-07强化学习 --K臂老虎机(2)
    3.1前提在前一节我们提出了一个强化学习经典问题“K臂老虎机”,并将这个问题数学形式化,并将求解“最大奖励概率分布”变换为求解“最小化累计懊悔”问题。之后又给出了K臂老虎机的环境生成问题,以及解决K臂老虎机算法的框架。在这节中,我们将会实现几个策略来解决K臂老虎机问题