• 2024-11-25多臂老虎机(强化学习中的探索与利用)
    文章目录一、多臂老虎机问题介绍1.1问题定义1.2形式化表述1.3累积懊悔1.4估计期望奖励二、探索与利用的平衡三、ϵ-贪心算法四、上置信界算法五、汤普森采样算法  多臂老虎机问题,可以被看作简化版的强化学习问题。与强化学习不同,多臂老虎机不存在状态信息,只有