拉杆

2024-11-25多臂老虎机（强化学习中的探索与利用）
文章目录一、多臂老虎机问题介绍1.1问题定义1.2形式化表述1.3累积懊悔1.4估计期望奖励二、探索与利用的平衡三、ϵ-贪心算法四、上置信界算法五、汤普森采样算法多臂老虎机问题，可以被看作简化版的强化学习问题。与强化学习不同，多臂老虎机不存在状态信息，只有