网站首页
编程语言
数据库
系统相关
其他分享
编程问答
拉杆
2024-11-25
多臂老虎机(强化学习中的探索与利用)
文章目录一、多臂老虎机问题介绍1.1问题定义1.2形式化表述1.3累积懊悔1.4估计期望奖励二、探索与利用的平衡三、ϵ-贪心算法四、上置信界算法五、汤普森采样算法 多臂老虎机问题,可以被看作简化版的强化学习问题。与强化学习不同,多臂老虎机不存在状态信息,只有