• 2024-07-18[强化学习]--悬崖漫步
    Q-Learning是一种在强化学习中广泛应用的算法,它属于值迭代方法的一种,能够通过与环境交互来学习最优策略。Q-Learning的核心思想是学习一个动作价值函数(Q-Function),这个函数可以预测从某个状态采取某个动作后所能获得的长期奖励。1、Q-Learning的基本原理Q-Learning的目标是找