强化学习的基础知识和概念简介(无模型、在线学习、离线强化学习等)
机器学习(ML)分为三个分支:监督学习、无监督学习和强化学习。
- 监督学习(SL):关注在给定标记训练数据的情况下获得正确的输出
- 无监督学习(UL):关注在没有预先存在的标签的情况下发现数据中的模式
- 强化学习(RL):关注智能体在环境中如何采取行动以最大化累积奖励
通俗地说,强化学习类似于婴儿学习和发现世界,如果有奖励(正强化),婴儿可能会执行一个行动,如果有惩罚(负强化),婴儿就不太可能执行这个行动。这也是来自监督学习和非监督学习的强化学习之间的主要区别,后者从静态数据集学习,而前者从探索中学习。
本文将涉及强化学习的术语和基本组成部分,以及不同类型的强化学习(无模型、基于模型、在线学习和离线学习)。本文最后用算法来说明不同类型的强化学习。
本文的公式基于Stuart J. Russell和Peter Norvig的教科书《Artificial Intelligence: A Modern Approach》(第四版),为了保持数学方程格式的一致性所以略有改动,。
完整文章:
https://avoid.overfit.cn/post/ddd23fcbbd9b4c1aa1ecbfd10ed0e083
标签:离线,监督,基础知识,学习,算法,强化 From: https://www.cnblogs.com/deephub/p/16991715.html