首页 > 编程语言 >强化学习的基础知识和6种基本算法解释

强化学习的基础知识和6种基本算法解释

时间:2022-12-19 11:22:06浏览次数:68  
标签:离线 监督 基础知识 学习 算法 强化

强化学习的基础知识和概念简介(无模型、在线学习、离线强化学习等)

机器学习(ML)分为三个分支:监督学习、无监督学习和强化学习。

  • 监督学习(SL):关注在给定标记训练数据的情况下获得正确的输出
  • 无监督学习(UL):关注在没有预先存在的标签的情况下发现数据中的模式
  • 强化学习(RL):关注智能体在环境中如何采取行动以最大化累积奖励

通俗地说,强化学习类似于婴儿学习和发现世界,如果有奖励(正强化),婴儿可能会执行一个行动,如果有惩罚(负强化),婴儿就不太可能执行这个行动。这也是来自监督学习和非监督学习的强化学习之间的主要区别,后者从静态数据集学习,而前者从探索中学习。

本文将涉及强化学习的术语和基本组成部分,以及不同类型的强化学习(无模型、基于模型、在线学习和离线学习)。本文最后用算法来说明不同类型的强化学习。

本文的公式基于Stuart J. Russell和Peter Norvig的教科书《Artificial Intelligence: A Modern Approach》(第四版),为了保持数学方程格式的一致性所以略有改动,。

完整文章:

https://avoid.overfit.cn/post/ddd23fcbbd9b4c1aa1ecbfd10ed0e083

标签:离线,监督,基础知识,学习,算法,强化
From: https://www.cnblogs.com/deephub/p/16991715.html

相关文章

  • 每日算法之礼物的最大价值
    JZ47礼物的最大价值描述描述在一个m\timesnm×n的棋盘的每一格都放有一个礼物,每个礼物都有一定的价值(价值大于0)。你可以从棋盘的左上角开始拿格子里的礼物,并每次向右......
  • OI 笔记:A - 基础算法
    A-基础算法语言基础语言基础编译指令:-std=c++11:c++11标准。-O2:O2优化。-Wl,--stack=1280000000:开栈。-Wall:显示所有警告。-Wextra:检测可疑代码并生成警告。......
  • 【算法训练营day22】LeetCode235. 二叉搜索树的最近公共祖先 LeetCode701. 二叉搜索树
    LeetCode235.二叉搜索树的最近公共祖先题目链接:235.二叉搜索树的最近公共祖先初次尝试利用二叉搜索树的性质,迭代法即可,判断目标节点的值是否在当前节点值的两侧或与当......
  • [机器学习] sklearn朴素贝叶斯算法
    朴素贝叶斯算法是来利用统计学中的条件概率来进行分类的一种算法。贝叶斯定理和特征条件独立假设就是朴素贝叶斯的两个重要理论基础。贝叶斯定理贝叶斯定理如下:因此上......
  • 【JVM】三色标记算法
    本文已收录至Github,推荐阅读......
  • java算法视频深度讲解
    1.java冒泡排序算法  ​​点击打开链接​​2.java选择排序算法  ​​点击打开链接​​......
  • 二分图与染色算法
    二分图的概念二分图就是顶点集V可分割为两个互不相交的子集,并且图中每条边依附的两个顶点都分属于这两个互不相交的子集,两个子集内的顶点不相邻。    染色法概......
  • C#二分查找算法实例分析
    原文链接:https://www.jb51.net/article/65006.htminternalclassProgram{staticvoidMain(string[]args){Programprogram=newProgram();......
  • kerberos搭建基础知识
    kerberos验证流程             配置文件格式                       服务端搭建配置   1......
  • 数据结构算法 之 二分查找法(LC)
    原文链接:https://blog.csdn.net/Luckyzhoufangbing/article/details/110389523(一)定义二分法查找,也称为折半法,是一种在有序数组中查找特定元素的搜索算法。二分法查找的思......