基于时态差分法的强化学习：Sarsa和Q-learning

时间：2023-08-12 10:13:46浏览次数：65

标签：时态 State 差分法 Sarsa learning Action

时态差分法（Temporal Difference, TD）是一类在强化学习中广泛应用的算法，用于学习价值函数或策略。Sarsa和Q-learning都是基于时态差分法的重要算法，用于解决马尔可夫决策过程（Markov Decision Process, MDP）中的强化学习问题。

下面是最简单的TD方法更新：

它只使用当前行动之后的奖励值和下一个状态的值作为目标。Sarsa（State-Action-Reward-State-Action）和Q-learning是都是基于时态差分法的强化学习方法。

Sarsa和Q-learning的区别

Sarsa代表State-Action-Reward-State-Action。是一种基于策略的方法，即使用正在学习的策略来生成训练数据。Q-learning是一种非策略方法它使用不同的策略为正在学习的值函数的策略生成训练数据。

https://avoid.overfit.cn/post/b7ecfa32ef354a4e9e0c9e2e5da7376d

标签：时态,State,差分法,Sarsa,learning,Action
From： https://www.cnblogs.com/deephub/p/17624392.html

Objective-C 语法快速参考（附：Learning_Objective-C_A_Primer_中文版）
关联：1.http://cocoadevcentral.com/d/learn_objectivec/2.http://www.otierney.net/objective-c.html.zh-tw.big53.http://www.geekylemon.com/xcodetutorials.htm4.http://www.cocoachina.com/b/ 大部分有一点其他平台开发基础的初学者看到XCode，第一感想是磨拳擦......
【机器学习｜数学基础】Mathematics for Machine Learning系列之矩阵理论（12）：相似形理论
目录前言往期文章3.3线性变换的最简矩阵表示-相似形理论3.3.1一般数域上矩阵相似最简形定义3.9定理3.3.1前言Hello！小伙伴！非常感谢您阅读海轰的文章，倘若文中有错误的地方，欢迎您指出～自我介绍ଘ(੭ˊᵕˋ)੭昵称：海轰标签：程序猿｜C++选手｜学生简介：因C语言结识编程，随后转入计算......
【机器学习｜数学基础】Mathematics for Machine Learning系列之矩阵理论（13）：Hamliton-Cay
目录前言Hello！小伙伴！非常感谢您阅读海轰的文章，倘若文中有错误的地方，欢迎您指出～自我介绍ଘ(੭ˊᵕˋ)੭昵称：海轰标签：程序猿｜C++选手｜学生简介：因C语言结识编程，随后转入计算机专业，有幸拿过一些国奖、省奖…已保研。目前正在学习C++/Linux/Python学习经验：扎实基础+多做笔记+......
【机器学习｜数学基础】Mathematics for Machine Learning系列之矩阵理论（15）：矩阵的范数
前言Hello！小伙伴！非常感谢您阅读海轰的文章，倘若文中有错误的地方，欢迎您指出～自我介绍ଘ(੭ˊᵕˋ)੭昵称：海轰标签：程序猿｜C++选手｜学生简介：因C语言结识编程，随后转入计算机专业，有幸拿过一些国奖、省奖…已保研。目前正在学习C++/Linux/Python学习经验：扎实基础+多做笔记+多......
【机器学习｜数学基础】Mathematics for Machine Learning系列之矩阵理论（16）：向量和矩阵的
前言Hello！小伙伴！非常感谢您阅读海轰的文章，倘若文中有错误的地方，欢迎您指出～自我介绍ଘ(੭ˊᵕˋ)੭昵称：海轰标签：程序猿｜C++选手｜学生简介：因C语言结识编程，随后转入计算机专业，有幸拿过一些国奖、省奖…已保研。目前正在学习C++/Linux/Python学习经验：扎实基础+多做笔记+多......
【机器学习｜数学基础】Mathematics for Machine Learning系列之矩阵理论（20）：方阵函数
前言Hello！小伙伴！非常感谢您阅读海轰的文章，倘若文中有错误的地方，欢迎您指出～自我介绍ଘ(੭ˊᵕˋ)੭昵称：海轰标签：程序猿｜C++选手｜学生简介：因C语言结识编程，随后转入计算机专业，有幸拿过一些国奖、省奖…已保研。目前正在学习C++/Linux/Python学习经验：扎实基础+多做笔记+多......
Paper Reading: Multitree Genetic Programming With New Operators for Transfer Lea
目录研究动机文章贡献本文方法从源域中提取知识基于MTGP的迁移学习转换域的特征、实例权值数据插值MTGP适应度函数遗传算子实验结果数据集实验设置同构情况下的SR异构情况下的SR存在缺失值的真实数据集的SR训练时间学习到的转换表达式遗传算子比较消融实验优点和创新点Pape......
论文解读（LightGCL）《LightGCL: Simple Yet Effective Graph Contrastive Learning for
Note：[wechat：Y466551|可加勿骚扰，付费咨询]论文信息论文标题：LightGCL:SimpleYetEffectiveGraphContrastiveLearningforRecommendation论文作者：Cai,XuhengandHuang,ChaoandXia,LianghaoandRen,Xubin论文来源：2023ICLR论文地址：download 论文代码：download视......
Learning by teaching --- 费曼学习法
世界上存在成千上万种学习法，如果上天只让我掌握一种，那一定就是“费曼学习法”。介绍费曼学习法是由诺贝尔物理学奖获得者理查德·费曼提出的一种学习方法，其核心思想是将所学内容用自己的话表达出来，以此检验自己对知识的掌握程度。费曼学习法可以简化为四个单词：Concept、Teach、......
论文解读（DWL）《Dynamic Weighted Learning for Unsupervised Domain Adaptation》
[Wechat：Y466551|付费咨询，非诚勿扰]论文信息论文标题：DynamicWeightedLearningforUnsupervisedDomainAdaptation论文作者：JihongOuyang、ZhengjieZhang、QingyiMeng论文来源：2023aRxiv论文地址：download 论文代码：download视屏讲解：click1介绍 2方法2.1......

基于时态差分法的强化学习：Sarsa和Q-learning

Sarsa和Q-learning的区别

相关文章

赞助商

阅读排行