首页 > 数据库 >强化学习(人工智能) —— DDPG、TD3、SAC、SQL算法是不是Actor-Critic算法?

强化学习(人工智能) —— DDPG、TD3、SAC、SQL算法是不是Actor-Critic算法?

时间:2024-12-11 12:23:49浏览次数:8  
标签:Critic 算法 Actor critic actor SQL policy DDPG

强化学习算法是人工智能领域发展最为强劲的一个分支,但是很多人都将注意力放在了算法模型的发展上而忽略了其基本理论上的一些概念,本文就讨论一下强化学习算法的一些基本概念的界定上。





来源:

https://ai.stackexchange.com/questions/39545/why-is-soft-q-learning-not-an-actor-critic-method


Although the soft Q-learning algorithm proposed by Haarnoja et al. (2017) has a value function and actor network, it is not a true actor-critic algorithm: the Q-function is estimating the optimal Q-function, and the actor does not directly affect the Q-function except through the data distribution. Hence, Haarnoja et al. (2017) motivates the actor network as an approximate sampler, rather than the actor in an actor-critic algorithm. Crucially, the convergence of this method hinges on how well this sampler approximates the true posterior.



本文是 人工智能(强化学习)—— Why is Soft Q Learning not an Actor Critic method? —— SQL算法为什么不是Actor-Critic算法 的一个补充。



DDPG、TD3、SAC、SQL算法,我个人认为均不属于actor-critic算法,虽然现在的算法类别分类中常用的方法是将这几个算法归为actor-critic算法,我认为这种归类算法只是简单的根据算法结构中是否才有actor和critic网络为判断的,而我认为这种判断太过于简单,是不准确的,我认为应该按照是否使用policy gradient理论来作为判定标准。

按照是否使用policy gradient理论来作为判定标准,那么DDPG、TD3、SAC、SQL算法均不属于actor-critic算法。


因为原始的actor-critic算法之所以被称为actor-critic算法就是因为其主要的核心是policy gradient和value estimation的组合,那么必然是要将是否含有policy gradient作为首要判定标准的,而且从算法的计算流程、算法理论和计算方法上来看,DDPG、TD3、SAC、SQL算法和标准的actor-critic算法都有着明显差距,可以说这几种算法的核心思想是更贴近q-learning算法的,而actor-critic算法的核心应该是policy gradient而不是Q-learning。



标签:Critic,算法,Actor,critic,actor,SQL,policy,DDPG
From: https://www.cnblogs.com/xyz/p/18599222

相关文章

  • 什么是三色标记算法?
    什么是三色标记算法?三色标记算法是一种用于垃圾回收的标记算法,主要用于标记-清除类型的垃圾回收器。它通过将对象分为三种颜色(白色、灰色、黑色)来表示对象的状态,并通过颜色转换来判断哪些对象是可回收的。1.三色标记算法的基本思想三色标记算法的基本思想是将对象从白色开......
  • Java 中有哪些垃圾回收算法?
    Java中的垃圾回收算法Java中的垃圾回收(GarbageCollection,GC)机制通过多种算法实现对堆内存的管理。以下是常见的垃圾回收算法:1.标记-清除算法(Mark-Sweep)工作原理标记阶段:遍历对象图,标记所有可达对象。清除阶段:清除未标记的不可达对象,回收内存。特点简单直接,适用于基......
  • 人工智能(强化学习)—— Why is Soft Q Learning not an Actor Critic method? —— SQL
    原文:https://ai.stackexchange.com/questions/39545/why-is-soft-q-learning-not-an-actor-critic-methodI'vebeenreadingthesetwopapersfromHaarnojaet.al.:SoftActor-Critic:Off-PolicyMaximumEntropyDeepReinforcementLearningwithaStochastic......
  • 用主定理求解递归算法的复杂度
    主定理(MasterTheorem)是一种常见于算法分析中的工具。它指出了如何解决与分治和递归有关算法的时间复杂度。主定理主定理的标准形式是分析以下递归式的实际复杂度:\[T(n)=aT\left(\frac{n}{b}\right)+f(n),\]其中:\(a\geq1\)是递归调用的数量,表明问题被切割为几个子问......
  • 代码随想录算法训练营第四十三天|LeetCode300.最长递增子序列、LeetCode674.最长连续
    前言打卡代码随想录算法训练营第49期第四十三天 (๑ˉ∀ˉ๑)首先十分推荐学算法的同学可以先了解一下代码随想录,可以在B站卡哥B站账号、代码随想录官方网站代码随想录了解,卡哥清晰易懂的算法教学让我直接果断关注,也十分有缘和第49期的训练营大家庭一起进步。LeetCode300......
  • 每日一道算法题之建图
    importjava.util.ArrayList;importjava.util.Arrays;//注意类名必须为Main,不要有任何packagexxx信息publicclassMain{publicstaticintn=11;publicstaticintm=31;//矩阵-有方向-无权-权重默认都为1.publicstaticint[][]graph_......
  • 时间序列数据预测分类算法
    1.时间序列基础概念定义与特征时间序列数据是一系列按时间顺序排列的观测值,反映了系统随时间变化的状态。其关键特征包括季节性、趋势性和周期性,分别体现数据随时间呈现的规律性波动、长期发展方向和固定周期内的变化模式。时间序列分析旨在揭示这些内在特性,为预测建模......
  • 聚类算法的种类
    定义与原理聚类算法是一种无监督学习方法,旨在揭示数据集中的内在结构。它通过计算样本间的相似性,将相似对象自动归类到同一组中,无需预先标记数据。这种方法的核心在于选择合适的相似度量,如欧氏距离,以捕捉数据间的关系。聚类过程通常涉及迭代优化目标函数,如最小化簇内距离之......
  • 【唐叔学算法】第12天:回溯算法-探索所有可能的旅程
    在算法的世界中,回溯算法是一种通过试错来解决问题的方法。它尝试分步解决一个问题,如果在某个步骤中发现之前的选择并不会导致一个有效的解决方案,它将取消上一步甚至是上几步的选择,回退到之前的状态,再尝试另一种可能的解决方案。作为一名Java技术博主,我将带你深入了解回溯算......
  • 算法--排序算法
    选择排序#选择排序#选择排序思路:#-每次从[i,n-1]区间中选择最小值,放到i位置上#-i取值为[0,n-1],因为如果最后只有一个数,则无需查询,i取值为[0,n-2]即可defselect_sort(nums:list[int]):n=len(nums)ifn<=1:returnforiinr......