首页 > 编程语言 >Q-learning与Sarsa算法辨析

Q-learning与Sarsa算法辨析

时间:2023-12-16 22:14:55浏览次数:32  
标签:状态 动作 一个 辨析 state Sarsa learning action

 这个是Q-learing的一个算法,根据代码,它就是,先设定训练100次,然后,给它一个随机的状态,这里我们假设状态6就是终点,那么走迷宫的时候,如果没走到6,就要一直走下去,,所以里面还要用到一个while循环,然后在每个状态的时候,找一个非负的动作,存储在数组里,(算是合理动作的集合吧),下一个状态的指针指向采取随意一个合理动作的结果,(就是合理的情况下随便走),然后从S状态到S'状态的Q(最佳动作)直接赋值给,原本reward+衰减值乘下一个状态的最佳动作的reward,接着状态更新,进入下一轮while循环。。。。。就是继续走迷宫,一轮学习尚未结束。。。

 

 

 

然后讲讲Sarsa

Sarsa是一个缩写,全称。。state,action,reward,state',action',是不是有点感觉了 

Sarsa虽然代码看上去比较复杂,但其实逻辑上相对简单,与Q-learning共性的part不讲了,就是循环的那些,直奔主题,还是选择一个合理的动作存起来,接着进入重点,下一个状态state'还是赋值给随便一个合理动作,,接着再从下一个状态,再挑出几个合理动作,然后再随机挑选一个幸运观众成为action',然后,q(s,a)就会赋值为r+衰减值*q(s',a'),毫无套路可言,一切按部就班,多么朴实啊,所以策略没有改变,然后策略更新,进入下一个状态

标签:状态,动作,一个,辨析,state,Sarsa,learning,action
From: https://www.cnblogs.com/cjtaaa/p/17908449.html

相关文章

  • Adaptive Graph Contrastive Learning for Recommendation论文阅读笔记
    Abstract在实际的场景中,用户的行为数据往往是有噪声的,并且表现出偏态分布。所以需要利用自监督学习来改善用户表示。我们提出了一种新的自适应图对比学习(AdaGCL)框架,该框架使用两个自适应对比视图生成器来进行数据增强,以更好地增强CF范式。具体的说,我们使用了两个可训练的视图生......
  • Overview of Machine Learning Methods for Genome-Wide Association Analysis
    OverviewofMachineLearningMethodsforGenome-WideAssociationAnalysisBIBE2021:TheFifthInternationalConferenceonBiologicalInformationandBiomedicalEngineeringOverviewofMachineLearningMethodsforGenome-WideAssociationAnalysisAutho......
  • Drug response prediction using graph representation learning and Laplacian featu
    DrugresponsepredictionusinggraphrepresentationlearningandLaplacianfeatureselectionMinzhuXie 1 2, XiaowenLei 3, JianchenZhong 3, JianxingOuyang 3, GuijingLi 3Affiliations expandPMID: 36494630 PMCID: PMC9733001 DOI: ......
  • DeepWalk Online Learning of Social Representations
    目录概符号说明DeepWalk代码PerozziB.,AI-RfouR.andSkienaS.DeepWalk:Onlinelearningofsocialrepresentations.KDD,2014.概经典的graphembedding学习方法.符号说明\(V\),nodeset;\(E\),edgeset;\(G=(V,E)\),图;DeepWalkDeepWalk的思想就......
  • The second day learning summary
    1.什么是接口测试?接口测试是测试系统组件间接口的一种测试。接口测试主要用于外部系统与系统之间以及内部各个子系统之间的交互点,定义特定的交互点,然后通过这些交互点来,通过一些特殊的规则也就是协议,来进行数据之间的交互。测试的重点是要检查数据的交换,传递和控制管理过程,以及系......
  • Online Learning
    OnlineLearning1.网上学习比较普遍2.产生这种现象的原因3.这种现象可能带来的影响参考范文:OnlineLearningPerhapsthereissomethingyoudon'tknowhowtodoTTnthepast,youmightturntoafriendorarelative,attendanightclassorgotothelocallibr......
  • 2023ICCV_FSI Frequency and Spatial Interactive Learning for Image Restoration in
     三.Network 1.  2.FLB:没看懂是怎么分离的水平和竖直方向 3.SLB:每一层保留一半的通道特征用于细化,其余的在特征重构后输出(没看懂)。Multi-distillationNetwork 超分辨网络的Multi-distillationNetwork(2019ACMMM_LightweightImageSuper-ResolutionwithIn......
  • The importance of learning basic skills
    参考范文1TheImportanceofReadingLiteratureLiteratureisacknowledgedasthemostpreciousproductofhumancivilizationandwisdom,especiallybyourteachers.Sotheyalwaysasktheirstudentstoreadasmanyasliteraryworks.Justasthedrawi......
  • Generative-Contrastive Graph Learning for Recommendation论文阅读笔记
    Abstract首先介绍了一下GCL的一些缺点,GCL是通过数据增强来构造对比视图,然后通过最大化对比视图之间的互信息来提供自监督信号。但是目前的数据增强技术都有着一定的缺点结构增强随机退出节点或边,容易破坏用户项目的内在本质特征增强对每个节点施加相同的尺度噪声增强,忽略的节......
  • LncDLSM: Identification of Long Non-coding RNAs with Deep Learning-based Sequenc
    关键词:作者:期刊:IEEEJournalofBiomedicalandHealthInformatics年份:2023论文原文:https://doi.org/10.1101/2022.09.02.506180主要内容1问题:长链非编码RNA(LncRNAs)在调控基因表达和其他生物过程中起着至关重要的作用。区分lncRNA和蛋白质编码转录本(PCTs)有助于研究人员深......