首页 > 其他分享 >DisCor: Corrective Feedback in Reinforcement Learning via Distribution Correction

DisCor: Corrective Feedback in Reinforcement Learning via Distribution Correction

时间:2023-05-13 22:55:35浏览次数:40  
标签:误差 via Feedback Corrective DisCor Reinforcement Learning feedback


发表时间:2020 (NeurIPS 2020)
文章要点:这篇文章想说,对于监督学习来说就算刚开始训的不准,后面的新数据也会给你正确的feedback,这样的话随着训练进行,总会修正之前的错误。但是对于像Q-learning这样的强化学习任务来说,不存在这样的feedback,因为更新是通过bootstrapping的方式更新的,而bootstrapping来自于自身不准确的网络,这个方式会使得误差累积,然后越来越差。作者提出了一个新的experience replay的算法DisCor,通过估计target value的准确性来reweight采样,然后更新Q。
文章写了很多用来近似估计value误差的分析,最后加权的公式为

其中

\(\tau\)是常数。整个流程如下

可以看到,这里面还有一个error model用来迭代计算预测误差。最终效果还是有一定提升的


总结:感觉写了很多有的没的理论,也不知道在写啥。出发点是make sense的,就是不知道各种估计最后到底还有没有用。
疑问:这个误差这么算真的准吗,不太看得懂。感觉还要再看看才行。

标签:误差,via,Feedback,Corrective,DisCor,Reinforcement,Learning,feedback
From: https://www.cnblogs.com/initial-h/p/17398426.html

相关文章

  • SEDCN:Structure enhanced deep clustering network via a weighted neighbourhood a
    论文阅读08-SEDCN:Structureenhanceddeepclusteringnetworkviaaweightedneighbourhoodauto-encoder论文信息论文地址:Structureenhanceddeepclusteringnetworkviaaweightedneighbourhoodauto-encoder-ScienceDirect代码地址:m22453/sedcn-nn(github.com)1.......
  • allegro16.6设置使VIA打在PAD上不提示DRC
     allegro中任何一个DRC都可以通过show这个DRC的信息来解决问题,从DRC中会显示这个报错的原因已经是哪一类型的详细错误!这里是以VIA打在PAD上不提示DRC举例1、Setup->Constraints->ConstraintManager->在弹出的页面:Analyze->:AnalysisModes->PhysicalModes->Pad-paddirectc......
  • Personalized Top-N Sequential Recommendation via Convolutional Sequence Embeddin
    目录概符号说明Caser代码TangJ.andWangK.Personalizedtop-nsequentialrecommendationviaconvolutionalsequenceembedding.WSDM,2018.概序列推荐的经典之作,将卷积用在序列推荐之上.符号说明\(\mathcal{U}=\{u_1,u_2,\cdots,u_{|\mathcal{U}|}\}\),us......
  • Controllable Guarantees for Fair Outcomes via Contrastive Information Estimation
    目录概符合说明Motivation优化目标代码GuptaU.,FerberA.M.,DilkinaB.andSteegG.V.Controllableguaranteesforfairoutcomesviacontrastiveinformationestimation.AAAI,2021.概本文提出了一种类似InformationBottleneck的方式用于保证两个群体的fairn......
  • Teachable Reinforcement Learning via Advice Distillation
    发表时间:2021(NeurIPS2021)文章要点:这篇文章提出了一种学习policy的监督范式,大概思路就是先结构化advice,然后先学习解释advice,再从advice中学policy。这个advice来自于外部的teacher,相当于一种human-in-the-loopdecisionmaking。另外这个advice不单单是reward的大小,可能具有......
  • cpp multi thread sync via std::atomic<bool>
    #include<atomic>#include<chrono>#include<cmath>#include<condition_variable>#include<ctime>#include<fstream>#include<functional>#include<future>#include<iomanip>#include<iostream&g......
  • 3、题目:Feedback in concept development: Comparing design disciplines
    期刊信息(1)作者:Yilmaz,Seda.(2)期刊:DesignStudies,2016,45:137-158(3)DOI:10.1016/j.destud.2015.12.008(4)ISSN:0142-694X(5)IF:3.853(Q2)研究背景设计反馈是促进学生设计进步的必要教学工具,但很少有研究关注教师的反馈是什么样子的,特别是在跨设计学科方面研......
  • 10 Abbreviations You Should Know
    10AbbreviationsYouShouldKnowASAPassoonaspossibleRSVPpleaseresponselaterRIPrestinpeacee.g.takinganexamplei.e.inotherwordshttps://www.bilibili.com/video/BV1uW41187D4/......
  • 阅读文献《DCRNet:Dilated Convolution based CSI Feedback Compression for Massive M
    这篇文章的作者是广州大学的范立生老师和他的学生汤舜璞,于2022年10月发表在IEEETRANSACTIONSONVEHICULARTECHNOLOGY。文献提出了一种基于空洞卷积(DilatedConvolution)的CSI反馈网络,即空洞信道重建网络(DilatedChannelReconstructionNetwork,DCRNet)。还设计了编码器和解......
  • User installations are disabled via policy on the machine. 安装python
    Userinstallationsaredisabledviapolicyonthemachine. 解决办法1、在运行里输入gpedit.msc;(grouppolicy)组策略2、计算机配置管理>>管理模板>>windows组件>>windowsInstaller>>禁止用户安装;3、打开它禁用此项就可以了。    ......