DisCor: Corrective Feedback in Reinforcement Learning via Distribution Correction

时间：2023-05-13 22:55:35浏览次数：48

标签：误差 via Feedback Corrective DisCor Reinforcement Learning feedback

发表时间：2020 (NeurIPS 2020)
文章要点：这篇文章想说，对于监督学习来说就算刚开始训的不准，后面的新数据也会给你正确的feedback，这样的话随着训练进行，总会修正之前的错误。但是对于像Q-learning这样的强化学习任务来说，不存在这样的feedback，因为更新是通过bootstrapping的方式更新的，而bootstrapping来自于自身不准确的网络，这个方式会使得误差累积，然后越来越差。作者提出了一个新的experience replay的算法DisCor，通过估计target value的准确性来reweight采样，然后更新Q。
文章写了很多用来近似估计value误差的分析，最后加权的公式为

其中

\(\tau\)是常数。整个流程如下

可以看到，这里面还有一个error model用来迭代计算预测误差。最终效果还是有一定提升的

总结：感觉写了很多有的没的理论，也不知道在写啥。出发点是make sense的，就是不知道各种估计最后到底还有没有用。
疑问：这个误差这么算真的准吗，不太看得懂。感觉还要再看看才行。

标签：误差,via,Feedback,Corrective,DisCor,Reinforcement,Learning,feedback
From： https://www.cnblogs.com/initial-h/p/17398426.html

SEDCN:Structure enhanced deep clustering network via a weighted neighbourhood a
论文阅读08-SEDCN:Structureenhanceddeepclusteringnetworkviaaweightedneighbourhoodauto-encoder论文信息论文地址：Structureenhanceddeepclusteringnetworkviaaweightedneighbourhoodauto-encoder-ScienceDirect代码地址：m22453/sedcn-nn(github.com)1.......
allegro16.6设置使VIA打在PAD上不提示DRC
allegro中任何一个DRC都可以通过show这个DRC的信息来解决问题，从DRC中会显示这个报错的原因已经是哪一类型的详细错误！这里是以VIA打在PAD上不提示DRC举例1、Setup->Constraints->ConstraintManager->在弹出的页面:Analyze->:AnalysisModes->PhysicalModes->Pad-paddirectc......
Personalized Top-N Sequential Recommendation via Convolutional Sequence Embeddin
目录概符号说明Caser代码TangJ.andWangK.Personalizedtop-nsequentialrecommendationviaconvolutionalsequenceembedding.WSDM,2018.概序列推荐的经典之作,将卷积用在序列推荐之上.符号说明\(\mathcal{U}=\{u_1,u_2,\cdots,u_{|\mathcal{U}|}\}\),us......
Controllable Guarantees for Fair Outcomes via Contrastive Information Estimation
目录概符合说明Motivation优化目标代码GuptaU.,FerberA.M.,DilkinaB.andSteegG.V.Controllableguaranteesforfairoutcomesviacontrastiveinformationestimation.AAAI,2021.概本文提出了一种类似InformationBottleneck的方式用于保证两个群体的fairn......
Teachable Reinforcement Learning via Advice Distillation
发表时间：2021(NeurIPS2021)文章要点：这篇文章提出了一种学习policy的监督范式，大概思路就是先结构化advice，然后先学习解释advice，再从advice中学policy。这个advice来自于外部的teacher，相当于一种human-in-the-loopdecisionmaking。另外这个advice不单单是reward的大小，可能具有......
cpp multi thread sync via std::atomic<bool>
#include<atomic>#include<chrono>#include<cmath>#include<condition_variable>#include<ctime>#include<fstream>#include<functional>#include<future>#include<iomanip>#include<iostream&g......
3、题目：Feedback in concept development: Comparing design disciplines
期刊信息（1）作者：Yilmaz,Seda.（2）期刊：DesignStudies,2016,45:137-158（3）DOI：10.1016/j.destud.2015.12.008（4）ISSN：0142-694X（5）IF：3.853(Q2)研究背景设计反馈是促进学生设计进步的必要教学工具，但很少有研究关注教师的反馈是什么样子的，特别是在跨设计学科方面研......
10 Abbreviations You Should Know
10AbbreviationsYouShouldKnowASAPassoonaspossibleRSVPpleaseresponselaterRIPrestinpeacee.g.takinganexamplei.e.inotherwordshttps://www.bilibili.com/video/BV1uW41187D4/......
阅读文献《DCRNet：Dilated Convolution based CSI Feedback Compression for Massive M
这篇文章的作者是广州大学的范立生老师和他的学生汤舜璞，于2022年10月发表在IEEETRANSACTIONSONVEHICULARTECHNOLOGY。文献提出了一种基于空洞卷积（DilatedConvolution）的CSI反馈网络，即空洞信道重建网络(DilatedChannelReconstructionNetwork,DCRNet)。还设计了编码器和解......
User installations are disabled via policy on the machine. 安装python
Userinstallationsaredisabledviapolicyonthemachine. 解决办法1、在运行里输入gpedit.msc;（grouppolicy)组策略2、计算机配置管理>>管理模板>>windows组件>>windowsInstaller>>禁止用户安装;3、打开它禁用此项就可以了。 ......

DisCor: Corrective Feedback in Reinforcement Learning via Distribution Correction

相关文章

赞助商

阅读排行