首页 > 其他分享 >小论文用到的文件资料、参考文献等整理

小论文用到的文件资料、参考文献等整理

时间:2023-07-17 21:23:38浏览次数:50  
标签:E8% 策略 E5% 用到 论文 E6% E7% 参考文献 policy

1. 连续动作空间VS离散动作空间

【离散动作空间】Q表格、SARSA、on-policy以及off-policy、Q-learing
https://blog.csdn.net/zbp_12138/article/details/106837306
【连续动作空间】
用神经网络的方法来求解
https://blog.csdn.net/zbp_12138/article/details/106854557

2. on-policy与off-policy对比

on-policy优化的实际上是它实际执行的策略,用下一步一定会执行的动作action来优化Q表格,所以on-policy其实只存在一种策略 ,用同一种策略去选取和优化

off-policy实际上有两种不同的策略,期望得到最佳的目标策略和大胆探索的行为策略

off-policy通过行为策略,把所有可能的策略输入目标策略,这里输入给目标策略的数据里不需要at + 1​
,因为目标策略不需要管下一步要往哪里走,它只选择收益最大的策略行为策略就像是一位天不怕地不怕的战士,可以在环境里面尝试所有的动作,并将得到的经验交给目标策略学习。

所以目标策略就像是一个在后方指挥的军师,它可以根据经验学习到最优的策略

3. DDPG相关论文实现

DDQN+DDPG)Deep_Reinforcement_Learning_for_Computation_and_Communication_Resource_Allocation_in_Multiaccess_MEC_Assisted_Railway_IoT_Networks.

file:///D:/01%20%E6%96%87%E7%8C%AE%E5%9D%9A%E6%9E%9C%E4%BA%91%E5%90%8C%E6%AD%A5/%E5%BC%80%E9%A2%98%E6%96%B9%E5%90%91_%E8%AE%BA%E6%96%87%E7%A0%94%E8%AF%BB_%E8%B0%83%E7%A0%94/00%20%E6%9A%82%E5%AE%9A%E6%96%B9%E5%90%91_6G+%E7%A9%BA%E5%A4%A9%E5%9C%B0%E4%B8%80%E4%BD%93%E5%8C%96%E7%BD%91%E7%BB%9C+%E7%94%B5%E5%8A%9B%E7%89%A9%E8%81%94%E7%BD%91(%E4%B8%BB%E8%A6%81%E9%83%A8%E5%88%86)/03%E4%BB%BB%E5%8A%A1%E5%8D%B8%E8%BD%BD%E7%9B%B8%E5%85%B3/DDPG(%E6%B7%B1%E5%BA%A6%E7%A1%AE%E5%AE%9A%E6%80%A7%E6%A2%AF%E5%BA%A6)+%E5%8D%B8%E8%BD%BD+DRL/%EF%BC%88DDQN+DDPG%EF%BC%89Deep_Reinforcement_Learning_for_Computation_and_Communication_Resource_Allocation_in_Multiaccess_MEC_Assisted_Railway_IoT_Networks%20zh.pdf

4. MADDPG相关资料

https://zhengbopei.blog.csdn.net/article/details/107440531?spm=1001.2014.3001.5502

标签:E8%,策略,E5%,用到,论文,E6%,E7%,参考文献,policy
From: https://www.cnblogs.com/joiln/p/17168484.html

相关文章

  • cvxpylayer使用(基于Compressive Structured Light for Recovering Inhomogeneous Part
    论文中Gini系数的计算defcal_sparsity(x):#print(x.shape)n=x.shape[0]#x=x.reshape(x.shape.prob)x=x.abs()x,_=x.sort()#print(x)Gx=0forkinrange(n):Gx+=x[k]*(n-k+0.5)if(x.sum()==0):Gx=0else......
  • [论文速览] A Closer Look at Self-supervised Lightweight Vision Transformers
    Pretitle:ACloserLookatSelf-supervisedLightweightVisionTransformersaccepted:ICML2023paper:https://arxiv.org/abs/2205.14443code:https://github.com/wangsr126/mae-literef:https://mp.weixin.qq.com/s/7FiDLYBZiAX-xkW-dZBU9Q关键词:lightweght,ViT......
  • 论文日记四:Transformer(论文解读+NLP、CV项目实战)
    导读重磅模型transformer,在2017年发布,但就今天来说产生的影响在各个领域包括NLP、CV这些都是巨大的!Paper《AttentionIsAllYouNeed》,作者是在机器翻译这个领域进行的实验,当然我们今天知道它被应用到了很多地方,作者也在结论部分说它将被应用到图像、音频、视频等任务中,本文......
  • 击败Stable Diffusion XL,商汤绘画大模型出手即大作,论文公开、免费试玩
    前言 商汤大模型团队提出的文生图大模型RAPHAEL,可以生成具有高度艺术风格或者摄影风格的图片,速度极快。本文转载自机器之心仅用于学术分享,若侵权请联系删除欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。CV各大方向专栏与各......
  • 110.成员初始化列表会在什么时候用到?它的调用过程是什么?
    110.成员初始化列表会在什么时候用到?它的调用过程是什么?1.当初始化一个引用成员变量时;structMyClass{constintmya;int&myb;MyClass(inta,int&b):mya(a),myb(b){}~MyClass(){}};2.当初始化一个非静态的常量成员时;inta=1;classMyClass{......
  • 机器翻译 | Prompting Large Language Model for Machine Translation: A Case Study
    题目:机器翻译的提示大语言模型:一个案例研究摘要对提示的研究表明,在很少甚至没有监督训练的情况下,提示在许多任务中表现出色。然而,文献中对机器翻译的提示还没有充分的研究。本文对翻译提示策略进行了系统的研究,考察了提示模板和示例选择的各种因素,填补了这一空白。我们进一步......
  • LEA: Improving Sentence Similarity Robustness to Typos Using Lexical Attention B
    LEA:ImprovingSentenceSimilarityRobustnesstoTyposUsingLexicalAttentionBias论文阅读KDD2023原文地址Introduction文本噪声,如笔误(Typos),拼写错误(Misspelling)和缩写(abbreviations),会影响基于Transformer的模型.主要表现在两个方面:Transformer的架......
  • [论文速览] Hard Patches Mining for Masked Image Modeling
    Pretitle:HardPatchesMiningforMaskedImageModelingaccepted:CVPR2023paper:https://arxiv.org/abs/2304.05919code:https://github.com/Haochen-Wang409/HPMref:CVPR2023|挖掘困难样本的MIM框架:HardPatchesMiningforMaskedImageModeling关键词:MIM......
  • 论文阅读 | Penetration Testing Active Reconnaissance Phase – Optimized Port Sca
    我们可以使用TCP端口扫描对物联网设备进行分类吗?https://ieeexplore.ieee.org/document/8913346 1介绍在[10]中,我们根据统计属性(如活动周期,端口号,信令模式和密码套件)来表征物联网流量。此外,提出了一个多阶段机器学习模型,使用从配备特殊硬件加速(例如NetFlow)的网络交换机......
  • 论文日记三:ResNet
    导读ResNet在ILSVRC2015竞赛中大放异彩,其核心模块residualblock使得卷积网络模型深度提高一个数量级,到达上百、上千层。在今天cv领域我们也经常用到它或它的变种,paper《DeepResidualLearningforImageRecognition》论文中第一张图点出了论文要解决的问题:左边是训练误差,......