小论文用到的文件资料、参考文献等整理

时间：2023-07-17 21:23:38浏览次数：50

标签：E8% 策略 E5% 用到论文 E6% E7% 参考文献 policy

1. 连续动作空间VS离散动作空间

【离散动作空间】Q表格、SARSA、on-policy以及off-policy、Q-learing
https://blog.csdn.net/zbp_12138/article/details/106837306
【连续动作空间】
用神经网络的方法来求解
 https://blog.csdn.net/zbp_12138/article/details/106854557

2. on-policy与off-policy对比

on-policy优化的实际上是它实际执行的策略,用下一步一定会执行的动作action来优化Q表格,所以on-policy其实只存在一种策略 ,用同一种策略去选取和优化

off-policy实际上有两种不同的策略,期望得到最佳的目标策略和大胆探索的行为策略

off-policy通过行为策略,把所有可能的策略输入目标策略,这里输入给目标策略的数据里不需要at + 1
,因为目标策略不需要管下一步要往哪里走,它只选择收益最大的策略行为策略就像是一位天不怕地不怕的战士,可以在环境里面尝试所有的动作,并将得到的经验交给目标策略学习。

所以目标策略就像是一个在后方指挥的军师,它可以根据经验学习到最优的策略

3. DDPG相关论文实现

DDQN+DDPG）Deep_Reinforcement_Learning_for_Computation_and_Communication_Resource_Allocation_in_Multiaccess_MEC_Assisted_Railway_IoT_Networks.

file:///D:/01%20%E6%96%87%E7%8C%AE%E5%9D%9A%E6%9E%9C%E4%BA%91%E5%90%8C%E6%AD%A5/%E5%BC%80%E9%A2%98%E6%96%B9%E5%90%91_%E8%AE%BA%E6%96%87%E7%A0%94%E8%AF%BB_%E8%B0%83%E7%A0%94/00%20%E6%9A%82%E5%AE%9A%E6%96%B9%E5%90%91_6G+%E7%A9%BA%E5%A4%A9%E5%9C%B0%E4%B8%80%E4%BD%93%E5%8C%96%E7%BD%91%E7%BB%9C+%E7%94%B5%E5%8A%9B%E7%89%A9%E8%81%94%E7%BD%91(%E4%B8%BB%E8%A6%81%E9%83%A8%E5%88%86)/03%E4%BB%BB%E5%8A%A1%E5%8D%B8%E8%BD%BD%E7%9B%B8%E5%85%B3/DDPG(%E6%B7%B1%E5%BA%A6%E7%A1%AE%E5%AE%9A%E6%80%A7%E6%A2%AF%E5%BA%A6)+%E5%8D%B8%E8%BD%BD+DRL/%EF%BC%88DDQN+DDPG%EF%BC%89Deep_Reinforcement_Learning_for_Computation_and_Communication_Resource_Allocation_in_Multiaccess_MEC_Assisted_Railway_IoT_Networks%20zh.pdf

标签：E8%,策略,E5%,用到,论文,E6%,E7%,参考文献,policy
From： https://www.cnblogs.com/joiln/p/17168484.html

cvxpylayer使用（基于Compressive Structured Light for Recovering Inhomogeneous Part
论文中Gini系数的计算defcal_sparsity(x):#print(x.shape)n=x.shape[0]#x=x.reshape(x.shape.prob)x=x.abs()x,_=x.sort()#print(x)Gx=0forkinrange(n):Gx+=x[k]*(n-k+0.5)if(x.sum()==0):Gx=0else......
[论文速览] A Closer Look at Self-supervised Lightweight Vision Transformers
Pretitle:ACloserLookatSelf-supervisedLightweightVisionTransformersaccepted:ICML2023paper:https://arxiv.org/abs/2205.14443code:https://github.com/wangsr126/mae-literef:https://mp.weixin.qq.com/s/7FiDLYBZiAX-xkW-dZBU9Q关键词：lightweght,ViT......
论文日记四：Transformer(论文解读+NLP、CV项目实战)
导读重磅模型transformer,在2017年发布，但就今天来说产生的影响在各个领域包括NLP、CV这些都是巨大的！Paper《AttentionIsAllYouNeed》,作者是在机器翻译这个领域进行的实验，当然我们今天知道它被应用到了很多地方，作者也在结论部分说它将被应用到图像、音频、视频等任务中，本文......
击败Stable Diffusion XL，商汤绘画大模型出手即大作，论文公开、免费试玩
前言商汤大模型团队提出的文生图大模型RAPHAEL，可以生成具有高度艺术风格或者摄影风格的图片，速度极快。本文转载自机器之心仅用于学术分享，若侵权请联系删除欢迎关注公众号CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。CV各大方向专栏与各......
110.成员初始化列表会在什么时候用到？它的调用过程是什么？
110.成员初始化列表会在什么时候用到？它的调用过程是什么？1.当初始化一个引用成员变量时；structMyClass{constintmya;int&myb;MyClass(inta,int&b):mya(a),myb(b){}~MyClass(){}};2.当初始化一个非静态的常量成员时；inta=1;classMyClass{......
机器翻译 | Prompting Large Language Model for Machine Translation: A Case Study
题目：机器翻译的提示大语言模型:一个案例研究摘要对提示的研究表明，在很少甚至没有监督训练的情况下，提示在许多任务中表现出色。然而，文献中对机器翻译的提示还没有充分的研究。本文对翻译提示策略进行了系统的研究，考察了提示模板和示例选择的各种因素，填补了这一空白。我们进一步......
LEA: Improving Sentence Similarity Robustness to Typos Using Lexical Attention B
LEA:ImprovingSentenceSimilarityRobustnesstoTyposUsingLexicalAttentionBias论文阅读KDD2023原文地址Introduction文本噪声，如笔误(Typos),拼写错误(Misspelling)和缩写(abbreviations),会影响基于Transformer的模型.主要表现在两个方面:Transformer的架......
[论文速览] Hard Patches Mining for Masked Image Modeling
Pretitle:HardPatchesMiningforMaskedImageModelingaccepted:CVPR2023paper:https://arxiv.org/abs/2304.05919code:https://github.com/Haochen-Wang409/HPMref:CVPR2023|挖掘困难样本的MIM框架:HardPatchesMiningforMaskedImageModeling关键词：MIM......
论文阅读 | Penetration Testing Active Reconnaissance Phase – Optimized Port Sca
我们可以使用TCP端口扫描对物联网设备进行分类吗？https://ieeexplore.ieee.org/document/8913346 1介绍在[10]中，我们根据统计属性（如活动周期，端口号，信令模式和密码套件）来表征物联网流量。此外，提出了一个多阶段机器学习模型，使用从配备特殊硬件加速（例如NetFlow）的网络交换机......
论文日记三：ResNet
导读ResNet在ILSVRC2015竞赛中大放异彩，其核心模块residualblock使得卷积网络模型深度提高一个数量级，到达上百、上千层。在今天cv领域我们也经常用到它或它的变种，paper《DeepResidualLearningforImageRecognition》论文中第一张图点出了论文要解决的问题：左边是训练误差，......

小论文用到的文件资料、参考文献等整理

1. 连续动作空间VS离散动作空间

2. on-policy与off-policy对比

3. DDPG相关论文实现

4. MADDPG相关资料

相关文章

赞助商

阅读排行