详解DROO论文中的order-preserving quantization method(保序量化方法)

时间：2024-03-29 17:03:07浏览次数：51

标签：offloading relaxed preserving 决策生成卸载 action quantization method

一、论文概述

1.原文GitHub链接

Deep Reinforcement Learning for Online Computation Offloading in Wireless Powered Mobile-Edge Computing Networks

2.原文大意

提出了一种深度强化学习方法解决了边缘计算任务卸载决策和资源分配问题。
整体分为两大部分：其中第一部分是卸载动作的生成，例如有3个设备，则卸载策略可表示为[1,0,1](均为二进制数据，即0或1)，即第一台设备和第三台设备将计算任务卸载到边缘服务器执行，第二台设备自身执行计算任务；第二部分是卸载策略的更新，根据经验回放缓冲池中的数据更新网络参数，从而优化卸载决策（细节不再赘述，不是本文重点）。

二、保序量化方法

1.概述

此方法应用在上述提到的卸载动作生成部分。
第一部分卸载动作生成的步骤是：首先使用DNN生成一个一维向量，一维向量的每个值范围在0~1之间，原文称其为relaxed offloading action，注意此时就要用到保序量化方法了，由于本文采用的是深度强化学习的思想，故而我们需要自己探索出几种可能的卸载决策，由于DNN只能生成一种，所以接下来我们就要根据刚刚DNN生成的relaxed offloading action再生成几种卸载决策作为强化学习中的action来训练。
在上述根据relaxed offloading action生成k种卸载决策时就要用到本文的重点——保序量化方法。

2.计算过程

我们假设relaxed offloading action为[0.2,0.4,0.7,0.9]，将要生成的卸载决策个数K = 4。
根据下列步骤进行生成：
（1）第一个卸载决策x1 根据上述的relaxed offloading action直接计算，当对应位置的值大于0.5则为1，反之则为0。那么第一个卸载决策x1为[0,0,1,1]。
（2）剩余的三个卸载决策则稍微复杂一些，我们首先要计算relaxed offloading action其中值与0.5的差值的绝对值，然后将其进行由小到大排序，得到[0.4,0.7,0.2,0.9]。
（3）接下来的三个卸载决策则根据（2）中计算的结果计算。具体的：第二个卸载卸载决策则依赖[0.4,0.7,0.2,0.9]中的第一个数，第三个卸载决策依赖于第二个数，以此类推，则最多可以生成N个卸载决策，但到底具体怎么算出来的呢，有下面四种情况：

简单来说，就是relaxed offloading action对应位置的上的值和（2）中算出来的某一个数进行比较（生成第k个卸载决策的时候就和第k - 1个数进行比较），最后可得剩余三个卸载决策为：x2 = [0, 1, 1, 1], x3 = [0, 0, 0, 1], x4 = [1, 1, 1, 1]。（原文在此部分的公式详解在4.2后半部分中）

三、总结

保序量化方法和KNN算法类似，都是根据一条数据生成k个相似数据，但KNN是生成给定数据附近的k组数据，保序量化方法是生成具有更大距离的k组数据，更有利于强化学习算法的实现，论文原作者也对这两种方法进行了对比试验，结果验证了这一猜想。

参考文献

[1] L. Huang, S. Bi and Y. -J. A. Zhang, “Deep Reinforcement Learning for Online Computation Offloading in Wireless Powered Mobile-Edge Computing Networks,” in IEEE Transactions on Mobile Computing, vol. 19, no. 11, pp. 2581-2593, 1 Nov. 2020, doi: 10.1109/TMC.2019.2928811.
keywords: {Wireless communication;Task analysis;Wireless sensor networks;Resource management;Fading channels;Computational complexity;Reinforcement learning;Mobile-edge computing;wireless power transfer;reinforcement learning;resource allocation},

标签：offloading,relaxed,preserving,决策,生成,卸载,action,quantization,method
From： https://blog.csdn.net/lingdulunkuo/article/details/137148582

.NET Emit 入门教程：第五部分：动态生成方法（MethodBuilder 与 DynamicMethod）
前言：当我们涉及到在运行时生成和定义方法时，便需要使用到C#中的两个关键类之一：MethodBuilder 或 DynamicMethod。这两者都属于反射（Reflection.Emit）的一部分，允许我们以动态的方式创建方法。两者各有侧重，使用方式大体相同，本篇文章我们先介绍MethodBuilder，再介绍DynamicMethod，......
c++解耦：Factory Method
讨论C++语言中如何将通用逻辑与使用到的频繁变化的具体类型解耦。假设存在以下设计：/*==================================================================*/#include<iostream>classCore{public:~Core(){}public:voidsolve(){std::cout<<"Cor......
CanvasRenderingContext2D: setLineDash() method格式说明
定义setLineDash(segments)segments一个数组，用于指定交替绘制直线和间隙的距离（以坐标空间单位表示）。如果数组中元素的个数是奇数，数组中的元素会被复制并连接起来。例如，[5,15,25]将变成[5,15,25,5,15,25]。如果数组为空，破折号列表将被清除，行描边将恢复为实线。例子......
通过FactoryMethod创建对象示例
factory-bean：指定使用哪个工程实例，实例工厂，非静态方法创建beanfactory-method：指定使用哪个工厂实例的方法。静态工厂，静态方法创建bean判断的依据是创建bean的方法是否存在static修饰符。具体code如下：packagecom.gientech.factoryMethod;publicclassPerson{pr......
Practical Secure Aggregation for Privacy-Preserving Machine Learning
用于隐私保护机器学习的实用安全聚合（CCS17'(CCFA)）摘要我们设计了一种新颖的、通信高效的、抗故障的协议，用于高维数据的安全聚合。我们的协议允许服务器以安全的方式（即不学习每个用户的个人贡献）计算来自移动设备的大型用户持有数据向量的总和，并且可以在联邦学习设置中用于聚合......
python 面向对象（三）magic methods
magicmethods就是双下划线方法AsaPythondeveloperwhowantstoharnessthepowerofobject-orientedprogramming,you’lllovetolearnhowtocustomizeyourclassesusingspecialmethods,alsoknownasmagicmethodsordundermethods.Aspecialmethodisa......
Adjoint State Method
Adjointstatemethod伴随状态法【Adjointstatemethod】是用于求解优化问题的算法，可以快速得到目标泛函对自由函数的梯度，从而可以使用Newton法等迭代算法求解优化问题。Date:2024/03/17考虑如下优化问题：\[\begin{aligned}\min_v&\quadJ(u,v)\\\text{s.t.}&\qu......
Vector Quantization
VectorQuantizationQuantization(量化)Definition:aprocessofrepresentingalarge–possiblyinfinite–setofvalueswithamuchsmallerset.WidelyUsedinLossyCompressionRepresentcertainimagecomponentswithfewerbits(compression)Withunavoidab......
书籍推荐|低功耗设计必备手册！Low Power Methodology Manual For System-on-Chip Desig
《LowPowerMethodologyManualForSystem-on-ChipDesign》是ic设计领域中关于低功耗设计的著名书籍，该书是由Synopsys和ARM中的专业人员联合编写，新思科技(Synopsys)是世界3大EDA巨头之一，是全球领先的芯片设计、验证和软件安全与质量解决方案提供商，ARM也是全球知名的cpu设计公司......
A visual method to detect meat adulteration by recombinase polymerase amplifica
创新点：基于重组酶聚合酶扩增（RPA）和侧向流试纸（LFD）的视觉方法，用于鉴定牛肉（Bostaurus）、绵羊（Ovisaries）、猪肉（Susscrofa）、鸭肉（Anasplatyrhynchos）和鸡肉（Gallusgallus）的动物来源。传统的方法需要操作员具备相当的技能、昂贵的仪器，并且无法提供快速的移动式现场检测系统来检测肉制品的......