首页 > 其他分享 >优化的层次级联处理-嵌入式深度学习2

优化的层次级联处理-嵌入式深度学习2

时间:2024-03-29 17:36:56浏览次数:21  
标签:传递 级联 层次 分类 样本 POR 嵌入式 分类器 召回

嵌入式深度学习-优化的层次级联处理

本系列博客主要以Bert Moons《Embedded Deep Learning》翻译而成

Goetschalckx K, Moons B, Lauwereins S, Andraud M, Verhelst M (2018) Optimized hierarchical cascaded processing. IEEE J Emerging Sel Top Circuits Syst. https://doi.org/10.1109/JETCAS.2018.2839347

该系统的示意图见图2.1。多个分层阶段被级联并且可以在早期潜在地过滤数据,子任务的复杂性和成本都会在分层链的下方进一步增加。在语音识别中,“沉默”、“Alexa”或“你”等常见类别可以使用廉价分类器早期识别,从而可能防止最终昂贵的阶段开启。因此,即使后期阶段更昂贵,也由于早期阶段的判别功能而不会被过度使用。该提议的体系结构结合了级联和基于树的拓扑结构的优点。与线性级联方法一样,在最后一个或多个阶段之前消除了大部分负样本,从而在整个系统中节省了功率。与基于树的方法一样,支持多类问题。然而,早期错误检测仍然可以在后续阶段中被纠正。这项工作提供了一个框架,用于在这些分层级联中最小化总体能量消耗或计算成本,同时最大化或保持系统级别的精度。

图2.1 通用分层级联系统的示意图

图2.1 通用分层级联系统的示意图。

该框架的主要贡献有:

  • 将唤醒机制的系统推广为层次级联分类器:使用一个越来越复杂的分类器序列建立一个多分类系统
  • 提出一个理论屋顶线模型(roofline model)以评估性能。
  • 推导了通用分层模型的一般折中方法。讨论输入数据统计规律、使用的层级数目以及单层级性能等设计要点。

对两级唤醒系统进行泛化

层次级联系统通过构建针对系统能效进行优化的功能层级结构在不影响性能的情况下最小化总的计算开销。如果前面的层级开销很低,同时能处理大部分数据,让它们不经过后面开销较高的层级,并且还不会引入过多的不可恢复的错误,则这种层级结构就会比单层系统更高效。

如图2.2所示,整个系统被划分为N个层级。假定最终任务是处理一个复杂的多类别识别任务,例如包含100张人脸的图像识别任务。第一个任务一般来说是一个二值的唤醒检测器。典型的层级结构的最开始是一个简单的二值分类器,将如背景图像或者声学噪声等明显的负样本移除。如果一个输入被判定为正样本(即传递类,pass-on-class,poc),表明图像有意义,那么下一级就会被激活并对输入进行进一步的识别。下一层级会执行更为复杂的分类任务,开销也因更高的复杂度和更好的分类性能以远超线性的趋势增长。

传递率(pass-on-rate,\(POR_{n,i}\))是在第n个阶段中,属于类别i的实例被传递到下一个分类器的概率。它表示在该阶段中,被正确分类为类别i的实例将继续传递给下一个分类器的概率。 $$POR_{n,i}=P(\hat{y}_n=poc|y=i)$$
式中,\(poc\)是传递类(pass-on-class)的缩写。

图2.2 一个具有N层的I分类基本层次级联分类器

图2.2 一个N层、完成I分类的基本层次级联分类器。MC代表误分类(Misclassification),混淆矩阵已行归一化。

层次化指标

在分层级联系统中,每个阶段都有一个相关的成本精确度召回率。这些指标可以用来评估系统性能和效率。

召回率

召回率(Recall):也称为灵敏度(Sensitivity)或真阳性率(True Positive Rate)。给定类别\(i\)的实例被正确分类的概率可以通过召回率\(R_{n,i}\)来表示:

\[R_{n,i}=P(\hat{y}_n=i|y=i) \]

在优化的过程中,\(POR_{n,i}\) 和 \(R_{n,i}\) 都是设计中可以选择的变量,因为如果一个输入样本在第n层被错分为传递类,那么它仍然有机会在n+1到N层中测到正确的分类结果;如果一个样本在给定阶段被错误地分类为另一个类别(非传递类),那么后面的层都不会开启,结果也得不到修正。

故把第\(n\)层的一个属于第\(i\)类的样本被错判到其他类\(j\)的概率定义为错判率:$$MC_{n,i,j}=P(\hat{y}_n=j\notin{poc,i}|y=i)$$

代价

代价(Cost):系统的平均总代价为:$$C_{1\to N}=C_1+\sum_{i=1}^I (P_i \times \sum_{n=2}^N(C_n \times \prod_{\eta = 1}^{n-1} POR_{\eta, i})) $$
其中, \(\prod_{\eta = 1}^{n-1} POR_{\eta, i}\)代表第\(i\)类一直累积传递至第\(n \)层的概率。此概率分别乘上\(P_i\)再对\(i\)求和就可以得到处理每个样本的系统平均总代价。

第\(i\)类的最终召回率\(R_{1→N,i}\)与输入的先验概率无关:

\[R_{1\to N, i}=\sum_{n=1}^{N} \prod_{\eta = 1}^{n-1} (POR_{\eta, i}) \times R_{n,i} \]

其中\(R_{n,i}\)是第\(i\)类在第\(n\)层的召回率。

如果第\(n\)层无法识别第\(i\)类,则将i视为传递类\(p\)的一部分,即\(R_{n,i}=0\)且\(POR_{n,i} = POR_{n,poc}\)。如果认为每类输出的召回率同等重要,则平均总召回率为:

\[R_{1\to N}= avg_i(R_{1 \to N,i}) \]

公式表明,系统的高召回率可以通过每层的高传递率或高召回率实现,因为如果一个样本被传递到下一层,它仍可在后续阶段被正确分类。然而,较高的传递率会导致较高的总代价,因为这会导致后面的层次更容易被激活

精确度

当优化系统的平均召回率时,系统对每一类的分类精度也会自动得到优化。

\[R_{1→N} = \sum_{i=1}^I \frac{ tp_i }{tp_i + \sum_{j \ne i}^I mc_{i,j} } \]

\[PR_{1→N} = \sum_{i=1}^I \frac{ tp_i }{tp_i + \sum_{j \ne i}^I mc_{i,j} } \]

这两个公式将真阳性样本的数量$ tp_i $和误判样本数量 \(mc_{ij}\) 同总召回率 \(R_{1→N}\) 和总精度 \(PR_{1→N}\) 联系到一起。最大化总召回率和最大化总精度都要求最小化总假阳性样本数或误判数。

结果表明,对于任一多分类系统,都可以通过优化召回率获得更高的精度

层次化分类器的 Roofline 模型

理想Roofline上限

参考博客:https://www.jianshu.com/p/e5c168a99ba8https://zhuanlan.zhihu.com/p/34204282

Roofline Model

这条线表明,当这个应用程序的计算密度大于一定值之后,将会变成一个受算术逻辑单元的计算量所限制的程序;而这个计算密度如果小于一定值,将会变成一个受存储器带宽所限制的程序。

层次化分类器的 Roofline 模型

所有类的平均召回关系与所有类的平均传递率之间的关系为:

\[\operatorname{avg}_{i \neq p o c}\left(R_{n, i}\right)=1-\frac{I}{I-1} \operatorname{avg}_i\left(P O R_{n, i}\right)+\frac{P O R_{n, p o c}}{I-1}-\sum_{n, i \neq p}^I \sum_{j=1}^I \frac{M C_{n, i, j}}{I-1} \]

在最佳情况下, 所有分类都正确, 也就是说样本要么通过要么被正确分类。在这种情况下, 上式 (2-9) 可以达到它的 Roofline 上限, 即如 下式 (2-10) 和图 2-3 所示:

\[\begin{gathered} \operatorname{avg}_{i \neq p o c}\left(R_{n, i}\right)=1-\frac{I}{I-1} \operatorname{avg}_i\left(P O R_{n, i}\right)+\frac{1}{I-1} \\ \text { 服从于} \operatorname{avg_i (POR}_{n, i} ) \geqslant 1 / I \end{gathered} \]

理想Roofline上限和真实曲线的示例在图2-3中给出,理想的Roofline曲线根据式(2-10)画出,而非理想情况下的曲线则是真实测得,它基本遵从式(2-9)。当第n层中的平均POR,即 \(avg_i (POR_{n,i})\) 低于 $ 1/I $ 时,这种情况是不理想的,因为如果这样就肯定有属于传递类的样本被错误地分类了。曲线在$ 1/I $ 处存在一个转折点。在这里,所有样本均恰好正确分类(它们的平均召回率为1),除了传递类的样本,没有一个样本被传递(它们的传递率等于0)。在 \(avg_i (POR_{n,i})\) 大于 $ 1/I $ 时,最佳平均召回率下降,这意味着更多的样本被传递到下一层。这不会导致灾难性的失败,因为在接下来的任何层级中,它们仍然可以得到正确的分类。在理想的Roofline上限情况下,转折点的位置仅是给定层级中类别数量的函数

Fig. 2.3 Roofline model and real classifiers for the 2-, 3-, and 10-class classification problems of
stages WU, 2 and 3 in Sect. 2.4. The respective cost of every stage in terms of necessary number
of operations is given in the legend. More complex tasks require more operations to achieve a
performance close to the optimal roofline

图2-3 在唤醒层 (第2类)、第2层(第3 类)和第3层(第 10 类)中,Roofline模型和真实测得的分类效果对比图。其中列出了每层需要的操作数。越复杂的任务就需要越多的操作数来逼近上限。

在图 2-3 中,每个 Roofline 曲线在 $ 1/I $ 处为转折点。这些图上的每条实线都代表一个真实的分类器。因为真实分类器会引入错误分类,这些真实分类器的结果与 Roofline 模型都不相同。但显然 Roofline 模型提供了很好的上限,并且与最复杂、成本最高的分类器结果非常匹配。分类器的复杂性和建模能力越强自然地它就越接近最佳的 Roofine模型。Roofline 的偏离主要是由于不希望有错分类,这种错误无法在层次结构的后续阶段进行补偿。

每个分类器在召回率与传递率之间存在着关联曲线。通过选择阈值 \(\tau\) 在该曲线上任意选择工作点。

  • \(\tau=0\) 则该层将传递所有输人样本, $avg_i (POR_{n,i}) = 1 $
  • \(\tau=1\) 则几乎不会传递任何样本,而是进行更多的独立分类

理想模型中无分类错误。一个不良模型也不一定会破坏整个系统的性能,因为可以将这一层级的阈值设置为高传递率。但是,这样也就意味着更多的数据被送到了代价较大的靠后的层级中,导致更高的总成本。

标签:传递,级联,层次,分类,样本,POR,嵌入式,分类器,召回
From: https://www.cnblogs.com/xiangcaoacao/p/17673982.html

相关文章

  • 嵌入式开发中设备抽象的具体实现
    概要在嵌入式开发过程中,设备抽象具有极其重要的作用。以下是设备抽象的几个重要方面:平台无关性:设备抽象可以使得软件与底层硬件解耦,从而实现平台无关性。通过抽象出设备的功能接口和操作方法,可以使得相同的代码可以在不同的硬件平台上运行,而无需进行大量的修改。这对于......
  • ARM 芯片的嵌入式代码移植注意事项
    嵌入式系统在我们的日常生活中无处不在,从智能手机和可穿戴设备到汽车和工业控制系统。ARM架构是嵌入式系统中广泛使用的处理器架构,以其高性能、低功耗和成本效益而闻名。然而,在将代码从一个ARM芯片移植到另一个ARM芯片时,需要注意一些关键事项,以确保移植的成功。处理器......
  • 【嵌入式开发】561
    【嵌入式开发】从FLASH读取数据详解在嵌入式开发领域,FLASH存储器因其非易失性、高密度和相对较低的成本而被广泛应用。FLASH存储器通常用于存储程序代码、常量数据、配置参数等,甚至在某些系统中用作文件系统来存储动态数据。因此,从FLASH中读取数据是嵌入式开发中一项至关......
  • R语言K-Means(K均值聚类)和层次聚类算法对微博用户特征数据研究
    全文链接:https://tecdat.cn/?p=32955原文出处:拓端数据部落公众号本文就将采用K-means算法和层次聚类对基于用户特征的微博数据帮助客户进行聚类分析。首先对聚类分析作系统介绍。其次对聚类算法进行文献回顾,对其概况、基本思想、算法进行详细介绍,再是通过一个仿真实验具体来强化......
  • 痞子衡嵌入式:给i.MXRT1xxx系列GPIO提早供电会影响DCDC_PSWITCH上电时序导致内部DCDC启
    大家好,我是痞子衡,是正经搞技术的痞子。今天痞子衡给大家介绍的是给i.MXRT1xxx系列GPIO提早供电会影响DCDC_PSWITCH上电时序导致内部DCDC启动失败。最近有一个RW612产品线的同事在设计一个双MCU系统Demo时发现,当RW612板卡和RT1060板卡通过UART对接时,如果RW6......
  • 【嵌入式开发】553
    【嵌入式开发】STM32使用SPI外设通讯时的状态寄存器SR详解在STM32微控制器的SPI(SerialPeripheralInterface)通讯中,状态寄存器(SR)扮演着至关重要的角色。这个寄存器反映了SPI通讯在不同阶段的状态,开发者通过读取这些状态标志,可以实时了解通讯的进度和可能发生的错误,从而做......
  • 嵌入式笔记1.2 ARM Cortex-M3M4汇编指令集
    目录Cortex-M处理器的指令集Cortex-M处理器支持的指令集Cortex-M处理器指令集的选择寄存器组详解1.通用寄存器R0~R122.栈指针3.连接寄存器4.程序计数寄存器5.程序状态字寄存器(xPSR)6.特殊功能寄存器7.浮点控制寄存器指令集详解(Cortex-M3和Cortex-M4都支持的)1.处理......
  • 嵌入式笔记1.1 ARM Cortex-M3M4简介
    目录微型计算机的硬件共性结构及基本性能指标关于存储器的介绍微型计算机的基本性能指标1.字长2.主频3.存储容量4.外设扩展能力5.软件配置情况ArmCortex系列微处理器系列概述ArmCortex-A系列处理器ArmCortex-R系列处理器ArmCortex-M系列处理器Cortex-M3和Cortex-M......
  • 《安富莱嵌入式周报》第335期:大量嵌入式书籍免费下载,CNC电机同步,智能家居比赛作品,EMF2
    周报汇总地址:http://www.armbbs.cn/forum.php?mod=forumdisplay&fid=12&filter=typeid&typeid=104 视频版:https://www.bilibili.com/video/BV151421Q7P4/目录:1、大量嵌入式书籍免费下载,无需注册账号,直接下载2、EMF2024准备的电子胸牌3、CNC电机同步视频4、Hackaday举......
  • 嵌入式LINUX开发系列之基于Radxa zero的usb_gadgetEthnet功能配置
    LINUX系列文章目录第二章嵌入式linux开发之基于Radxazero的usb_gadgetEthnet功能配置文章目录LINUX系列文章目录第二章嵌入式linux开发之基于Radxazero的usb_gadgetEthnet功能配置前言一、usb_gadgetEthnet是什么?二、具体操作1.开发板上电,查询网络信息2.usb_gadge......