首页 > 其他分享 >DMKD: IMPROVING FEATURE-BASED KNOWLEDGE DISTILLATION FOR OBJECT DETECTION VIA DUAL MASKING AUGMENTAT

DMKD: IMPROVING FEATURE-BASED KNOWLEDGE DISTILLATION FOR OBJECT DETECTION VIA DUAL MASKING AUGMENTAT

时间:2024-04-02 20:30:02浏览次数:13  
标签:教师 VIA BASED KNOWLEDGE 特征 空间 掩模 通道 蒸馏

摘要

最近主流的掩模蒸馏方法是通过从教师网络的特征图中重建学生网络的选择性掩模区域来实现的。在这些方法中,需要适当的选择掩模区域,使重构的特征像教师特征一样具有足够的识别和表示能力。然而,以前的掩模蒸馏方法只关注空间掩模,使得得到的掩模区域偏向于空间重要性,而没有编码信息通道线索。在这项研究中,我们设计了一个双掩模知识蒸馏(DMKD)框架,它可以捕获空间上重要的和通道上的信息线索,用于全面的掩模特征重建。更具体的说,我们采用双重注意机制来引导各自的掩模分支,从而导致构建的特征编码具有双重意义。此外,通过自调整加权策略实现重构特征的融合,实现特征的有效提取。

1、介绍

早期的知识蒸馏方法主要关注网络的输出头部,代表性方案包括基于Logit的分类蒸馏和基于head的检测蒸馏。最近,基于特征的蒸馏策略由于其理想的任务不可知的灵活性受到了越来越多的关注。特别是,特征蒸馏有利于学生网络模仿教师特征,增强表征能力。在目标检测中,各种先进的特征蒸馏方法得到了发展。具体来说,经典的FitNet在全局特征级别上进行蒸馏。FGD的发展是为了在一个统一的框架内区分前景蒸馏和背景蒸馏。CWD简单地最小化了两个网络的通道概率图之间的KL散度,并且蒸馏过程倾向于每个通道的最显著区域。

在特征蒸馏方法中,最近的研究表明,学生模型最好首先从教师模型中重建重要特征,而不是跟随教师生成竞争表征例如,MGD提出掩码学生网络特征图中的像素,通过一个简单的块重构出教师模型的特征。AMD在学生网络的特征图上进行了注意引导的特征掩码,这样就可以通过空间自适应特征掩模来识别特定区域的重要特征,而不是之前的方法中的随机掩模

虽然当前的掩模特征蒸馏方法有助于提高学生模型的性能,但上述方法中选择性掩模区域的生成仅考虑空间重要性。例如,MGD执行与位置无关的随机特征掩码,导致重建非信息和语义无关的区域。这种限制在AMD中有所缓解,AMD利用空间屏蔽来识别空间显著区域,但他仍然无法识别对密集预测任务至关重要的信息通道。在本研究中,不同的是,我们试图捕获空间重要区域和对象感知通道线索,这两者都可以通过双重注意机制获得。特别是,采用图1所示的双掩模策略进行掩模特征重建,以全面表征重要的目标感知特征。

image-20240327154832428

方法

Preliminaries

在详细阐述我们所提出的方法之前,我们简要回顾一下基本的基于特征的蒸馏框架,其表述为:
L b a s e = ∑ c = 1 C ∑ h = 1 H ∑ w = 1 W M S E ( θ a l i g n ( F c ; h ; w S ) , F c ; h ; w T ) L_{base} = \sum_{c=1} ^ C \sum_{h=1} ^ H \sum_{w=1} ^W MSE(\theta _{align}(F_{c;h;w} ^S),F_{c;h;w} ^T) Lbase​=c=1∑C​h=1∑H​w=1∑W​MSE(θalign​(Fc;h;wS​),Fc;h;wT​)
image-20240327155328907是从学生网络和教师网络生成的特征图。MSE(.)表示可学习函数image-20240327155444178对齐的学生特征与教师特征之间的拟合误差。它可以从上述基于vanilla特征的蒸馏模式的公式迫使学生的原始特征是可能接近教师的对应特征。从这个意义上说,教师充当了直接模仿的模版,特征蒸馏可以被识别为一种简单明了的算法,因为学生和教师网络的特征直接用于表示匹配。

我们的DMKD框架

为了将对象感知语义全面编码到学生网络中,我们开发了一种双掩模知识蒸馏(DKMD)框架,在该框架中,空间显著区域和信道通道都被发现,以便更好地重建掩模特征。值得注意的是,我们的模型可以被视为一个即插即用的增强模块,适用于vanilla的基于特征的蒸馏方法。如图3所示,

image-20240327163550017

我们的DMKD包括三个关键步骤:双注意图生成,注意引导掩模和自调节加权融合。首先,空间和通道方面的注意图是由教师特征生成的,公式如下:
A s = ϕ a l i g n ( S i g m o i d ( 1 C T < ∣ ∣ F 1 T ∣ ∣ 2 2 , . . . . , ∣ ∣ F n T ∣ ∣ 2 2 ) ) A^s = \phi _{align} (Sigmoid(\frac{1}{CT} < ||F_1^T||_2^2,....,||F_n^T||^2_2)) As=ϕalign​(Sigmoid(CT1​<∣∣F1T​∣∣22​,....,∣∣FnT​∣∣22​))

A s = S i g m o i d ( 1 H W T ∑ h = 1 H ∑ w = 1 W F h , w , 1 T , . . . . , F h , w , C T ) A^s = Sigmoid(\frac{1}{HWT} \sum _{h=1} ^H \sum _{w=1} ^W F_{h,w,1}^T,....,F_{h,w,C}^T) As=Sigmoid(HWT1​h=1∑H​w=1∑W​Fh,w,1T​,....,Fh,w,CT​)

其中,image-20240327162942183分别为空间注意图和通道注意图。image-20240327163016549是教师特征映射的第n个向量。image-20240327163048399为C-th通道的特征映射。引入T来调整分布。

接下来,将得到的双注意图image-20240327163310645用于导出相应的掩模图image-20240327163317861image-20240327163322238,其阈值分别为image-20240327163327492

image-20240327163336215

其中image-20240327163405034分别与image-20240327163412213具有相同的形状。然后,我们利用它们对学生特征进行空间和通道掩模,生成两个掩模特征image-20240327163521221

image-20240327163527263

最后,分别采用基于卷积和多层感知机(MLP)的两种不同的生成块来重建空间和信道屏蔽特征,值得注意的是,信道重建时由MLP实现的,这与MGD和AMD的空间重建不同,因为信道特征是空间独立的。换句话说,这个生成应该只关注通道间的相互作用。

image-20240327163809982

因此,蒸馏损失可以建立在重构的学生特征和对应的教师特征上。

image-20240327163842538

标签:教师,VIA,BASED,KNOWLEDGE,特征,空间,掩模,通道,蒸馏
From: https://blog.csdn.net/weixin_43238909/article/details/137082031

相关文章

  • Where to Go Next for Recommender Systems? ID- vs. Modality-based Recommender Mod
    目录概符号/缩写说明TrainingdetailsDatasetsE2E下MoRec是否优于IDRec?RegularsettingWarmsetting越好的encoder带来越好的推荐效果?TSversusE2E?总结代码YuanZ.,YuanF.,SongY.,LiY.,FuJ.,YangF.,PanY.andNiY.Wheretogonextforrecommendersys......
  • 论文阅读RangeDet: In Defense of Range View for LiDAR-based 3D Object Detection
    文章目录RangeDet:InDefenseofRangeViewforLiDAR-based3DObjectDetection问题笛卡尔坐标结构图Meta-KernelConvolutionRangeDet:InDefenseofRangeViewforLiDAR-based3DObjectDetection论文:https://arxiv.org/pdf/2103.10039.pdf代码:https://......
  • [GO-LANG] Why is my trivial program such a large binary?
     Whyismytrivialprogramsuchalargebinary?Thelinkerinthe gc toolchaincreatesstatically-linkedbinariesbydefault.AllGobinariesthereforeincludetheGoruntime,alongwiththerun-timetypeinformationnecessarytosupportdynamictypech......
  • IfcConversionBasedUnit
    IfcConversionBasedUnit实体定义IfcConversionBasedUnit用于定义具有基本单位转换率的单位。为了识别一些常用的基于转换的单位,表4中列出了Name属性的标准名称(不区分大小写)。 NameDescription'inch'Lengthmeasureequalto25.4mm'foot'Lengthmeasureequalto30......
  • SAT中的 width-based algorithm
    文献: KnotPipatsrisawat, AdnanDarwiche:Width-Based Restart PoliciesforClause-Learning Satisfiability Solvers. SAT 2009: 341-355 @inproceedings{DBLP:conf/sat/PipatsrisawatD09,author={KnotPipatsrisawatand......
  • Large Language Models Based Fuzzing Techniques: A Survey
    本文是LLM系列文章,针对《LargeLanguageModelsBasedFuzzingTechniques:ASurvey》的翻译。基于大型语言模型的模糊化技术综述摘要1引言2背景3基于LLM的模糊测试分析4关于未来工作和挑战的讨论5结论摘要在软件发挥关键作用的现代,软件安全和漏洞分析......
  • 论文:Improving Entity Disambiguation by Reasoning over a Knowledge Base翻译笔记(通
    文章目录论文题目:通过在知识库中进行推理来改进实体消歧摘要1介绍2相关工作2.1带有知识库上下文的勃起功能障碍(ED)问题2.2基于知识图谱嵌入的ED2.3全局ED(实体解析)2.4多模块的实体识别3拟议的方法3.1任务表述3.2概述3.3提及表示3.4初始实体得分ψ~a~3.4.1实体......
  • 【Pavia】遥感图像数据集下载地址和读取数据集代码
    【Pavia】遥感图像数据集下载地址和读取数据集代码目录【Pavia】遥感图像数据集下载地址和读取数据集代码前言Pavia数据集Pavia数据集地址:Pavia数据集预览PaviaU.matPaviaU_gt.matPavia数据集的Matlab读取方式Pavia数据集中PaviaU.mat的matlab读取代码Pavia数据集中PaviaU_gt.ma......
  • IfcConversionBasedUnit Basic unit declaration
    IfcConversionBasedUnit  当没有使用实体类型IfcMeasureWithUnit作为属性的数据类型更具体地定义单位时,项目的全局单位分配定义度量值和值的全局单位。项目的全球基本长度、面积、体积和时间单位定义为国际单位制的示例:#1=IFCPROJECT(’00ZhrqZYLBcgy$rVVaiu2A’,$,’Exa......
  • 论文解读:Convolutional Neural Network-based Place Recognition-2014
    关注微信公众号:XRobotSpace关注微信公众号:依法编程发表期刊/会议:ACRA发表时间:2014参考引用:Z.Chen,O.Lam,A.Jacobson,M.Milford,Convolutionalneuralnetwork-basedplacerecognition,in:2014AustralasianConferenceonRoboticsandAutomation(......