Expectation-Maximization Attention Networks for Semantic Segmentation 使用了EM算法的注意力

时间：2023-12-18 19:22:37浏览次数：35

标签：EM Segmentation Semantic 迭代 Maximization Expectation mu 算法

Expectation-Maximization Attention Networks for Semantic Segmentation

* Authors: [[Xia Li]], [[Zhisheng Zhong]], [[Jianlong Wu]], [[Yibo Yang]], [[Zhouchen Lin]], [[Hong Liu]]

DOI: 10.1109/ICCV.2019.00926
Local library

初读印象

comment:: (EMANet)用期望最大化方法计算注意力机制，更加节省计算资源和时间，具有更强的鲁棒性。

Why

卷积难以捕捉长程依赖，注意力计算了所有点之间的依赖，但太消耗计算资源。

What

提出了期望最大化注意力算法Expectation Maximization Attention (EMA)。不在所有像素点上重构，而是用EM算法寻找紧凑的基础集以减少计算量。

How

Expectation-Maximization Algorithm

[[EM算法]]是一种迭代优化策略，由于它的计算方法中每一次迭代都分两步，其中一个为期望步（E步），另一个为极大步（M步），所以算法被称为EM算法（Expectation Maximization Algorithm）。其基本思想是：首先根据己经给出的观测数据，估计出模型参数的值；然后再依据上一步估计出的参数值估计缺失数据的值，再根据估计出的缺失数据加上之前己经观测到的数据重新再对参数值进行估计，然后反复迭代，直至最后收敛，迭代结束。

E步:根据先验得到z的分布\(Q(z)=p(Z|X,\\theta)\)。
M步:根据上一步得到的z的分布更新\(\theta\)。

Gaussian Mixture Model

高斯混合分布中有多个不同的高斯分布。在其中得到一个值x的概率为：
Pasted image 20220921234435 其中\(z_{nk}\)表示的是第k个高斯分布所占的比例，\(\Sigma_kz_{nk}=1\)。该模型中需要估算的参数是均值和方差\(\mu_k\)和\(\Sigma_k\)。该模型的似然估计为： Pasted image 20220921235240

E步：计算Z的分布
Pasted image 20220921235619 M步：用Z更新\(\mu_k\)和\(\Sigma_k\) Pasted image 20220921235714

最后从模型中得到的所有高斯函数的均值的均值为
Pasted image 20220922093506 ####Non-local
[[@Wang2018]]
在Non-local中，从\(x_i\)得到\(y_i\)的注意力机制为：
Pasted image 20220922092241

这其实类似于公式8，但他没有经过E步和M步。

Expectation-Maximization Attention

lALPJwKt0psJoZXNBArNBQA_1280_1034

与nonlocal不同的是，nonlocal的基是有N个的，这个复杂度旧比较高。
最后用收敛的Z(N×K)和\(\mu\)(K×C)得到更正后的X(N×C)。
Pasted image 20220922143023 ####EMA Unit

Pasted image 20220922144030

EMA前后有两个1×1卷积，前一个将输入的值域从\(R^+\)映射到\(R\)。
采用Kaiming’s initialization初始化\(\mu^{(0)}\),每张图片有独自的EM计算过程，得到不同的\(\mu^{(T)}\)。
在逐个批次训练的同时，EM参数的迭代初值，\(\mu^{(0)}\)的更新并非采用梯度下降，使用滑动平均更新方式：
Pasted image 20220922153147

其中\(\hat{\mu}^{(T)}\)为一个小批次中\(\mu^{(T)}\)的平均值。
\(\hat{\mu}^{(t)}\)使用L2noraml

Experiemnt

网络细节

主干网络：ResNet
学习率策略：Poly
初始学习率：0.009
动量：0.9
权重衰退：0.0001
数据增强：随机缩放(0.5-2.0)、裁剪、反转
输入尺寸：513×513

消融实验：

\(\mu^{(0)}\)更新方式和正则化

Pasted image 20220922191754 EMA使用滑动均值（Movingaverage）和L2Norm最为有效。迭代次数表示EM步数？

迭代次数

Pasted image 20220922215952

在评估时，每次迭代次数增加都会增加mIOU。但在训练时3次就到顶了。

比较

Pasted image 20220922221742 EMANet的表现要优于这三个基线的大幅度。此外，EMANet在计算和内存方面要轻得多。 Pasted image 20220922221950

Conclusion

十分优雅的一篇论文，从动机到原理到模型实现都写的有理有据。
Non-Local的基的数量是和像素点的数量是相同的，而EMANet大大减少了基的数量，从而减少了计算量和内存占用，同时注意力模块的更新不是靠梯度下降来的，而是靠滑动平均更新。

标签：EM,Segmentation,Semantic,迭代,Maximization,Expectation,mu,算法
From： https://www.cnblogs.com/tifuhong/p/17909198.html

RefineNet: Multi-path Refinement Networks for High-Resolution Semantic Segmentat
RefineNet:Multi-pathRefinementNetworksforHigh-ResolutionSemanticSegmentation*Authors:[[GuoshengLin]],[[AntonMilan]],[[ChunhuaShen]],[[IanReid]]DOI:10.1109/CVPR.2017.549Locallibrary初读印象comment::(RefineNet)一种多路径的用于高分......
Adaptive Sparse Convolutional Networks with Global Context Enhancement for Faste
AdaptiveSparseConvolutionalNetworkswithGlobalContextEnhancementforFasterObjectDetectiononDroneImages*Authors:[[BoweiDu]],[[YechengHuang]],[[JiaxinChen]],[[DiHuang]]初读印象comment::提出了一种新型全局上下文增强自适应稀疏卷积网络（CEAS......
A Deformable Attention Network for High-Resolution Remote Sensing Images Semanti
ADeformableAttentionNetworkforHigh-ResolutionRemoteSensingImagesSemanticSegmentation*Authors:[[RenxiangZuo]],[[GuangyunZhang]],[[RongtingZhang]],[[XiupingJia]]DOI:10.1109/TGRS.2021.3119537初读印象comment::（MDANet）提出了可变形注意力，结......
Scale-Prior Deformable Convolution for Exemplar-Guided Class-Agnostic Counting
Scale-PriorDeformableConvolutionforExemplar-GuidedClass-AgnosticCounting初读印象comment::（计数用的一个网络）提出了一个标度优先的可变形卷积，将典范的信息，例如标度，整合到计数网络主干中。动机本文考虑的是类别无关的计数，其中计数模型预测由一组查询图像中的少数......
为什么EmbeddedLinuxBeginnerSGuide的image中 uboot一定要放在fat32分区，不能跟preload
按照按照（https://rocketboards.org/foswiki/Documentation/EmbeddedLinuxBeginnerSGuide）制作了一个image,然后按照https://www.cnblogs.com/DoreenLiu/p/17903782.html将相关文件都打包到一个.img文件里面去。其实最开始研发给我的Makefile内容是这样（这个是RD用于制作LXD......
MURF10100AC-ASEMI新能源功率器件MURF10100AC
编辑：llMURF10100AC-ASEMI新能源功率器件MURF10100AC型号：MURF10100AC品牌：ASEMI封装：TO-220F最大平均正向电流：10A最大重复峰值反向电压：1000V产品引线数量：3产品内部芯片个数：2产品内部芯片尺寸：84MIL峰值正向漏电流：<10ua恢复时间：35ns浪涌电流：150A芯片材质：最大正向电压：1.90V工作结温：-55℃~......
Java五种设计模式实现奶茶订单生成系统小DEMO
前言这是大学时候上设计模式这门课写的程序，当时课程任务是要求结合五个设计模式写一个系统，最近偶然翻到，把系统分享一下。成品预览主界面功能介绍订单管理系统，实现了对订单的增删改查。且实现了将订单内容写入文件，每次增删改查都会做保存，下次重启程序时......
【POJ 2388】Who‘s in the Middle 题解（nth_element）
描述FJ正在调查他的牛群，寻找最普通的奶牛。他想知道这头“中位数”奶牛产奶量：一半奶牛产奶的量与中位数相同或更多；一半的人给予同样多或更少。给定奇数头奶牛N（1<=N<10000）和它们的牛奶产量（1…1000000），求出所给牛奶的中位数，使至少一半奶牛所给的牛奶量相同或更多，至少一半奶牛的牛奶......
基于光纤环形激光器的optisystem仿真及其传感应用
近年来，光纤传感器在航空航天领域，工业制造，医疗等领域引起了越来越多的关注，因为他们体积小，结构简单，灵敏度高，抗电磁干扰强，防腐性能好的特点。各种各样的传感器结构被设计出来，以便于提高传感的灵敏度和精确性。比如FP，MZI，Sagnac环，各种FBG等结构。但是，对着需求的提高，上述结构的传感器的性......
APT80DQ60BG-ASEMI大电流二极管APT80DQ60BG
编辑：llAPT80DQ60BG-ASEMI大电流二极管APT80DQ60BG型号：APT80DQ60BG品牌：ASEMI封装：TO-247特性：插件、快恢复二极管最大平均正向电流：80A最大重复峰值反向电压：600V恢复时间：50ns引脚数量：3芯片个数：2最大正向压降：1.05V~1.80V芯片尺寸：6.2mm*4mm浪涌电流：600A漏电流：10ua工作温......