Local Relation Networks for Image Recognition

* Authors: [[Han Hu]], [[Zheng Zhang]], [[Zhenda Xie]], [[Stephen Lin]]

DOI: 10.1109/ICCV.2019.00356

@inproceedings{Hu2019,
  doi = {10.1109/iccv.2019.00356},
  url = {https://doi.org/10.1109/iccv.2019.00356},
  year = {2019},
  month = oct,
  publisher = {{IEEE}},
  author = {Han Hu and Zheng Zhang and Zhenda Xie and Stephen Lin},
  title = {Local Relation Networks for Image Recognition},
  booktitle = {2019 {IEEE}/{CVF} International Conference on Computer Vision ({ICCV})}
}

Local library

初读印象

comment:: (LR-Net)提出了一种新的图像特征提取器，称为局部关系层，它根据局部像素对的组合关系自适应地确定聚合权重。

动机

卷积(Convolution)的缺点：卷积在将低层特征构造成高层特征的概念推理十分低效，它只是充当一个滤波器对元素进行空间聚合。当某个物体拥有多种几何形变时，很难推理出一个合适的滤波器（如不同形状的鸟嘴），即可组合性不强。
*胶囊网络(Capsule networks)：通过迭代的路由过程来计算可组合性。在每个路由步骤中，如果聚合前和聚合后的向量彼此接近，则会放大聚合权重，否则会减小聚合权重。但是这种方法不能使用反向传播来迭代，适用性不强。
自注意力(self-attention)：应用于图像识别中的自注意力通常只是作为卷积层的补充，而非寻找一种新的拥有更强空间合成能力的图像特征提取器。
目标：提出一种方法，能够自适应地对局部区域内的像素进行组合以建立更有效和高效的组合层次结构。

方法

一种新的信息聚集方法，类似于卷积核，但是同一个卷积核在不同点上的权重是固定的，该方法的权重是自适应的，而且比卷积核有更大的聚集范围（kernel size）

Local Relation Layer

聚合方法
目标像素：\(p'\)
目标像素位置范围内的点：\(p\)
\(\phi(f_{{\theta}_q}(x_{p'}),f_{\theta{_k}}(x_p))\)：转换后的\(p'\)点和\(q\)点之间的可组合性的度量，最优做法为乘法：
*\(f_{\theta{_q}}\)和\(f_{\theta{_p}}\)分别使用一个\(1\times 1\)卷积将目标元素转换成query和key。此处使用的key和value是标量（即通道数为1）。
几何先验\(f_{\theta{_g}}\):两个\(1\times 1\)卷积，中间夹着ReLU。

局部关系层的网络结构

Pasted image 20221017133917

Input Feature分别经过\(1\times 1\)卷积得到K和Q，通道数为C//m(多通道权重共享，此处m为8)，以下以Q、K中一个通道的数据为例做说明。
从Q中取出目标点p'的特征向量，K中取出以p'为中心的大小为\(k\times k\)的特征矩阵，前者以广播的形式与后者相乘，得到Appearance Composability。
Position（文中没有给出该矩阵是如何得到的，同时本文也没有提供官方代码）经过两个\(1\times 1\)卷积得到Geometry Prior，将其与Appearance Composability相加。相加后的矩阵经过softmax得到Aggregation Weights。
在原Input Feature中取出以p'为中心的m个通道大小为\(k\times k\)的矩阵，将其与Aggregation Weights相乘并相加得到加权和（权重共享），即得到m层的目标像素p’的经过局部关系块加强后的点。

改造自Resnet的LR-Net

将Resnet中的各个结构换成LR结构。

Pasted image 20221017143031 (a)Resnet的\(7\times7\)卷积，可以代替为一个输出通道为64的\(1\times1\)卷积，并加一个kernel size=7的LR，共享层数为8，步长为2。
(b) 有Bottleneck的残差块。
(c) 无Bottleneck的残差块。

模型表现

在ImageNet上的表现，当参数量与计算量和Resnet差不多时，模型表现更好。

Pasted image 20221017152038

输入输出

图像分类：输入一张图片，得到对这张图片的分类。

局限

局部关系块只关心了同一通道的特征图的各像素之间的关系，不同通道之间关系只通过\(1\times1\)卷积来构建，可以考虑使用SENet或LANet中对通道注意力的使用，将不同通道之间的像素信息聚合到一个点上。

启示

在卷积中，卷积核的权重是学习到的。该文提出的局部关系块的权重是算出来的，这也是文中所说的权重是“自适应”的原因。本文还对不同通道的特征图使用了权重共享，这也是一种能够在不降低模型性能下减少模型参数量和计算量的方法。

标签：聚合,权重,卷积,Image,像素,LRNet,Relation,times,Local
From： https://www.cnblogs.com/tifuhong/p/17909194.html

Deep Residual Learning for Image Recognition：ResNet
DeepResidualLearningforImageRecognition*Authors:[[KaimingHe]],[[XiangyuZhang]],[[ShaoqingRen]],[[JianSun]]DOI:10.1109/CVPR.2016.90初读印象comment::(ResNet)提出残差链接以解决网络训练效率随着深度增加而下降的情况。Why网络深度对图像识别......
Relation Networks for Object Detection
RelationNetworksforObjectDetection*Authors:[[HanHu]],[[JiayuanGu]],[[ZhengZhang]],[[JifengDai]],[[YichenWei]]DOI:10.1109/CVPR.2018.00378初读印象comment::提出了一个对象关系模块。它通过物体的外观特征和几何形状之间的相互作用来同时处理一组......
InternImage: Exploring Large-Scale Vision Foundation Models with Deformable Conv
InternImage:ExploringLarge-ScaleVisionFoundationModelswithDeformableConvolutions*Authors:[[WenhaiWang]],[[JifengDai]],[[ZheChen]],[[ZhenhangHuang]],[[ZhiqiLi]],[[XizhouZhu]],[[XiaoweiHu]],[[TongLu]],[[LeweiLu]],[[HongshengLi]......
Real-Time Single Image and Video Super-Resolution Using an Efficient Sub-Pixel C
Real-TimeSingleImageandVideoSuper-ResolutionUsinganEfficientSub-PixelConvolutionalNeuralNetwork*Authors:[[WenzheShi]],[[JoseCaballero]],[[FerencHuszar]],[[JohannesTotz]],[[AndrewP.Aitken]],[[RobBishop]],[[DanielRueckert]],[[Z......
U-Net: Convolutional Networks for Biomedical Image Segmentation
U-Net:ConvolutionalNetworksforBiomedicalImageSegmentation*Authors:[[OlafRonneberger]],[[PhilippFischer]],[[ThomasBrox]]Locallibrary初读印象comment::(Unet)下采样和上采样，把每次下采样的结果通过跳跃结构传到上采样那一层去。References10.13......
A Deformable Attention Network for High-Resolution Remote Sensing Images Semanti
ADeformableAttentionNetworkforHigh-ResolutionRemoteSensingImagesSemanticSegmentation*Authors:[[RenxiangZuo]],[[GuangyunZhang]],[[RongtingZhang]],[[XiupingJia]]DOI:10.1109/TGRS.2021.3119537初读印象comment::（MDANet）提出了可变形注意力，结......
.Net 8与硬件设备能碰撞出怎么样的火花（使用ImageSharp和Protobuf协议通过HidApi与设备
前言本人最近在社区里说想做稚晖君的那个瀚文键盘来着，结果遇到两个老哥一个老哥送了我电路板，一个送了我焊接好元件的电路板，既然大家这么舍得，那我也就真的投入制作了这把客制化键盘，当然我为了省钱也是特意把外壳模型重新切割，用3D打印机打印了整个外壳，不得不说省了八九百的CNC费用......
border-image用法总结
border-image支持渐变，可实现虚线边框，斑马纹边框border-image支持在外部显示图像，不占空间，不影响布局，且不受overflow:hidden限制border-image，box-shadow，outline均支持内填充，外填充，可以实现背景，边框，外延border-image内填充border-image:linear-gradient(rgba(0,0,0,.05),......
为什么EmbeddedLinuxBeginnerSGuide的image中 uboot一定要放在fat32分区，不能跟preload
按照按照（https://rocketboards.org/foswiki/Documentation/EmbeddedLinuxBeginnerSGuide）制作了一个image,然后按照https://www.cnblogs.com/DoreenLiu/p/17903782.html将相关文件都打包到一个.img文件里面去。其实最开始研发给我的Makefile内容是这样（这个是RD用于制作LXD......
A Guide to Image and Video based Small Object Detection using Deep Learning : Ca
AGuidetoImageandVideobasedSmallObjectDetectionusingDeepLearning:CaseStudyofMaritimeSurveillance基于图像和视频的小对象指南使用深度学习进行检测：的案例研究海上监视1介绍在本文中我们对2017年至2022年间发表的160多篇研究论文进行了全面回顾，以......

Local Relation Networks for Image Recognition： LRNet