论文框架梳理（二）——密集场景下旋转小目标检测

前言

研究型论文写作指导教材参考链接

论文结构梳理（e.g.）

论文：《SCRDet++: Detecting Small, Cluttered and Rotated Objects via Instance-Level Feature Denoising and Rotation Loss Smoothing》
期刊：IEEE Transactions on Pattern Analysis and Machine Intelligence
出版时间：2023

论文动机：常规目标检测不足以应对复杂场景小而杂乱方向任意物体的检测。（e.g.当目标紧挨时，两个实例目标的目标检测框如果不带方向，则容易过度重合。在标注或检测时都无法生成有效的边界框）
创新点：
1. 小物体/杂乱排列检测：设计了一个实例去噪（InLD）模块在特征图中过滤无关像素噪声。
2. 物体方向问题：设计了一种 IoU-Smooth L1损失来解决旋转边界框回归问题
3. 创建了一个新的数据集S2TLD
论文结构小结：这篇论文的整体内容太繁杂，小目标和杂乱排列这两个问题很难清晰划分，所以实验部分作者把各个部分内容交叉在一起，做了各种消融实验，可以借鉴这篇文章的很多实验方法，和遣词造句的小tips。但是很难按本文结构去组织一篇手稿。

图例分析

fig1.复杂场景中的小型杂乱旋转物体

章节：Introduction
Objective：展示非旋转检测的结果，引出研究背景和需求
在这里插入图片描述

fig2.方法概述

章节：method
Objective：介绍文章的主要技术创新点，图像降噪模块的理论框架。
模块解读：
1. Feature Pyramid Networks（特征金字塔）：通过卷积和上下采样结合残差网路思想得到不同深度和尺寸的特征图。尺寸越大的特征图对应的感受野越小，因此通常对应更小的锚框用于检测小目标。反之亦然。
2. Image-level Denoising (图像级去噪)：在特征图中引入图像处理技术进行特征图降噪。揣测作者的表达意图（在经过特征金字塔之后生成的特征图，每个特征点相当于是一个区域范围内的图像信息集合的一个参数表示，采用高斯滤波等对特征图进行降噪操作无法从数学逻辑上证明滤除的是噪声，准确来说应该是利用高斯滤波将原有特征图生成一张新的特征图，当然深度学习的黑盒很难逻辑化，以结果为准）。
3. Instance-level Denoising（实例级去噪）：
  - dilated convs：经过多次1*1卷积分别生成两个特征图。其中W x H x (c+1)是用来生成边界框目标置信度的，即框内有没有目标。（C+1）应该是为了多生成一个背景类别，应对作者说“inter-class feature coupling & intra-class feature boundary blur”.另一个W x H x 256特征图其实是用作权重。按注意力机制的思路，每一个点的值代表与该点相乘的另一特征值的重要程度。求解答（这两个特征图之间的guide究竟gui了个啥？？？）
  - category-decoupled feature(类别解耦特征)：将以上生成的权重特征，与初始输入特征相乘所得。继而将其解耦成边界框信息和类别信息。揣测实际输出应该为 [(c+1),A,(5+1+1)]：c+1类别数加背景，A锚框数，5 （final box）+1（class-specific scores）+1（final scores）

在这里插入图片描述