前言
论文结构梳理(e.g.)
论文:《SCRDet++: Detecting Small, Cluttered and Rotated Objects via Instance-Level Feature Denoising and Rotation Loss Smoothing》
期刊:IEEE Transactions on Pattern Analysis and Machine Intelligence
出版时间:2023
-
论文动机:常规目标检测不足以应对复杂场景小而杂乱方向任意物体的检测。(e.g.当目标紧挨时,两个实例目标的目标检测框如果不带方向,则容易过度重合。在标注或检测时都无法生成有效的边界框)
-
创新点:
- 小物体/杂乱排列检测:设计了一个实例去噪(InLD)模块在特征图中过滤无关像素噪声。
- 物体方向问题:设计了一种 IoU-Smooth L1损失来解决旋转边界框回归问题
- 创建了一个新的数据集S2TLD
-
论文结构小结:这篇论文的整体内容太繁杂,小目标和杂乱排列这两个问题很难清晰划分,所以实验部分作者把各个部分内容交叉在一起,做了各种消融实验,可以借鉴这篇文章的很多实验方法,和遣词造句的小tips。但是很难按本文结构去组织一篇手稿。
图例分析
fig1.复杂场景中的小型杂乱旋转物体
章节:Introduction
Objective:展示非旋转检测的结果,引出研究背景和需求
fig2.方法概述
- 章节:method
- Objective:介绍文章的主要技术创新点,图像降噪模块的理论框架。
- 模块解读:
- Feature Pyramid Networks(特征金字塔):通过卷积和上下采样结合残差网路思想得到不同深度和尺寸的特征图。尺寸越大的特征图对应的感受野越小,因此通常对应更小的锚框用于检测小目标。反之亦然。
- Image-level Denoising (图像级去噪):在特征图中引入图像处理技术进行特征图降噪。揣测作者的表达意图(在经过特征金字塔之后生成的特征图,每个特征点相当于是一个区域范围内的图像信息集合的一个参数表示,采用高斯滤波等对特征图进行降噪操作无法从数学逻辑上证明滤除的是噪声,准确来说应该是利用高斯滤波将原有特征图生成一张新的特征图,当然深度学习的黑盒很难逻辑化,以结果为准)。
- Instance-level Denoising(实例级去噪):
- dilated convs:经过多次1*1卷积分别生成两个特征图。其中W x H x (c+1)是用来生成边界框目标置信度的,即框内有没有目标。(C+1)应该是为了多生成一个背景类别,应对作者说“inter-class feature coupling & intra-class feature boundary blur”.另一个W x H x 256特征图其实是用作权重。按注意力机制的思路,每一个点的值代表与该点相乘的另一特征值的重要程度。求解答(这两个特征图之间的guide究竟gui了个啥???)
- category-decoupled feature(类别解耦特征):将以上生成的权重特征,与初始输入特征相乘所得。继而将其解耦成边界框信息和类别信息。揣测实际输出应该为 [(c+1),A,(5+1+1)]:c+1类别数加背景,A锚框数,5 (final box)+1(class-specific scores)+1(final scores)
fig3.特征图可视化对比
- 章节:method
- Objective:可视化模块(InLD component)插入前后算法性能对比。
- 揣测作图方法:将原始图像降采样值输出特征图尺寸,将特征图进行叠加并且归一化,映射到原图。
fig4.在原图添加噪声生成特征图
- 章节:method
- Objective:暂时没发现()
fig5.算法模块图解
- 章节:method
- Objective:其实和图二表达的内容是大致相同的。
fig6.旋转边界框定义
- 章节:method
- Objective:可能是想展示旋转边界框的角度极性和值的定义。
- 注意,这张图误导性很强,从图7看就是绕边界框中心点顺时针逆时针旋转,不要被红线的标注误导,从图例的描述中我们可以发现,钝角锐角分别用
θ
和w
。但是图中有两个θ
,可能是作者误标。
fig7.边界框回归不连续
- 章节:method
- Objective:展示边界框回归过程中产生的问题。以及边界框损失的计算方法:POA(角度周期性) + EOE(边缘互换性),通俗表达:旋转角度损失+w,h的缩放损失。
fig8.不同边界框损失对应的检测结果
- 章节:method
- Objective:计算边界框损失的两种方法,第一种损失,只计算旋转角度和边界框尺度缩放损失,第二种计算,基于旋转角度和缩放参数得到的边界框,计算与真值边界框的交并比损失。第二种更为合理,归根结底我我们是要使得预测边界框与真实值尽可能重合,准确来说,(a)->(b)是递进。
fig9.数据集介绍
- 章节:method
fig10.对比插入像素级降噪组件后的可视化检测结果
- 章节:Experiment
fig11. 旋转边界框检测的可视化结果
- 章节:Experiment
fig12. 密集场景下的小目标HBB;OBB任务检测
- 章节:Experiment
- horizontal bounding boxes (HBB)(水平边界框);oriented bounding boxes (OBB)(旋转边界框)
表格分析
TABLE 1. 图像级去噪模块的消融实验
- 章节:Experiment
- Objective:在一个模型框架中对比不同图像级降噪方法对模型检测性能的影响
TABLE 2. 像素级降噪模块对准确率和速度的影响
- 章节:Experiment
- Objective:
TABLE 3. 扩展卷积模块卷积层数量和像素级预测结果损失对检测结果的影响
- 章节:Experiment
- Objective:
TABLE 4. InLD对通数据集不通类别检测结果的影响
- 章节:Experiment
- Objective:在不同基础模型上,添加像素级降噪模块对各个类别检测结果的影响
TABLE 5. ImLD,InLD组合对检测准确率的硬性
- 章节:Experiment
- Objective:在不同数据集,不同算法框架上,添加像素级图像级降噪模块对检测结果的影响。
TABLE 6. 像素级降噪在和数据增广方式,对结果的影响
- 章节:Experiment
- Objective:在DOTA-V1数据集,不同算法框架上,添加像素级降噪模块;和不同数据增广方式,对比检测结果。
TABLE 7. 损失函数,InLD,backbone,不同类别的影响。
- 章节:Experiment
- Objective:学一手排列组合,消融实验
TABLE 8. 不同损失函数,对检测结果的影响。
- 章节:Experiment
- Objective:学一手排列组合,消融实验
TABLE 9/TABLE 10. 检测结果大全
- .。。。。
骚话本
- inter-class feature coupling(类间特征耦合):猫狗都有一个头四条腿。
- intra-class feature boundary blur (类内特征边界模糊):都属于猫,但是花色不一。
- baseline model /base model(基线模型):做性能比较时用baseline model,强调算法开发优化时用base model
- InLD component(InLD组件):学了个新词组件(component),作电子元器件的表达比较多,这里指代网络模块。
- category-decoupled feature(类别解耦特征):用于生成目标值之前的特征图。举一反三: 巴拉巴拉解耦特征
- periodicity of angular (PoA)(角度周期性):本文指的是计算损失时边界框的旋转角度。
- exchangeability of edges (EoE)(边界互换性):本文指计算损失时边界框w,h的缩放。
- horizontal bounding boxes (HBB)(水平边界框):
- oriented bounding boxes (OBB)(旋转边界框):
- Ablation Study(消融实验):
- objectness (目标置信度)
通用作图套路总结
1. 可视化模块网络模块性能
- 方法:将模块插入前后生成的特征图映射到输入图像。对比性能优劣;
e.g. fig3
- 扩展,可以根据目标检测的输出类别置信度,生成对应目标的热力图,用于对比特定目标的检测效果。