《Transformers in Small Object Detection: A Benchmark and Survey of State-of-the-Art》
Transformers在小目标检测中的应用:最新技术的基准测试和调查
原文:https://arxiv.org/abs/2309.04902
1 研究背景和目的
小目标检测(SOD)对现有目标检测方法具有挑战性,而 Transformers 在计算机视觉任务中表现出色,本文旨在探讨 Transformers 在 SOD 中的性能优势及潜在原因。
与基于 CNN 的检测器相比,Transformers 在某些视频或图像数据集中表现更优,但其在 SOD 中的优势原因尚不完全明确。
2 相关工作概述:
介绍了基于 CNN 的目标检测器,如 YOLO、SSD、RetinaNet 等,以及 Transformer 模型的基本架构,包括编码器和解码器。
详细阐述了 DETR 和 ViT - FRCNN 这两个开创性的基于 Transformer 的目标检测器,它们在小目标检测和分类中表现欠佳,且存在计算成本高等问题。
使用Transformer 的小目标检测和流行的目标检测方法
DETR ViT-FRCNN
3 基于 Transformers 的 SOD 技术分类及讨论
3.1 对象表示技术Object Representation
各种对象表示技术被用于目标检测,如 RelationNet++ 通过 BVR 模块结合不同表示的优势,CenterNet++ 采用自下而上的方法提高了 SOD 的召回率。
3.2 高分辨率和多尺度特征图的快速注意力Fast Attention for High - Resolution or Multi - Scale Feature Maps
保持高分辨率的特征图对 SOD 性能至关重要,Deformable DETR 通过减少注意力计算的复杂度提高了对小目标的检测性能,Dynamic DETR 利用特征金字塔实现了高效的从粗到细的目标检测,O2DETR 用局部卷积代替注意力机制,CF - DETR 提出了 Transformer Enhanced FPN 模块,FEA - Swin 通过前景增强注意力整合上下文信息。
3.3 基于Transformer的检测器Fully Transformer - Based Detectors
ViDT 将 YOLOS 模型扩展为适用于 SOD 的高效检测器,DFFT 使用两个编码器保持高精度,SRDD 通过评分系统去除编码器中的冗余令牌。
3.4 架构和模块修改Architecture and Block Modifications
为改善 SOD 性能,许多研究对 DETR 进行了改进,如 TSP - FCOS 和 TSP - RCNN 消除了解码器中的交叉注意力模块并引入新的二分匹配技术,Conformer 融合了 CNN 和 Transformer 的特征表示,DIAG - TR 引入 GLFI 模块平衡小目标的尺度差异,其他方法还包括修改注意力机制、使用锚点、改进查询设计、添加局部感知块等。
3.5 辅助技术Auxiliary Techniques
辅助技术包括辅助解码 / 编码损失、迭代框细化、自上而下的监督、预训练、数据增强、一对多标签分配和去噪训练等,这些技术与主任务结合可提高性能。
3.6 改进特征表示Improved Feature Representation
一些方法通过改进特征表示来提高 SOD 性能,如 AO2 - DETR 对任意对象旋转具有鲁棒性,DETR++ 使用多尺度特征学习,PointDet++ 利用人体姿态估计技术,GhostNet 提供高质量的多尺度特征,MS Transformer 使用自监督学习和随机掩码,SOF - DETR、NLFFTNet、DeoT、HTDet、MDCT 等通过融合特征或改进模块来提取更丰富的特征。
3.7 时空信息Spatio - Temporal Information
视频中的小目标检测具有挑战性,一些基于 Transformer 的模型如 TrackFormer、TransT、Trans VOD、PTSEFormer、Sparse VOD、DAFA、VSTAM、FAQ 等被用于视频目标检测,这些模型利用时空信息和特征融合来提高检测性能。
4 实验结果与基准测试
4.1 Datasets
除了 MS COCO 数据集,还介绍了 12 个新的 SOD 数据集,包括 UAV123、MRS - 1800、SKU - 110K、BigDetection、Tang et al.、Xu et al.、DeepLesion、Udacity Self Driving Car、AMMW Dataset、URPC 2018 Dataset、UAV dataset、Drone - vs - bird。
4.2 视觉应用的基准测试Benchmarks in Vision Applications
4.2.1 常规应用Generic Applications
在 MS COCO 数据集上评估了小目标检测器的性能,发现大多数技术受益于 CNN 和 Transformer 的混合架构,预训练和多尺度学习是最有效的策略,CBNet V2 性能较优,DETR 容易过估计物体数量,Faster RCNN 和 SSD 在检测小目标时存在不足。
4.2.2 航空影像小目标检测Small Object Detection in Aerial Images
在 DOTA 图像数据集上,ReDet 通过多尺度学习和在 ImageNet 上的预训练取得了最高的精度值。
4.2.3 医学影像小目标检测Small Object Detection in Medical Images
在 DeepLesion CT 图像数据集上,MS Transformer 表现最佳,该数据集相对其他医学影像任务挑战性较小。
4.2.4 水下图像小目标检测Small Object Detection in Underwater Images
在 URPC 2018 数据集中,HTDet 是唯一被识别的基于 Transformer 的技术,且显著优于 SOTA CNN 方法,但总体 mAP 分数较低,说明水下目标检测仍是一项艰巨任务。
4.2.5 主动毫米波小目标检测Small Object Detection in Active Milli - Meter Wave Images
在 AMMW 数据集中,MATR 是唯一结合 Transformer 和 CNNs 的技术,能显著提高 SOD 性能。
4.2.6 视频小目标检测Small Object Detection in Videos
在 ImageNet VID 数据集上,Deformable DETR 与 FAQ 结合取得了最高性能,但 mAP@[0.5, 0.95] 仍较低,视频中的 SOD 仍有很大研究空间。
5 讨论
对比了基于 Transformer 的方法和基于 CNN 的方法的分类,发现一些策略在两者中都有应用,而 Transformer 通过时空变压器或更新对象查询来处理时空分析。
指出预训练和多尺度学习是提高性能的关键策略,但 Transformers 存在参数多、训练时间长、依赖大规模数据集和计算资源等问题。
小目标检测面临的主要挑战是漏检和重复检测框问题,可通过使用高分辨率图像、增强特征金字塔和优化解码器中的对象查询来解决。
除了通用和航空图像应用,Transformers 在其他应用中的发展相对不足,特别是在医学成像等关键领域。
6 结论
本文综述了 60 多篇关于 Transformers 用于小目标检测的研究论文,从七个不同角度进行了分析,并比较了与 CNN 框架的异同,还介绍了相关数据集,未来研究可探索小目标检测在各应用中的独特挑战,以及使用 Transformer 模型的优势和改进策略。
标签:Transformer,Transformers,SOD,检测,目标,DETR From: https://blog.csdn.net/weixin_44037500/article/details/141352475