首页 > 其他分享 >【目标检测】Transformers在小目标检测中的应用:最新技术的基准测试和调查

【目标检测】Transformers在小目标检测中的应用:最新技术的基准测试和调查

时间:2024-08-20 15:54:52浏览次数:14  
标签:Transformer Transformers SOD 检测 目标 DETR

《Transformers in Small Object Detection: A Benchmark and Survey of State-of-the-Art》
Transformers在小目标检测中的应用:最新技术的基准测试和调查
原文:https://arxiv.org/abs/2309.04902

1 研究背景和目的

小目标检测(SOD)对现有目标检测方法具有挑战性,而 Transformers 在计算机视觉任务中表现出色,本文旨在探讨 Transformers 在 SOD 中的性能优势及潜在原因。
与基于 CNN 的检测器相比,Transformers 在某些视频或图像数据集中表现更优,但其在 SOD 中的优势原因尚不完全明确。

2 相关工作概述:

介绍了基于 CNN 的目标检测器,如 YOLO、SSD、RetinaNet 等,以及 Transformer 模型的基本架构,包括编码器和解码器。
详细阐述了 DETR 和 ViT - FRCNN 这两个开创性的基于 Transformer 的目标检测器,它们在小目标检测和分类中表现欠佳,且存在计算成本高等问题。

使用Transformer 的小目标检测和流行的目标检测方法
在这里插入图片描述
DETR ViT-FRCNN
在这里插入图片描述

3 基于 Transformers 的 SOD 技术分类及讨论

3.1 对象表示技术Object Representation

各种对象表示技术被用于目标检测,如 RelationNet++ 通过 BVR 模块结合不同表示的优势,CenterNet++ 采用自下而上的方法提高了 SOD 的召回率。

3.2 高分辨率和多尺度特征图的快速注意力Fast Attention for High - Resolution or Multi - Scale Feature Maps

保持高分辨率的特征图对 SOD 性能至关重要,Deformable DETR 通过减少注意力计算的复杂度提高了对小目标的检测性能,Dynamic DETR 利用特征金字塔实现了高效的从粗到细的目标检测,O2DETR 用局部卷积代替注意力机制,CF - DETR 提出了 Transformer Enhanced FPN 模块,FEA - Swin 通过前景增强注意力整合上下文信息。

3.3 基于Transformer的检测器Fully Transformer - Based Detectors

ViDT 将 YOLOS 模型扩展为适用于 SOD 的高效检测器,DFFT 使用两个编码器保持高精度,SRDD 通过评分系统去除编码器中的冗余令牌。

3.4 架构和模块修改Architecture and Block Modifications

为改善 SOD 性能,许多研究对 DETR 进行了改进,如 TSP - FCOS 和 TSP - RCNN 消除了解码器中的交叉注意力模块并引入新的二分匹配技术,Conformer 融合了 CNN 和 Transformer 的特征表示,DIAG - TR 引入 GLFI 模块平衡小目标的尺度差异,其他方法还包括修改注意力机制、使用锚点、改进查询设计、添加局部感知块等。

3.5 辅助技术Auxiliary Techniques

辅助技术包括辅助解码 / 编码损失、迭代框细化、自上而下的监督、预训练、数据增强、一对多标签分配和去噪训练等,这些技术与主任务结合可提高性能。

3.6 改进特征表示Improved Feature Representation

一些方法通过改进特征表示来提高 SOD 性能,如 AO2 - DETR 对任意对象旋转具有鲁棒性,DETR++ 使用多尺度特征学习,PointDet++ 利用人体姿态估计技术,GhostNet 提供高质量的多尺度特征,MS Transformer 使用自监督学习和随机掩码,SOF - DETR、NLFFTNet、DeoT、HTDet、MDCT 等通过融合特征或改进模块来提取更丰富的特征。

3.7 时空信息Spatio - Temporal Information

视频中的小目标检测具有挑战性,一些基于 Transformer 的模型如 TrackFormer、TransT、Trans VOD、PTSEFormer、Sparse VOD、DAFA、VSTAM、FAQ 等被用于视频目标检测,这些模型利用时空信息和特征融合来提高检测性能。

4 实验结果与基准测试

4.1 Datasets

除了 MS COCO 数据集,还介绍了 12 个新的 SOD 数据集,包括 UAV123、MRS - 1800、SKU - 110K、BigDetection、Tang et al.、Xu et al.、DeepLesion、Udacity Self Driving Car、AMMW Dataset、URPC 2018 Dataset、UAV dataset、Drone - vs - bird。

4.2 视觉应用的基准测试Benchmarks in Vision Applications

4.2.1 常规应用Generic Applications

在 MS COCO 数据集上评估了小目标检测器的性能,发现大多数技术受益于 CNN 和 Transformer 的混合架构,预训练和多尺度学习是最有效的策略,CBNet V2 性能较优,DETR 容易过估计物体数量,Faster RCNN 和 SSD 在检测小目标时存在不足。
在这里插入图片描述

4.2.2 航空影像小目标检测Small Object Detection in Aerial Images

在 DOTA 图像数据集上,ReDet 通过多尺度学习和在 ImageNet 上的预训练取得了最高的精度值。
在这里插入图片描述

在这里插入图片描述

4.2.3 医学影像小目标检测Small Object Detection in Medical Images

在 DeepLesion CT 图像数据集上,MS Transformer 表现最佳,该数据集相对其他医学影像任务挑战性较小。
在这里插入图片描述

4.2.4 水下图像小目标检测Small Object Detection in Underwater Images

在 URPC 2018 数据集中,HTDet 是唯一被识别的基于 Transformer 的技术,且显著优于 SOTA CNN 方法,但总体 mAP 分数较低,说明水下目标检测仍是一项艰巨任务。

4.2.5 主动毫米波小目标检测Small Object Detection in Active Milli - Meter Wave Images

在 AMMW 数据集中,MATR 是唯一结合 Transformer 和 CNNs 的技术,能显著提高 SOD 性能。
在这里插入图片描述

4.2.6 视频小目标检测Small Object Detection in Videos

在 ImageNet VID 数据集上,Deformable DETR 与 FAQ 结合取得了最高性能,但 mAP@[0.5, 0.95] 仍较低,视频中的 SOD 仍有很大研究空间。

5 讨论

对比了基于 Transformer 的方法和基于 CNN 的方法的分类,发现一些策略在两者中都有应用,而 Transformer 通过时空变压器或更新对象查询来处理时空分析。
指出预训练和多尺度学习是提高性能的关键策略,但 Transformers 存在参数多、训练时间长、依赖大规模数据集和计算资源等问题。
小目标检测面临的主要挑战是漏检和重复检测框问题,可通过使用高分辨率图像、增强特征金字塔和优化解码器中的对象查询来解决。
除了通用和航空图像应用,Transformers 在其他应用中的发展相对不足,特别是在医学成像等关键领域。

6 结论

本文综述了 60 多篇关于 Transformers 用于小目标检测的研究论文,从七个不同角度进行了分析,并比较了与 CNN 框架的异同,还介绍了相关数据集,未来研究可探索小目标检测在各应用中的独特挑战,以及使用 Transformer 模型的优势和改进策略。

标签:Transformer,Transformers,SOD,检测,目标,DETR
From: https://blog.csdn.net/weixin_44037500/article/details/141352475

相关文章

  • 【OpenCV教程】轮廓检测过程
    @目录1.查找轮廓1.1API1.2轮廓层级检测模式:索引号(层级)RETR_EXTERNAL(索引顺序:从右下到左上)RETR_LIST(recommended)(索引顺序:从右下到左上,由外到内)RETR_CCOMP(notrecommended)(索引顺序:由内到外,从右下到左上)RETR_TREE(recommended)1.3轮廓坐标点储存方式2.绘制轮廓2.1API3.轮廓面......
  • 基于STM32(STM32F103RETX)项目:水质检测与水位控制器(节点板)
    目录项目介绍一、项目需求二、设计方案三、相关技术点四、预计效果设备开发一、TDS模块二、LORA模块项目介绍一、项目需求1.水资源保护与管理的需求随着工业化和城市化的快速发展,水资源的污染问题日益严重,对水质进行实时监测和管理变得尤为重要。水质检测与水......
  • 网络丢包深度解析与优化:检测、诊断与减少策略
    摘要网络丢包是影响数据传输质量和效率的关键因素之一。它发生在数据包在源和目的地之间的传输过程中,由于多种原因导致数据包未能成功到达。本文将详细介绍网络丢包的原因、如何检测丢包、以及采取哪些措施来减少丢包,提高网络传输的可靠性和效率。1.网络丢包的定义与影响......
  • 关键点检测(2)——关键点检测发展历程
    关键点检测,作为计算机视觉领域的重要分支,旨在识别图像或视频中具有特定意义或信息的关键点。如人脸上的鼻子,眼睛,或是关节等。在神经网络中,用于关键点检测的卷积神经网络(ConvolutionalNeuralNetworks,CNNs)有许多出名的模型。从DeepPose开始,直到现在的先进方法,形成了丰富......
  • APP安全检测报告内容详解
    一、APP安全检测的必要性APP安全检测是确保移动应用安全的重要一环。在开发过程中,由于技术、人员和管理等方面的原因,APP可能存在各种安全漏洞和风险。这些漏洞一旦被黑客利用,可能导致用户数据泄露、恶意代码注入、应用被篡改等严重后果。因此,对APP进行安全检测,及时发现并修复......
  • 【OpenCV_python】凸包检测 轮廓特征 直方图均衡化 模板匹配 霍夫变换
    凸包特征检测凸包就是图像的最小外接多边形,通过图像的轮廓点,找到距离最远的两个点的直线,根据直线找到距离最远的下一个点,直到所有的点被包围在多边形内读取图像二值化找图像的轮廓获取凸包点的坐标绘制凸包点convexHull获得图像的凸包点cv2.convexHull(points,hu......
  • 错误 1 error LNK2038: 检测到“RuntimeLibrary”的不匹配项: 值“MTd_StaticDebug”
    前言全局说明VisualStudio2013jsoncpp0.10.7库编译LNK2038一、说明环境:Windows7旗舰版VisualStudio2013二、错误内容错误1errorLNK2038:检测到“RuntimeLibrary”的不匹配项:值“MTd_StaticDebug”不匹配值“MDd_DynamicDebug”(mfc_mqtt-client-po......
  • YOLOV5单目测距+车辆检测+车道线检测+行人检测(教程-代码)
     YOLOv5是一种高效的目标检测算法,结合其在单目测距、车辆检测、车道线检测和行人检测等领域的应用,可以实现多个重要任务的精确识别和定位。首先,YOLOv5可以用于单目测距。通过分析图像中的目标位置和尺寸信息,结合相机参数和几何关系,可以推断出目标与相机之间的距离。这对于......
  • 计算机视觉实战项目3(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人
     车辆跟踪及测距 该项目一个基于深度学习和目标跟踪算法的项目,主要用于实现视频中的目标检测和跟踪。该项目使用了YOLOv5目标检测算法和DeepSORT目标跟踪算法,以及一些辅助工具和库,可以帮助用户快速地在本地或者云端上实现视频目标检测和跟踪!教程博客_传送门链接-------......
  • 【OpenCV教程】滤波和边缘检测的过程
    @目录1.均值滤波1.1卷积核形状1.2API1.3效果2.高斯滤波2.1卷积核形状2.2API2.3效果3.中值滤波3.1原理3.2API3.3效果4.高斯双边滤波4.1原理4.2API4.3效果5.获取用来形态学操作的滤波器6.腐蚀和膨胀(对二值图)6.1原理6.2腐蚀API6.3效果6.4膨胀API6.5效果7.形态学操作......