阿里最新HomView-MOT技术：UAV动态场景下的多目标跟踪

来源：3D视觉工坊

添加小助理：dddvision，备注：方向+学校/公司+昵称，拉你入群。文末附行业细分群

扫描下方二维码，加入3D视觉知识星球，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门视频课程（星球成员免费学习）、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

论文题目：View-Centric Multi-Object Tracking with Homographic Matching in Moving UAV

作者：Deyi Ji, Siqi Gao等

作者机构：Alibaba Group等

论文链接：https://arxiv.org/pdf/2403.10830.pdf

这篇论文解决了移动无人机场景下的多目标跟踪（MOT）挑战，其中不规则的飞行轨迹（如悬停、向左/向右转向以及上/下移动）导致与固定摄像头MOT相比显著增加了复杂性。具体来说，场景背景的变化不仅使传统的帧间对象IOU关联方法失效，而且还引入了对象的显著视角变化，使跟踪变得更加复杂。为了克服这些问题，作者提出了一种新颖的通用HomView-MOT框架，首次利用了变化场景中固有的视角单应性来解决移动环境中的MOT挑战，融合了Homographic Matching和View-Centric概念。作者引入了一种快速单应性估计（FHE）算法，用于快速计算视频帧之间的单应性矩阵，实现了对象视角为中心的ID学习（VCIL），并利用多视角单应性来学习跨视角的ID特征。同时，作者的Homographic Matching Filter（HMF）将不同帧的对象边界框映射到一个共同的视图平面上，以实现更真实的物理IOU关联。大量实验证明，这些创新使HomView-MOT在知名的无人机MOT数据集VisDrone和UAVDT上取得了最先进的性能。

读者理解：

本文介绍了一种针对移动无人机场景中的多目标跟踪问题的新颖方法HomView-MOT。该方法利用单应性和视图中心学习的原理，通过快速单应性估计、单应性匹配滤波器和视图中心ID学习等技术，有效应对了无人机飞行带来的复杂性，取得了在VisDrone和UAVDT数据集上的最先进性能。这篇文章提出的方法在解决现实场景中的移动目标跟踪问题方面具有重要意义，为相关领域的研究和应用提供了有价值的思路和方法。

1 引言

这篇论文探讨了移动无人机场景下的多目标跟踪（MOT）问题，相比固定摄像头拍摄的静态场景，移动无人机场景中由于无人机本身移动导致的场景动态性增加，使得跟踪多个具有不同运动状态对象变得更加困难。为了解决这一问题，文章提出了一种新颖的HomView-MOT框架，首次将视角单应性与跟踪算法结合，以解决移动环境下的MOT挑战。具体来说，作者设计了快速单应性估计（FHE）算法，用于计算视频帧之间的单应性矩阵，并引入了单应性匹配滤波器（HMF）将不同帧中的对象映射到相同的视图空间，从而提高了跟踪的准确性。此外，为了应对无人机飞行过程中对象视角变化的问题，作者提出了视角为中心的ID学习（VCIL），通过学习跨视图ID特征来更新对象的ID特征。实验结果表明，HomView-MOT在两个典型的无人机MOT数据集上表现出了最先进的性能。

本文贡献：

首次通过将来自不同视角的单应性概念集成到一起，引入单应性匹配和以视角为中心的概念到该领域，并提出了一个通用的HomView-MOT框架，来解决移动场景中的多目标跟踪（MOT）问题。
具体来说，首先采用快速单应性估计（FHE）算法，快速估计任意两个视频帧之间的单应性矩阵。基于此，执行对象视角为中心的ID学习（VCIL），利用多视角的单应性来学习跨视图ID特征。此外，利用单应性矩阵，设计了一个单应性匹配滤波器（HMF），将不同帧中的对象边界框映射到相同的视图平面上，从而实现更准确的物理IoU关联，使其更贴近实际世界。
通过大量实验证明，上述设计使HomView-MOT在两个典型的无人机MOT数据集VisDrone和UAVDT上取得了最先进的性能。

2 方法

2.1 概述

提出了一种名为HomView-MOT的新型多目标跟踪方法，适用于移动无人机场景。作者的方法遵循经典的检测跟踪范式，旨在通过检测和追踪目标来实现多目标跟踪。具体来说，首先提出了一种快速单应性估计算法（FHE），用于计算相邻帧之间的单应性矩阵，从而实现场景视图的投影。然后，引入了视角为中心的ID学习（VCIL）模块，用于学习每个对象的多视角特征并更新对象的ID特征。最后，在跟踪阶段，设计了单应性匹配滤波器（HMF），将相邻帧中的对象框映射到相同的视图平面上进行IoU关联，结合ID特征相似性，最终输出跟踪结果。通过在典型无人机MOT数据集上进行了广泛实验证明，HomView-MOT能够取得与当前最先进方法相媲美的性能水平。这一工作为解决移动无人机场景下的多目标跟踪问题提供了一种创新的思路和方法。

2.2 视图投影的快速单应性估计

这一部分介绍了在移动无人机场景中进行视图投影的快速单应性估计方法。当无人机飞行状态发生变化时，捕获的场景背景会发生显著变化，使得相邻帧呈现不同的视图平面。为了促进对象ID的跨视图学习和IoU关联，提出了通过单应性矩阵进行视图投影的方法。首先介绍了单应性估计算法，然后提出了快速单应性估计（FHE）方法，该方法可以在仅计算有限数量的关键帧的单应性矩阵的情况下，快速估计其他相邻帧的单应性矩阵。具体来说，通过均匀采样过程选择关键帧，然后通过推导来估计任意两帧之间的单应性矩阵，从而提高了计算效率。

2.3 视图中心ID学习

这一部分介绍了在移动无人机场景中进行视图中心ID学习的方法。通过利用先前计算的相邻帧之间的单应性矩阵，实现了对象ID的多视图学习。该方法结合了Homography Slot Attention和视图中心槽位的概念，通过迭代注意力机制和单应性矩阵将输入映射到视图中心的槽位。通过实验证明，这种方法能够有效地更新对象的ID特征，提高了多目标跟踪的效率和准确性。

2.4 单应性匹配滤波器

本部分介绍了利用单应性矩阵设计的单应性匹配滤波器（HMF），用于将不同帧中的对象边界框映射到同一视图平面上，实现更准确的物理IoU关联。相比传统的卡尔曼滤波器，HMF能更好地处理与无人机相关的复杂运动，提高了跟踪的鲁棒性和准确性。与现有的运动滤波器相比，HMF更为简洁、轻量且鲁棒，能够更有效地处理不规则运动和复杂场景，提高了跟踪效率。

2.5 损失设计和整体跟踪算法

本部分介绍了跟踪算法的损失设计和整体算法。除了基本的检测损失外，还引入了重构损失，用于将视图中心槽位重构为视觉特征。整体损失由基本损失和重构损失的加权和组成。算法的核心思想是利用单应性矩阵和视图中心槽位进行跨帧对象ID关联学习，并通过损失函数来优化跟踪性能。最终提出的跟踪算法在考虑到不规则运动和复杂场景的情况下能够提高跟踪的鲁棒性和准确性。

3 实验

实验部分主要涉及两个数据集的实验评估、实现细节和算法设计的验证。首先介绍了使用的两个数据集：VisDrone2019和UAVDT，分别用于无人机视角下的目标检测和跟踪。VisDrone2019包含56个训练序列、7个验证序列和33个测试序列，包含十种类别；UAVDT包含30个训练序列和20个测试序列，仅包含车辆类别。实验中使用了与现有工作相同的实验设置，包括30个训练周期、学习率衰减和数据增强等。实验结果表明，所提出的方法在VisDrone2019和UAVDT数据集上均取得了优秀的性能，优于现有方法。

接着进行了消融实验，验证了所提出方法中视图中心ID学习和单应性匹配滤波器的有效性。视图中心ID学习能够有效提高ID特征关联的可靠性，进而增强在移动无人机场景下的跟踪算法的鲁棒性。单应性匹配滤波器能够更准确地将不同帧的对象边界框映射到相同的视图平面，从而实现更精确的IOU关联。实验结果显示，引入视图中心ID学习和单应性匹配滤波器均能显著提高跟踪性能。

最后，进行了对比实验，将所提出的方法与现有方法进行比较。在VisDrone2019和UAVDT数据集上，所提出的方法均取得了优于现有方法的性能，表明其在无人机目标跟踪领域具有较好的应用前景。

4 总结

这项工作介绍了一种创新的HomView-MOT框架，成功解决了移动无人机场景中多目标跟踪的挑战。通过利用单应性和视图中心学习原理，有效应对了无人机飞行动态带来的复杂性。快速单应性估计算法高效计算单应性矩阵，而单应性匹配滤波器和视图中心ID学习技术有助于实现跟踪的精确性和稳健性。实验结果表明，该框架在VisDrone和UAVDT数据集上取得了最先进的性能。

本文仅做学术分享，如有侵权，请联系删文。

3D视觉工坊交流群

目前我们已经建立了3D视觉方向多个社群，包括2D计算机视觉、大模型、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向，细分群包括：

2D计算机视觉：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型：NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机：四旋翼建模、无人机飞控等

除了这些，还有求职、硬件选型、视觉产品落地、最新论文、3D视觉最新产品、3D视觉行业新闻等交流群

添加小助理: dddvision，备注：研究方向+学校/公司+昵称（如3D点云+清华+小草莓）, 拉你入群。

▲长按扫码添加助理

3D视觉工坊知识星球

3D视觉从入门到精通知识星球、国内成立最早、6000+成员交流学习。包括：星球视频课程近20门（价值超6000）、项目对接、3D视觉学习路线总结、最新顶会论文&代码、3D视觉行业最新模组、3D视觉优质源码汇总、书籍推荐、编程基础&学习工具、实战项目&作业、求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球，一起学习进步。

▲长按扫码加入星球

3D视觉工坊官网：www.3dcver.com

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪，无人机等。

▲长按扫码学习3D视觉精品课程

标签：单应性,视图,MOT,HomView,无人机,UAV,ID,3D
From： https://blog.csdn.net/weixin_46788581/article/details/137233434