首页 > 其他分享 >阿里最新HomView-MOT技术:UAV动态场景下的多目标跟踪

阿里最新HomView-MOT技术:UAV动态场景下的多目标跟踪

时间:2024-04-01 15:01:54浏览次数:14  
标签:单应性 视图 MOT HomView 无人机 UAV ID 3D

来源:3D视觉工坊

添加小助理:dddvision,备注:方向+学校/公司+昵称,拉你入群。文末附行业细分群

扫描下方二维码,加入3D视觉知识星球,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:近20门视频课程(星球成员免费学习)最新顶会论文计算机视觉书籍优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

图片

论文题目:View-Centric Multi-Object Tracking with Homographic Matching in Moving UAV

作者:Deyi Ji, Siqi Gao等

作者机构:Alibaba Group等

论文链接:https://arxiv.org/pdf/2403.10830.pdf

这篇论文解决了移动无人机场景下的多目标跟踪(MOT)挑战,其中不规则的飞行轨迹(如悬停、向左/向右转向以及上/下移动)导致与固定摄像头MOT相比显著增加了复杂性。具体来说,场景背景的变化不仅使传统的帧间对象IOU关联方法失效,而且还引入了对象的显著视角变化,使跟踪变得更加复杂。为了克服这些问题,作者提出了一种新颖的通用HomView-MOT框架,首次利用了变化场景中固有的视角单应性来解决移动环境中的MOT挑战,融合了Homographic Matching和View-Centric概念。作者引入了一种快速单应性估计(FHE)算法,用于快速计算视频帧之间的单应性矩阵,实现了对象视角为中心的ID学习(VCIL),并利用多视角单应性来学习跨视角的ID特征。同时,作者的Homographic Matching Filter(HMF)将不同帧的对象边界框映射到一个共同的视图平面上,以实现更真实的物理IOU关联。大量实验证明,这些创新使HomView-MOT在知名的无人机MOT数据集VisDrone和UAVDT上取得了最先进的性能。

图片

图片

读者理解:

本文介绍了一种针对移动无人机场景中的多目标跟踪问题的新颖方法HomView-MOT。该方法利用单应性和视图中心学习的原理,通过快速单应性估计、单应性匹配滤波器和视图中心ID学习等技术,有效应对了无人机飞行带来的复杂性,取得了在VisDrone和UAVDT数据集上的最先进性能。这篇文章提出的方法在解决现实场景中的移动目标跟踪问题方面具有重要意义,为相关领域的研究和应用提供了有价值的思路和方法。

1 引言

这篇论文探讨了移动无人机场景下的多目标跟踪(MOT)问题,相比固定摄像头拍摄的静态场景,移动无人机场景中由于无人机本身移动导致的场景动态性增加,使得跟踪多个具有不同运动状态对象变得更加困难。为了解决这一问题,文章提出了一种新颖的HomView-MOT框架,首次将视角单应性与跟踪算法结合,以解决移动环境下的MOT挑战。具体来说,作者设计了快速单应性估计(FHE)算法,用于计算视频帧之间的单应性矩阵,并引入了单应性匹配滤波器(HMF)将不同帧中的对象映射到相同的视图空间,从而提高了跟踪的准确性。此外,为了应对无人机飞行过程中对象视角变化的问题,作者提出了视角为中心的ID学习(VCIL),通过学习跨视图ID特征来更新对象的ID特征。实验结果表明,HomView-MOT在两个典型的无人机MOT数据集上表现出了最先进的性能。

本文贡献:

  • 首次通过将来自不同视角的单应性概念集成到一起,引入单应性匹配和以视角为中心的概念到该领域,并提出了一个通用的HomView-MOT框架,来解决移动场景中的多目标跟踪(MOT)问题。

  • 具体来说,首先采用快速单应性估计(FHE)算法,快速估计任意两个视频帧之间的单应性矩阵。基于此,执行对象视角为中心的ID学习(VCIL),利用多视角的单应性来学习跨视图ID特征。此外,利用单应性矩阵,设计了一个单应性匹配滤波器(HMF),将不同帧中的对象边界框映射到相同的视图平面上,从而实现更准确的物理IoU关联,使其更贴近实际世界。

  • 通过大量实验证明,上述设计使HomView-MOT在两个典型的无人机MOT数据集VisDrone和UAVDT上取得了最先进的性能。

图片

2 方法

2.1 概述

提出了一种名为HomView-MOT的新型多目标跟踪方法,适用于移动无人机场景。作者的方法遵循经典的检测跟踪范式,旨在通过检测和追踪目标来实现多目标跟踪。具体来说,首先提出了一种快速单应性估计算法(FHE),用于计算相邻帧之间的单应性矩阵,从而实现场景视图的投影。然后,引入了视角为中心的ID学习(VCIL)模块,用于学习每个对象的多视角特征并更新对象的ID特征。最后,在跟踪阶段,设计了单应性匹配滤波器(HMF),将相邻帧中的对象框映射到相同的视图平面上进行IoU关联,结合ID特征相似性,最终输出跟踪结果。通过在典型无人机MOT数据集上进行了广泛实验证明,HomView-MOT能够取得与当前最先进方法相媲美的性能水平。这一工作为解决移动无人机场景下的多目标跟踪问题提供了一种创新的思路和方法。

2.2 视图投影的快速单应性估计

这一部分介绍了在移动无人机场景中进行视图投影的快速单应性估计方法。当无人机飞行状态发生变化时,捕获的场景背景会发生显著变化,使得相邻帧呈现不同的视图平面。为了促进对象ID的跨视图学习和IoU关联,提出了通过单应性矩阵进行视图投影的方法。首先介绍了单应性估计算法,然后提出了快速单应性估计(FHE)方法,该方法可以在仅计算有限数量的关键帧的单应性矩阵的情况下,快速估计其他相邻帧的单应性矩阵。具体来说,通过均匀采样过程选择关键帧,然后通过推导来估计任意两帧之间的单应性矩阵,从而提高了计算效率。

图片

2.3 视图中心ID学习

这一部分介绍了在移动无人机场景中进行视图中心ID学习的方法。通过利用先前计算的相邻帧之间的单应性矩阵,实现了对象ID的多视图学习。该方法结合了Homography Slot Attention和视图中心槽位的概念,通过迭代注意力机制和单应性矩阵将输入映射到视图中心的槽位。通过实验证明,这种方法能够有效地更新对象的ID特征,提高了多目标跟踪的效率和准确性。

图片

2.4 单应性匹配滤波器

本部分介绍了利用单应性矩阵设计的单应性匹配滤波器(HMF),用于将不同帧中的对象边界框映射到同一视图平面上,实现更准确的物理IoU关联。相比传统的卡尔曼滤波器,HMF能更好地处理与无人机相关的复杂运动,提高了跟踪的鲁棒性和准确性。与现有的运动滤波器相比,HMF更为简洁、轻量且鲁棒,能够更有效地处理不规则运动和复杂场景,提高了跟踪效率。

图片

2.5 损失设计和整体跟踪算法

本部分介绍了跟踪算法的损失设计和整体算法。除了基本的检测损失外,还引入了重构损失,用于将视图中心槽位重构为视觉特征。整体损失由基本损失和重构损失的加权和组成。算法的核心思想是利用单应性矩阵和视图中心槽位进行跨帧对象ID关联学习,并通过损失函数来优化跟踪性能。最终提出的跟踪算法在考虑到不规则运动和复杂场景的情况下能够提高跟踪的鲁棒性和准确性。

图片

3 实验

实验部分主要涉及两个数据集的实验评估、实现细节和算法设计的验证。首先介绍了使用的两个数据集:VisDrone2019和UAVDT,分别用于无人机视角下的目标检测和跟踪。VisDrone2019包含56个训练序列、7个验证序列和33个测试序列,包含十种类别;UAVDT包含30个训练序列和20个测试序列,仅包含车辆类别。实验中使用了与现有工作相同的实验设置,包括30个训练周期、学习率衰减和数据增强等。实验结果表明,所提出的方法在VisDrone2019和UAVDT数据集上均取得了优秀的性能,优于现有方法。

接着进行了消融实验,验证了所提出方法中视图中心ID学习和单应性匹配滤波器的有效性。视图中心ID学习能够有效提高ID特征关联的可靠性,进而增强在移动无人机场景下的跟踪算法的鲁棒性。单应性匹配滤波器能够更准确地将不同帧的对象边界框映射到相同的视图平面,从而实现更精确的IOU关联。实验结果显示,引入视图中心ID学习和单应性匹配滤波器均能显著提高跟踪性能。

最后,进行了对比实验,将所提出的方法与现有方法进行比较。在VisDrone2019和UAVDT数据集上,所提出的方法均取得了优于现有方法的性能,表明其在无人机目标跟踪领域具有较好的应用前景。

图片

图片

4 总结

这项工作介绍了一种创新的HomView-MOT框架,成功解决了移动无人机场景中多目标跟踪的挑战。通过利用单应性和视图中心学习原理,有效应对了无人机飞行动态带来的复杂性。快速单应性估计算法高效计算单应性矩阵,而单应性匹配滤波器和视图中心ID学习技术有助于实现跟踪的精确性和稳健性。实验结果表明,该框架在VisDrone和UAVDT数据集上取得了最先进的性能。

本文仅做学术分享,如有侵权,请联系删文。

3D视觉工坊交流群

目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉大模型工业3D视觉SLAM自动驾驶三维重建无人机等方向,细分群包括:

2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型:NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机:四旋翼建模、无人机飞控等

除了这些,还有求职硬件选型视觉产品落地最新论文3D视觉最新产品3D视觉行业新闻等交流群

添加小助理: dddvision,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。

图片

▲长按扫码添加助理

3D视觉工坊知识星球

3D视觉从入门到精通知识星球、国内成立最早、6000+成员交流学习。包括:星球视频课程近20门(价值超6000)项目对接3D视觉学习路线总结最新顶会论文&代码3D视觉行业最新模组3D视觉优质源码汇总书籍推荐编程基础&学习工具实战项目&作业求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。

图片

▲长按扫码加入星球

3D视觉工坊官网:www.3dcver.com

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪,无人机等

图片

▲长按扫码学习3D视觉精品课程

标签:单应性,视图,MOT,HomView,无人机,UAV,ID,3D
From: https://blog.csdn.net/weixin_46788581/article/details/137233434

相关文章

  • openGauss数据库将磁盘表转换为MOT
    openGauss数据库将磁盘表转换为MOT一、将磁盘表转换为MOT方法磁盘表直接转换为MOT尚不能实现,这意味着尚不存在将基于磁盘的表转换为MOT的ALTERTABLE语句。目前MOT表也不支持rename,createasselect以及insertselect(普通表)的操作。将基于磁盘的表转换为MOT方......
  • DEVASC提示remote: Support for password authentication was removed on August 13,
    意思是:对密码身份验证的支持已于2021年8月13日移除。解决:在git仓库文件夹下使用ssh密钥验证:gitremotermorigin   ---将名为"origin"的远程仓库从本地Git仓库中移除[email protected]:GithubName/repositoryName.git   ---将名......
  • 《手把手教你》系列技巧篇(六十二)-java+ selenium自动化测试-RemoteWebDriver让你的代
    1.简介当本机上没有浏览器,需要远程调用浏览器进行自动化测试时,需要用到RemoteWebDirver。宏哥申请服务器还没有下来,也懒得自己在本地安装虚拟机,等的时间太长了于是就网上找了一个可以免费试用2天的服务器(网址:DedicatedServerHostingService|BareMetal|Varidata),注册一......
  • 深度学习技巧应用39-深度学习模型训练过程中数据均衡策略SMOTE的详细介绍,以及SMOTE的
    大家好,我是微学AI,今天给大家介绍一下深度学习技巧应用39-深度学习模型训练过程中数据均衡策略SMOTE的详细介绍,以及SMOTE的算法原理与实现,本文介绍了一种用于处理分类数据不平衡问题的过采样方法——SMOTE算法。SMOTE算法通过在少数类的样本之间插值来创建新的样本,从而增加少......
  • [USACO24FEB] Bessla Motors G 题解
    题目大意对于每个充电站找它所能去到的非充电站的点TTT($C<T$同时两点的距离在RR......
  • git clone 后如何 checkout 到 remote branch
    what/why通常情况使用gitclonegithub_repository_address下载下来的仓库使用gitbranch查看当前所有分支时只能看到master分支,但是想要切换到其他分支进行工作怎么办❓其实使用gitclone下载的repository没那么简单......
  • git 常用操作记录(tag、remote、rebase等)
             关于git的常用命令(add、commit、pull、push、merge、stash等)在之前的博文已经介绍过了,下面根据工作中遇到的问题,总结一些更为常用的命令使用方式。1、版本标签tag    tag是基于一次commit的,可以指定在某个分支的提交进行打标签。1.1、本地tag常......
  • Redis发布订阅模式解决Guava Cache本地缓存刷新问题
    为什么要用本地缓存可以加快资源访问速度,减少第三方IO延迟,也避免了网络调用的开销,将数据存储在本地jvm内存中可以减少外部系统的压力,可以将频繁访问、且更新场景较少的数据缓存起来,降低对远程服务或者数据库的请求次数,降低外部系统负载,提供系统整体的稳定性缺点:但是同时也得......
  • 汽车电子零部件(7):电机Motor
    前言:新能源汽车的三大件是:电池、电机、电控。可见电机的重要性,可以说直接就取代了发动机。而用到电机的地方不仅仅有驱动四轮,还有方向盘、门窗甚至电池热管理等也都是需要电机这个器件的。当然就电机而言又分变频电机和直流电机,有刷电机和无刷电机。从架构上说,需要电机驱动器+......
  • ST MotorControl Workbench 6.2.1 使用总结
    目录前言软件安装根据自己硬件配置参数生成代码开发板运行​ 总结前言好久没有玩ST的电机库了,已经更新到了MotorControlWorkbench6.2.1,6以上的版本比5的版本界面操作有很大的不同,核心算法有些增加。最近体验了一把使用自定义硬件配置生成代码运行,感受就是如果用官......