首页 > 其他分享 >实时 3D 深度多摄像头跟踪 Real-time 3D Deep Multi-Camera Tracking

实时 3D 深度多摄像头跟踪 Real-time 3D Deep Multi-Camera Tracking

时间:2024-04-09 15:47:10浏览次数:13  
标签:Real Multi 轨迹 卷积 跟踪器 特征 节点 3D

实时 3D 深度多摄像头跟踪 Real-time 3D Deep Multi-Camera Tracking

论文url https://arxiv.org/abs/2003.11753

论文简述:

提出了一个名为Deep Multi-Camera Tracking (DMCT)的实时3D多摄像机跟踪系统。该系统旨在解决使用多个RGB摄像机进行3D人群跟踪的挑战性任务。

总体框架图:

Figure

Figure

输入:

  • 多个RGB摄像机的实时视频帧,每个视频帧是一个彩色图像,具有高度和宽度的像素矩阵。

DGPN(Deep GroundPoint Network):

  • 基础卷积层(Base CNN Layers)
    • 从输入图像中提取基本的视觉特征,如边缘、角点和纹理等,经过卷积和激活函数(如ReLU)处理后,输出的是一组特征图(feature maps),这些特征图捕捉了输入图像的重要视觉信息。
  • 深度特征提取层
    • 使用预训练的深度网络(如ResNet或DLA)作为骨干网络,进一步提取更深层次的特征。这些特征包括对象的部分、姿态和形状等,输出的是更丰富、更抽象的特征图,这些特征图为后续的地面点预测提供了必要的信息。
  • 透视校正层
    • 原理:透视校正层的目的是解决由于摄像机视角和距离不同导致的透视变形问题。在多摄像机系统中,同一个物体在不同摄像机视图中的大小和形状可能会有所不同,该层通过学习摄像机的内参和外参(即相机矩阵),来消除透视变形的影响(ps:相机矩阵由摄像头校准过程获取,可能是相机图像标定操作)
    • 校正过程:具体来说,对于每个摄像机视图,网络会计算一个从图像平面到虚拟地面平面的映射。这个映射可以通过相机的内参矩阵和外参矩阵来实现,其中内参矩阵描述了相机镜头的畸变,外参矩阵描述了摄像机在世界坐标系中的位置和朝向。(ps:作者提出了一种改进的方法来映射人物位置热图到虚拟地面平面。这种方法通过预畸变处理,校正了由于透视变换引起的图像拉伸变形,从而提高了人物检测的准确性。具体来说,通过将地面平面划分为等半径的单元格并创建相应的掩码,这些掩码被用于损失函数,以优化网络生成的地面点预测。这种方法有效地提高了多视角下人物跟踪的性能。)
      figure
    • 输出:经过透视校正后的特征图能够更准确地反映物体在地面平面上的真实位置和形状。
  • 地面点预测层:
    • 原理:地面点预测层的目标是为每个人生成一个地面点概率图,这个概率图表示每个人在地面平面上的投影位置的概率分布。
    • 生成heatmap:这一层首先使用一系列卷积层来处理经过透视校正的特征图,然后通过一个特定的输出层(通常是一个卷积层,其卷积核的尺寸与地面点的预期大小相匹配)来生成热图。这个输出层的每个卷积核负责预测一个特定区域的地面点概率。
    • 概率转换:输出层的每个卷积核会为每个像素点分配一个概率值,这个值表示该像素点是某个人体地面点的可能性。这通常是通过一个激活函数(如softmax)来实现的,确保每个像素点的概率值在0到1之间,并且整个热图中所有像素点的概率值之和为1。

投影与聚合(Projection & Aggregation):

  • 利用相机矩阵将每个视角的概率图投影到共享的地面平面上。这样,来自多个相机的投影概率图就可以融合在一起,形成一个统一的地面平面占用图(occupancy map)。这个过程涉及到3D几何计算,将不同视角的信息整合到一个共享的二维平面上。

占用图融合(Occupancy Map Fusion):

  • 融合过程可以通过两种方式进行。第一种方法是通过对投影的概率图进行平均,生成最终的占用图。第二种方法则是将所有概率图堆叠起来,作为人员检测器的输入。在实际应用中,实验表明使用视角感知的融合方法能够更好地处理遮挡和噪声,提高跟踪的准确性。

picture
a图为实际人的分布位置,b图为上述操作后生成的候选的人的位置,上述操作后还需要进行下述操作来捕捉目标在时间序列上的动态信息,进行更精准的人员目标识别

DGN(Deep Glimpse Network):

  • 基础卷积层(Base CNN Layers):
    • 提取特征信息(作用和输出同上)
  • 时间感知层(Temporal Glimpse Layer):
    • 作用:时间感知层的目的是捕捉人员在时间序列上的动态信息。这一层使用了的“时间瞥见”(glimpse)机制,通过在时间维度上对特征图进行采样和聚合,来模拟人类视觉系统在观察运动时的聚焦效应。
    • 操作:时间感知层通过在特征图序列上应用一组特定的卷积核(temporal convolutional layers),将连续帧的信息融合在一起,生成新的特征表示。这个过程类似于在时间序列上对特征图进行“缩放”,以便更好地捕捉运动模式。
    • 输出:经过时间感知层处理后,得到一组包含时间信息的特征图。这些特征图不仅包含了空间信息,还融入了目标随时间变化的动态特征。
  • 时间卷积层(Temporal CNN Layer):
    • 作用:时间卷积层的作用是进一步处理时间感知层的输出,通过在时间维度上进行更复杂的特征融合和抽象,以提取更高层次的时间特征。
    • 操作:时间卷积层使用一系列卷积操作来处理时间感知层的特征图,这些操作可以捕捉更长期的时序依赖关系和复杂的动态模式。
    • 输出:时间卷积层输出一组综合了空间和时间信息的高级特征图,这些特征图用于后续的人员分类和跟踪。

Tracker

  • 输入:跟踪器接收来自Deep Glimpse Network的人候选检测结果,这些结果是在融合的占用图上通过人检测模块得到的。
  • Tracking Graph构建:用于表示轨迹和检测候选之间的关系。在这个图中,矩形节点代表已经形成轨迹的节点,椭圆形节点代表当前帧中检测到的候选节点,五边形节点代表预测节点。
  • 轨迹的延伸:对于每个已有的轨迹,跟踪器尝试在当前帧中找到它的延伸。这意味着跟踪器会寻找一个路径,这个路径不仅通过当前轨迹的最后一个节点,而且还要通过所有其他节点,并且保证路径之间不会相交(即节点不共享)。
  • 节点间的匹配:跟踪器通过计算节点间的相似度来确定它们是否匹配。这里的相似度通常是通过计算检测候选和轨迹节点之间的欧几里得距离来衡量的。跟踪器会为每个轨迹节点找到最可能的匹配候选节点。
  • 轨迹的更新:一旦找到匹配,跟踪器会更新轨迹,将旧的轨迹节点扩展到新的匹配节点。如果在一定数量的帧中(例如100帧),一个轨迹没有找到匹配的候选节点,那么这个轨迹会被移除。
  • 新轨迹创建:对于当前帧中没有匹配到任何轨迹的检测候选节点,跟踪器会创建新的轨迹。这些新的轨迹会被加入到跟踪图中,并在下一时刻用于进一步的跟踪
  • 输出:跟踪器输出的是每个人在多个摄像头视角下的三维轨迹。这些轨迹以时间为序列,展示了每个人在空间中的移动路径。

效果图片展示:

figure

标签:Real,Multi,轨迹,卷积,跟踪器,特征,节点,3D
From: https://www.cnblogs.com/AzathothLXL/p/18124105

相关文章

  • 一文搞懂航测成果和3dsmax、sketchup设计软件的交互
    0序BIM+GIS+CAD融合是当下比较热的一个概念。在设计环节,自然是希望能够基于真实的航测成果去做设计(在现状地形的基础上做设计),设计完的成果能够直接导入到GIS平台叠加红线、水系、路网等各种业务数据,做设计方案的校验。同豪、Revit、Microstation、OpenRoads等bim设计软件......
  • 第六个OpenGL程序,Coordinate Systems 坐标系统 后续之 3D 3
    效果: 代码main.cpp:#include<iostream>#include<glad/glad.h>#include<glfw3.h>#include"Shader.h"#defineSTB_IMAGE_IMPLEMENTATION#include<stb_image.h>#include<glm/glm.hpp>#include<glm/gtc/matrix_transfo......
  • 第六个OpenGL程序,Coordinate Systems 坐标系统 后续之 3D 1(这个图形有点奇怪)
    效果:代码main.cpp:#include<iostream>#include<glad/glad.h>#include<glfw3.h>#include"Shader.h"#defineSTB_IMAGE_IMPLEMENTATION#include<stb_image.h>#include<glm/glm.hpp>#include<glm/gtc/matrix_transfo......
  • 解锁水务新视界:水泵房3D可视化技术探索
    在现代化城市建设中,水务管理已经成为城市运营不可或缺的一部分。而水泵房作为水务系统的核心组成部分,其运行状态和效率直接影响到整个城市的供水安全。然而,传统的水泵房管理方式往往存在诸多不足,如信息不透明、操作复杂、维护困难等。 3D可视化技术通过高精度的三维建模和渲染......
  • 3D可视化:机场管理的高效新引擎
    在科技日新月异的今天,3D可视化技术正逐步渗透到我们生活的方方面面,为各行各业带来了前所未有的变革。3D可视化技术以其独特的魅力和实用性,正逐渐成为航空领域的新宠,引领着航空业迈向更加智能化、高效化的未来。 机场作为连接世界的交通枢纽,其运营效率和安全性至关重要。然而,传......
  • ZW3D二次开发_文件_操作用户属性
    1.什么是文件用户属性?文件用户属性是指用户保存在ZW3D文件内的自定义属性。如下图打开ZW3D文件用户属性界面可查看用户属性:2.如何使用代码操作文件用户属性?1)添加用户属性//添加用户属性 constintnumber=5; svxAttributeuserAttrs[number]={0}; strcpy......
  • WPF datagrid mvvm multi select via customize datagrid
    usingSystem;usingSystem.Collections;usingSystem.Collections.Generic;usingSystem.Linq;usingSystem.Text;usingSystem.Threading.Tasks;usingSystem.Windows;usingSystem.Windows.Controls;namespaceWpfApp39{publicclassMultiSelectDataGrid:D......
  • 【论文笔记-1】Multi-lingual Knowledge Graph Embeddings for Cross-lingual Knowled
    论文结构摘要:为了实现跨语言的知识对齐,提出了MTransE,一个基于翻译的多语言知识图谱嵌入模型。通过在分离的嵌入空间中编码每种语言的实体和关系,MTransE为每个嵌入向量提供了过渡到其他空间中跨语言对应物的功能,同时保留了单语种嵌入的功能。动机(待解决的问题):嵌入能够帮助提......
  • 最具有影响力的三个视觉平台 | 3D高斯、场景重建、三维点云、工业3D视觉、SLAM、三维
    大家好,我是小柠檬这里给大家推荐三个国内具有影响力的3D视觉方向平台!原文:最具有影响力的三个视觉平台|3D高斯、场景重建、三维点云、工业3D视觉、SLAM、三维重建、自动驾驶......
  • 【阅读笔记】MySQL的多版本并发控制(MVCC-Multiversion Concurrency Control)
    摘自:高性能MySQL(第四版)MVCC的作用InnoDB和XtraDB存储引擎通过多版本并发控制(MVCC,MultiversionConcurrencyControl)解决了幻读的问题MVCC的应用MySQL的大多数事务型存储引擎使用的都不是简单的行级锁机制。它们会将行级锁和可以提高并发性能的多版本并发控制(MVCC)技术结合使用......