首页 > 其他分享 >一种提升深度多视角行人检测的泛化性能的方法 Bringing Generalization to Deep Multi-View Pedestrian Detection

一种提升深度多视角行人检测的泛化性能的方法 Bringing Generalization to Deep Multi-View Pedestrian Detection

时间:2024-04-10 15:25:55浏览次数:22  
标签:视角 泛化 特征 模型 Multi Generalization Bringing 摄像头

一种提升深度多视角行人检测的泛化性能的方法 Bringing Generalization to Deep Multi-View Pedestrian Detection

论文urlhttps://openaccess.thecvf.com/content/WACV2023W/RWS/html/Vora_Bringing_Generalization_to_Deep_Multi-View_Pedestrian_Detection_WACVW_2023_paper.html

论文简述

论文提出了一种用于多视角行人检测的深度学习模型,旨在提高模型在不同摄像机数量、不同摄像机配置和新场景下的泛化能力。

总体框架图

figure1

输入

$ {N} $ 个校准的RGB摄像头图像,图像尺寸为( 3 , $ {H}{i} $ , $ {W} $),其中 $ {H}{i} $ 和 $ {W} $ 分别代表图像的高度和宽度。

DropView Regularization

figure2

  • 操作:在训练过程中,对于每批次视角样本,随机选择一个或多个视角进行丢弃,即不使用这些视角图进行训练。
  • 作用:迫使模型学习到不依赖于任何单一视角的特征表示,这一操作也可以看作数据增强,模拟了在实际应用中可能遇到的摄像头失效或视角遮挡等情况,从而使模型在面对不完整数据时仍能保持性能。提高了鲁棒性,增强了泛化能力。

特征提取模块(Feature Extraction)

  • 操作:使用ResNet18作为特征提取的主干网络,并将最后三层的步长大卷积替换为空洞卷积(dilated convolutions),以获得更高空间分辨率的特征图。
  • 输出: $ {N} $ 个摄像头视图的特征,尺寸为( $ {N} $ , $ {C} $ , $ {H}{f} $ , $ {W} $ ),其中 $ {C} $ 是通道数(特征数), $ {H}{f} $ 和 $ {W} $ 是提取的特征图的高度和宽度。

透视变换(Perspective Transformation)

  • 对于每个视角的特征图,使用透视变换将其从相机坐标系映射到世界坐标系中的地面平面(鸟瞰图)上。
  • 透视变换考虑了相机的内参 $ {K} $ 和外参 $ {[R|t]} $,其中内参包括焦距和主点坐标,外参包括旋转和平移向量。
  • 变换过程中,定义一个地面平面,通常假设为 $ {Z=0} $ 的平面,即 $ {W = (X, Y, 0, 1)^T} $ 。每个像素点 $ {(x, y)} $ 从图像坐标系通过以下变换映射到地面平面坐标系:
    figure3
    其中 $ {s} $ 是缩放因子, $ {P} $ 是透视变换矩阵,$ {(X, Y, Z)} $ 是世界坐标系中的点。
  • 输出:投影到地面平面上的 $ {N} $ 个特征图,尺寸为 $ {(N, C, H_{g}, W_{g})} $ ,其中 $ {H}{g} $ 和 $ {W} $ 是地面平面网格的高度和宽度。

平均池化(Average Pooling)

  • 对所有视图的投影特征图进行平均池化,得到最终的鸟瞰图特征表示 $ {F} $ ,尺寸为 $ {(C, H_{g}, W_{g})} $ 。
  • 特点:在多视角检测中,摄像头的物理排列可能会变化,但模型应该能够独立于特定的摄像头排列来检测行人。平均池化操作是排列不变的,这意味着无论摄像头的输入顺序如何,模型的输出都是一致的,从而提高了模型的泛化能力。

占用图预测(Occupancy Map Prediction)

  • 使用三层空洞卷积层去预测行人占用概率图,输出尺寸为 $ {(H_{g}, W_{g})} $ 。(参考MVDet

损失函数设计

  • 输入:模型输出的概率占用图 $ {(p)} $ 和真实标注的占用图 $ {(g)} $ 。
  • 结合KL散度(KLDiv)和皮尔逊交叉相关系数(CC)作为损失函数,公式如下:
    figure4
    $ {σ(p,g)} $ 是 $ {p,g} $ 的协方差, $ {σ(p)} $ 是 $ {p} $ 的标准差, $ {σ(g)} $ 是 $ {g} $ 的标准差。

后记

  • 有意思的是该作者不仅仅使用了MultiViewX和WildTrack这两个普遍的数据集,并且还用GTAV里面的拍照模式采样了一些样本。

标签:视角,泛化,特征,模型,Multi,Generalization,Bringing,摄像头
From: https://www.cnblogs.com/AzathothLXL/p/18126076

相关文章

  • 大型场景中通过监督视图贡献加权进行多视图人物检测 Multi-View People Detection in
    Multi-ViewPeopleDetectioninLargeScenesviaSupervisedView-WiseContributionWeighting大型场景中通过监督视图贡献加权进行多视图人物检测论文urlhttps://ojs.aaai.org/index.php/AAAI/article/view/28553论文简述:这篇论文提出了一个用于大型场景中多视角人体检测......
  • C++ 标准模板库 STL(1)set 与 multiset
    一、简介    set与multiset容器能够快速查找键,键是存储在一维容器中的值,二者的区别在于前者不能够存储重复的键值,后者能够存储重复键值。    set与multiset内部结构类似于二叉树,并且被插入到set与multiset容器中的元素会默认进行排序,从而提高查找速度。这意......
  • 批量插入和更新allowmultiqueries和rewritebatchedstatements
    mybatis的批处理(效率)之rewriteBatchedStatements和allowMultiQueries-CSDN博客Mysql批量更新的一个坑-&allowMultiQueries=true允许批量更新-CSDN博客通过设置allowmultiqueries和rewritebatchedstatements可以让我们批量插入和删除速度更快。分享removeAbandonedTimeout中间......
  • 论文阅读-Causality Inspired Representation Learning for Domain Generalization
    标题:CausalityInspiredRepresentationLearningforDomainGeneralization会议:CVPR统计学上的相关(stastisticaldependence)不一定表示因果关系。CIRL旨在挖掘内在的因果机制(intrinsiccausalmechanism)。名词解释:DG(DomainGeneralization)域泛化SCM(StructuralCau......
  • 实时 3D 深度多摄像头跟踪 Real-time 3D Deep Multi-Camera Tracking
    实时3D深度多摄像头跟踪Real-time3DDeepMulti-CameraTracking论文urlhttps://arxiv.org/abs/2003.11753论文简述:提出了一个名为DeepMulti-CameraTracking(DMCT)的实时3D多摄像机跟踪系统。该系统旨在解决使用多个RGB摄像机进行3D人群跟踪的挑战性任务。总体框架图......
  • 深度探索:机器学习堆叠泛化(Stacked Generalization, Blending)算法原理及其应用
    目录1.引言与背景2.集成学习定理3.算法原理4.算法实现5.优缺点分析优点:缺点:6.案例应用7.对比与其他算法8.结论与展望1.引言与背景机器学习领域中,模型性能的提升往往依赖于对数据特征的深入理解、恰当的模型选择以及有效的超参数调整。然而,在面对复杂且高度非线性......
  • WPF datagrid mvvm multi select via customize datagrid
    usingSystem;usingSystem.Collections;usingSystem.Collections.Generic;usingSystem.Linq;usingSystem.Text;usingSystem.Threading.Tasks;usingSystem.Windows;usingSystem.Windows.Controls;namespaceWpfApp39{publicclassMultiSelectDataGrid:D......
  • 【论文笔记-1】Multi-lingual Knowledge Graph Embeddings for Cross-lingual Knowled
    论文结构摘要:为了实现跨语言的知识对齐,提出了MTransE,一个基于翻译的多语言知识图谱嵌入模型。通过在分离的嵌入空间中编码每种语言的实体和关系,MTransE为每个嵌入向量提供了过渡到其他空间中跨语言对应物的功能,同时保留了单语种嵌入的功能。动机(待解决的问题):嵌入能够帮助提......
  • 【阅读笔记】MySQL的多版本并发控制(MVCC-Multiversion Concurrency Control)
    摘自:高性能MySQL(第四版)MVCC的作用InnoDB和XtraDB存储引擎通过多版本并发控制(MVCC,MultiversionConcurrencyControl)解决了幻读的问题MVCC的应用MySQL的大多数事务型存储引擎使用的都不是简单的行级锁机制。它们会将行级锁和可以提高并发性能的多版本并发控制(MVCC)技术结合使用......
  • 我给你列举一个详细生动的例子来说明,多个任务数据混合在一起的泛化性能好,还是利用多任
    假设你正在学习做三种不同的手工艺品:编织毛衣、雕刻木雕、和折纸。现在你有两种方法来学习这些手工艺品:将所有材料混合在一起学习:你把毛线、木头和纸张都混在一起,然后学习如何制作所有这些手工艺品。这种方法会让你对各种材料和技术有一定的了解,但可能会导致你在某个特......