首页 > 其他分享 >分割和跟踪每个像素(STEP)评估

分割和跟踪每个像素(STEP)评估

时间:2024-01-21 09:03:29浏览次数:25  
标签:分割 像素 STEP 跟踪 KITTI 评估

分割和跟踪每个像素(STEP)评估

Segmenting and Tracking Every Pixel (STEP) Evaluation

https://www.cvlibs.net/datasets/kitti/eval_step.php

此基准是ICCV21研讨会的一部分:分割和跟踪每个点和像素。

分段和跟踪每个像素(STEP)基准由21个训练序列和29个测试序列组成。它基于KITTI跟踪评估和多目标跟踪与分割(MOTS)基准。此基准测试将注释扩展到“分段和跟踪每个像素”(STEP)任务。为此,为每个像素添加了密集的逐像素分割标签。在该基准中,每个像素都有一个语义标签,属于最显著对象类(汽车和行人)的所有像素都有唯一的跟踪ID。使用分割和跟踪质量(STQ)指标评估提交的结果:

STQ:由AQ和SQ的几何平均值给出的组合分割和跟踪质量。

AQ:与类无关的关联质量。有关详细信息,请参阅上面的链接。

SQ(IoU):由所有类的平均IoU给出的与轨道无关的分割质量。

提交说明可以在提交结果页面上找到。请向Mark Weber回答有关KITTI-STEP及其评估的任何问题或反馈。

重要政策更新:随着越来越多的未发表作品和现有作品的重新实施被提交给KITTI,制定了一项新政策:从现在起,只有具有重大新颖性的作品才能在会议或期刊上发表同行评审论文。不允许对现有算法或学生研究项目进行微小修改。此类工作必须在训练集中进行评估。为了确保政策被采纳,新用户必须在注册期间详细说明他们的状态、描述他们的工作并指定目标地点。此外,将定期删除所有6个月大但仍然匿名或没有相关论文的条目。对于会议,6个月的时间足以确定论文是否被接受并添加参考书目信息。对于较长的审查周期,需要重新提交结果。

方法使用的附加信息

在线:在线方式(逐帧处理,无延迟)

额外的训练数据:使用额外的数据源进行训练

 

\begin{tabular}{c | c | c | c | c}
{\bf Method} & {\bf Setting} & {\bf STQ} & {\bf AQ} & {\bf SQ (IoU)}\\ \hline
Video-kMaX & & 68.47 \% & 67.20 \% & 69.77 \%\\
TubeFormer-DeepLab & on & 65.25 \% & 60.59 \% & 70.27 \%\\
siain & on & 57.87 \% & 55.16 \% & 60.71 \%\\
Motion-DeepLab & on & 52.19 \% & 45.55 \% & 59.81 \%
\end{tabular}

 

图1:提出的KITTI-STEP(顶部)和MOTChallenge STEP(底部)的基本事实标签。

为视频中的每个像素分配语义类和轨迹标识的任务称为视频全景分割。工作是第一次在需要在空间和时间域进行密集解释的现实世界环境中针对这项任务。由于这项任务的基本事实很难获得,而且成本高昂,现有的数据集要么是综合构建的,要么只是在短视频片段中稀疏注释。为了克服这一点,引入了一个新的基准测试,包括两个数据集,KITTI-STEP和MOTChallenge STEP。这些数据集包含长视频序列,为研究现实世界条件下的长期像素精确分割和跟踪提供了具有挑战性的例子和试验台。进一步提出了一种新的评估度量——分割和跟踪质量(STQ),它公平地平衡了该任务的语义和跟踪方面,更适合评估任意长度的序列。

最后,提供了几个基线来评估现有方法在这个新的具有挑战性的数据集上的状态。已经公开了数据集、度量、基准服务器和基线,并希望这将激励未来的研究。

1简介

密集、像素精确的视频场景理解对自动驾驶、电影编辑和时空推理等应用具有重要意义。更具体地说,虽然语义解释有助于估计自动驾驶汽车的可驾驶区域等任务,但物体的跟踪使能够预测周围环境的时间演变,这对运动规划和避障至关重要。

挑战。在实现这一目标的过程中,有三个挑战是发现以前的基准没有解决的。首先,解释相机连续输入的每个像素的能力。

其次,随着时间的推移,输入信号的变化可能会迅速发生,因此要求以与发生的变化相同的高频进行评估。第三,对连续感觉输入的解释需要时间一致的场景理解,即长期跟踪,而当前的基准和度量不适合这种情况。这项工作的目的是通过引入合适的基准和指标来推进这一领域。

过去,PASCAL VOC、ImageNet和COCO等图像基准在过去十年计算机视觉研究的惊人进展中发挥了关键作用,使社区能够以标准化的方式评估不同的方法。

使用各种任务的真实世界数据集来公平地衡量进展并突出关键创新。

为了全面理解图像,Kirillov等人引入了全景分割的概念,将其作为语义分割和实例分割的结合。Kim等人随后引入了视频全景分割(VPS)的概念。然而,它们只是标记了来自真实世界短视频片段的稀疏像素子集,这些片段不适合密集像素精确的视频理解。此外,由于领域转移,现有的合成数据集难以在现实世界中评估性能。

对于VPS的评估,现有的度量建立在全景分割和多目标跟踪的度量之上。由于指标在决定社区的研究方向方面可能很重要,因此指标中的偏差可能会阻碍有希望的创新。

贡献。这项工作的贡献有三方面:

(1) 引入了更合适的基准数据集,这些数据集特别允许时空密集和以像素为中心的评估。提出的基准扩展了现有的KITTI-MOTS和MOTS-Challenge数据集,具有空间和时间密集的注释。试图用语义类和轨迹ID标记每个像素。与全景分割一样,将每个不可计数区域(如天空)视为属于单个轨迹。对于最显著的可数类,在整个视频序列中为每个实例分配一个语义类和一个唯一的ID。

(2) 详细研究了先前的度量之后,提出了更适合于访问算法的分割和跟踪性能的分割和追踪质量(STQ)度量。

STQ是在像素级别定义的,并在细粒度级别提供了与基本事实的准确和直观的比较。

基准测试的核心原理是,在评估算法时,每帧中的每个像素都很重要。

(3) 最后,数据集和指标为提供了一个有效的试验台,用于评估几个基线,这些基线显示了基于基准的统一与分离和基于运动与外观的方法的效果。这包括使用光流进行掩模传播的方法或受最先进跟踪工作启发的方法。测试服务器将实现方法的公平基准测试。这为研究密集视频理解提供了一个完整的框架,其中分割和跟踪都以详细和全面的方式进行评估。总之,

展示了第一个真实世界的空间和时间密集注释数据集KITTISTEP和MOTChallenge STEP,提供了具有挑战性的分割和(长)跟踪场景。

•深入分析了最近提出的指标,并根据发现提出了分割和跟踪质量(STQ)指标。

•展示了基于既定分割和跟踪范式的简单基线,激励了未来在端到端模型中的研究。

 

图2:注释过程:来自PanopticDeepLab的机器注释语义分割由人工注释器进行多次细化。所得到的注释进一步与KITTI-MOTS和MOTS Challenge的现有实例基本事实合并。

 

(a) KITTI-STEP。(b) MOTChallenge STEP。

图3:KITTI-STEP和MOTChallenge STEP中的标签分布。

 

(a) KITTI-STEP的轨道长度分布。

(b) 真实世界数据集比较。指训练集。

图4:KITTI-STEP的数据集统计、比较和通道长度分布。

 

图5:对于最多5帧的轨道,关联精度、关联召回和删除具有错误轨道ID的正确分段的说明。每辆车都在一个单独的帧中,其中颜色对轨道ID进行编码。假设完美分割并显示匹配的轨迹。例如,左侧场景包含两条地面实况轨迹(橙色、蓝色),而预测包含一条与两条地面真相轨迹重叠的轨迹(紫色)。在这里,只有颜色的变化才是重要的。理想情况下,预测应该在与地面实况相同的帧处具有颜色转换(如果有的话)。VPQ†是指在完整视频而不是小跨度视频上评估时的VPQ分数。STQ是唯一一个适当惩罚ID转移(#1,P4)、鼓励长期跟踪一致性(#3>#2,P4)以及在去除语义正确的预测时降低分数(#4>#5,P5)的度量。

 

表1:度量比较。(✓): 部分满意。VPQ和PTQ不能满足性能要求。得分更高。总的来说,关联质量(AQ)定义如下。

 

表2:比较了KITTI-STEP数据集上不同指标下的不同基线。强调每个指标中的第一和第二好分数。OF是指外部光流网络。

 

表3:MOTChallenge STEP数据集上不同基线的实验结果。强调每个指标中的第一和第二好分数。OF是指外部光流网络。

 

参考文献链接

https://www.cvlibs.net/datasets/kitti/eval_step.php

https://arxiv.org/pdf/2102.11859.pdf

 

标签:分割,像素,STEP,跟踪,KITTI,评估
From: https://www.cnblogs.com/wujianming-110117/p/17977478

相关文章

  • 图像分割
    图像分割实验目的(1)了解图像分割的基本原理,并利用图像分割算法进行图像分割处理;(2)掌握数学形态学的基本运算。实验内容(1)利用类间方差阈值算法实现图像的分割处理;(2)利用形态学处理进行处理结果修正。实验原理(1)中值滤波原理中值滤波是基于排序统计理论的一种能......
  • 分割回文串 131
    这也是用回溯解决,回溯就是多层for循环,但是这一题有点难发现多层for循环体现在哪里。实际上该问题for循环的层数与字符串的间隔有关for循环的层数代表,分割线的个数;for循环的遍历代表这分割线的位置。这里引用卡哥的图:因为分割线不能取前一个的位置,所以要根据之前组合那题的套......
  • 【论文笔记#2】Farseg++:用于高空间分辨率遥感图像地理空间对象分割的前景感知关系网络
    论文来源IEEETransactionsonPatternAnalysisandMachineIntelligence作者ZhuoZheng;YanfeiZhong;JunjueWang等发表年代2023使用方法多分支金字塔编码、前景-场景关系、前景感知解码、前景感知优化期刊层次CCFA;计算机科学1区;IF23.6原文链接......
  • Dithered golden interleaver 黄金分割伪随机交织器 代码备份
    目录公式来源DitheredgoldeninterleaverTheMatrix-DitheredGoldenInterleavingAlgorithm有错误欢迎指正公式来源DesignofaModifiedInterleavingAlgorithmBasedonGoldenSectionTheoryEnhancingthePerformanceofTurboCodesDitheredgoldeninterleaver(*......
  • 【CV】图像分割详解!
    图像分割是计算机视觉研究中的一个经典难题,已经成为图像理解领域关注的一个热点,图像分割是图像分析的第一步,是计算机视觉的基础,是图像理解的重要组成部分,同时也是图像处理中最困难的问题之一。所谓图像分割是指根据灰度、彩色、空间纹理、几何形状等特征把图像划分成若干个互不相交......
  • 深度学习3D网格分割网络---MeshCNN
    MeshCNN是2019年提出的直接在3DMesh上进行分类和分割的网络,MeshCNN在3D网格上定义了定义了卷积和池化层,依据三维模型边的连通关系将其转换为一个图来研究。最终能够在来自SHREC11数据集的30个类上达到98.6%的精度,并且在部件和人体数据集上有很好的分割性能。论文主页:https://ra......
  • 自定义jQuery插件Step by Step
    自定义jQuery插件StepbyStep 1.1.1摘要随着前端和后端技术的分离,各大互联网公司对于MobileFirst理念都是趋之若鹜的,为了解决网页在不同移动设备上的显示效果,其中一个解决方案就是ResponsiveDesign;但我们今天不是介绍它,正由于前端开发已经十分重要了,所以我们将介绍如何......
  • 算法学习Day26组合总和、分割回文串
    Day26组合总和、分割回文串ByHQWQF2024/01/13笔记39.组合总和给定一个无重复元素的数组candidates和一个目标数target,找出candidates中所有可以使数字和为target的组合。candidates中的数字可以无限制重复被选取。说明:所有数字(包括target)都是正整数。解集......
  • lis = ["任务1", "任务2", "作者1", "作者2"] # 根据lis内元素的前两个字符, 将lis分
    lis=["任务1","任务2","作者1","作者2"]#根据lis内元素的前两个字符,将lis分割为[["任务1","任务2"],["作者1","作者2"]]#方法1fromitertoolsimportgroupbyresult=[list(group)forkey,groupingroup......
  • 【Oracle】列拆行/对多行数据的单行数据进行分割并多行显示
    【Oracle】列拆行/对多行数据的单行数据进行分割并多行显示参考链接:Oracle一行字符串拆分为多行_oracle一行拆分成多行-CSDN博客背景:要对一个表的字段的内容进行分割,分隔符都是指定的原数据:'1','2','3','4''5','6','7','8'新数据(按照逗号分割):'1......