首页 > 其他分享 >Event Transformer. A sparse-aware solution for efficient event data processing

Event Transformer. A sparse-aware solution for efficient event data processing

时间:2022-08-23 21:36:26浏览次数:99  
标签:基于 efficient Transformer 稀疏 事件 EvT event Event

郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布!

 

 

CVPR 2022

 

Abstract

  对于在资源匮乏和具有挑战性的环境中运行的许多应用程序来说,事件摄像机是非常感兴趣的传感器。它们以高时间分辨率和高动态范围记录稀疏的照明变化,同时具有最低的功耗。然而,表现最佳的方法通常会忽略特定的事件数据属性,从而导致开发通用但计算量大的算法。对高效解决方案的努力通常不会在复杂任务中获得最高准确度的结果。这项工作提出了一种新颖的框架,即Event Transformer (EvT)1,它有效地利用了事件数据属性来高效和准确。我们引入了一个新的基于块的事件表示和一个紧凑的类似Transformer的架构来处理它。EvT在不同的基于事件的动作和手势识别基准上进行评估。评估结果显示出与最先进技术更好或相当的准确性,同时需要显著更少的计算资源,这使得EvT能够在GPU和CPU上以最小的延迟工作。

 

1代码,训练好的模型和补充视频可以在下列网站找到: https://github.com/AlbertoSabater/EventTransformer

 

1. Introduction

  事件相机是仿生传感器,可记录传感器阵列每个像素的强度变化。与传统相机相反,它们以稀疏和异步的方式工作,具有增加的高动态范围和高时间分辨率(以微秒为单位)且功耗最小。这些特征推动了许多基于事件的感知任务的研究,例如动作识别[6, 19]、身体[7, 36]和注视跟踪[2]、深度估计[14, 48]或里程计[24, 35],对于涉及低资源环境和具有挑战性的运动和光照条件的许多应用程序来说很有趣,例如AR/VR或自动驾驶。

  处理来自基于事件的相机的信息仍然是一个开放的研究问题。表现最好的方法将事件流转换为类似帧的表示,抛弃它们固有的稀疏性,并使用卷积神经网络[1, 4, 8, 19]或循​​环层[8, 19]等繁重的处理算法。其他可以更好地利用这种稀疏性的方法,例如类似PointNet的神经网络[47]、图神经网络[6, 10]或脉冲神经网络[23, 39],效率更高,但无法达到相同的精度。因此,需要一种方法来充分利用基于事件的相机的所有潜力,以提高效率和低能耗,同时保持高性能。

  这项工作引入了Event Transformer (EvT),这是一种新颖的框架(总结在图1中),旨在解决事件数据稀疏性问题,从而在获得最高准确度结果的同时实现高效。我们提出:1)使用稀疏的基于块的事件数据表示,仅考虑具有注册信息的事件流区域,以及 2)基于自然工作的注意力机制[44]的紧凑Transformer式主干有了这个块信息。与以前的基于帧的方法相比,后者需要最少的计算资源,方法是使用一组潜在内存向量来限制与Transformer架构相关的二次计算复杂度[21, 22],同时也对看到的信息进行编码。

  EvT评估在三个不同复杂度的公共真实事件数据基准上运行,用于长事件流和短事件流分类(即动作和手势识别)。结果表明,EvT取得了与最先进技术更好或相当的结果。更重要的是,与之前的工作相比,我们的方法显著降低了计算资源需求,同时节省了相应的功耗,使EvT能够在GPU和CPU中以最小的延迟工作。

 

2. Related work

  本节总结了最常见的事件数据表示方法以及处理它们的基于事件的神经网络架构。它还包括对不同类型的事件数据集的简要描述。

 

2.1. Event data representation

  事件数据表示对与从事件流中提取的时间间隔或时间窗口相关的事件信息进行编码。这些表示可以分为两类:事件级表示通常将事件数据视为图[5, 6, 10, 47]或点云[37, 45],具有最少的预处理并保持事件数据稀疏;不同的是,基于帧的表示将传入事件分组为密集的类似帧的数组,忽略事件数据的稀疏性,但简化了以后的学习过程。我们的工作建立在基于框架的表示之上,我们在其中发现了大量的文献变化。时间表面[25]为每个像素构建编码最后生成的事件的帧。SP-LSTM [32]构建帧,其中每个像素包含一个与时间窗口中事件的存在及其极性相关的值。活动事件的表面[30]构建帧,其中每个像素包含对最后观察到的事件和累积时间开始之间的时间的测量。运动补偿[34, 46]通过根据相机自我运动对齐事件来生成帧。[15]在时间维度上对帧表示进行二值化,获得更好的时间分辨率。TBR [19]将二值化帧表示聚合成单箱帧。M-LSTM [8]使用LSTM网格处理每个像素的传入事件以创建最终的2D表示。

  我们的工作引入了基于块的事件表示:我们首先构建一个简单的帧表示(类似于[15]),然后我们将得到的帧划分为不重叠的块网格,灵感来自Visual Transformers [11]。没有足够事件信息的生成块被丢弃,而其余的保留作为最终的事件数据表示。所提出的混合解决方案既受益于事件级表示,因为我们可以在一定程度上解决事件数据的稀疏性,也受益于基于帧的表示的鲁棒性。

 

2.2. Neural Network architectures for event data

  基于深度学习的技术已经显示出与事件相机数据一起使用的有希望的结果。本节讨论处理不同类型事件表示的主要现有架构,以及从多个时间窗口聚合处理后的信息。此外,我们提供了Visual Transformers的简短概述,因为它们实际上是这项工作中提出的用于处理事件的架构的支柱之一。

标签:基于,efficient,Transformer,稀疏,事件,EvT,event,Event
From: https://www.cnblogs.com/lucifer1997/p/16617864.html

相关文章