GaitEdge

信息

标题：GaitEdge: Beyond Plain End-to-end Gait Recognition for Better Practicality

出处：南方科技大学于仕琪团队22年在ECCV上的工作

正文

摘要

步态是最具前景的生物识别技术之一，可用于远距离识别个体。虽然以前的大多数方法都侧重于识别轮廓，但一些直接从RGB图像中提取步态特征的端到端方法表现得更好。然而，我们证明这些端到端方法不可避免地会受到与步态无关的噪声，即低层纹理和彩色信息。实验上，我们设计了跨域评估来支持这个观点。在本研究中，我们提出了一种新的端到端框架GaitEdge，该框架能够有效地阻断与步态无关的信息，释放端到端的训练潜能。具体来说，GaitEdge合成行人分割网络的输出，然后将其输入到随后的识别网络中，其中合成的轮廓由可训练的身体边缘和固定的内部组成，以限制识别网络接收到的信息。此外，用于对齐轮廓的GaitAlign被嵌入到GaitEdge中而不失去可微性。在CASIA-B和我们新构建的TTG-200上的实验结果表明，GaitEdge明显优于之前的方法，提供了更实用的端到端范式。

介绍

值得注意的是，大多数研究将步态识别作为一种两阶段的识别方法，包括从RGB图像中提取轮廓掩模或骨架关键点等中间形态，并将其放入下游步态识别网络中。然而，一些研究[4,5,7,16]表明，这些多步骤的方法往往会导致效率和效果的下降；越来越多的作品倾向于直接从端到端推断最终结果。

据我们所知，最近的文献中有三种典型的端到端步态识别方法。

如图一所示，Li等人利用一个流行的Human Mesh Recovery Model（从单张RGB图像中重建整个人体的3D mesh的端到端模型）去重构出三维的人并且通过将SMPL（skinned multi-person linear）作为参数输入训练识别网络。Zhang等人提出的另一种典型方法。[30]引入了一个自动编码器框架，从连续的RGB图像中显式地分离出与运动相关的步态模式和与运动无关的外观特征，如图一b所示。另外，Song等人提出了GaitNet[20]，该算法结合了行人分割和步态识别两个任务，如图1 (c)所示。该算法直接从中间掩码中提取步态特征，而不是传统的二值轮廓。

尽管这些方法比两步方法的性能更高，但我们认为，这些端到端方法不能确保学习到的人类识别特征仅由行走模式所组成。由于之前的端到端框架的中间形态，如[14,13]中的SMPL重构，[30]中的姿态特征解纠缠，[20]中的行人分割监督，都是浮点编码，它们可能会引入一些背景和纹理信息。此外，尽管之前的方法都试图排除与步态无关的特征，但它们缺乏令人信服的实验来验证。为了缓解这些问题，我们注意到步态特征通常对于相机视点、携带和服装的协变比其他与步态无关的噪声(即纹理和颜色)更鲁棒，这意味着如果这些不相关的特征在提取的步态表征中占主导地位，当该模型被直接应用于未被发现的数据集时，识别性能会下降很多。因此，在本文中，我们引入跨域计算来暴露RGB信息的副作用。更重要的是，我们提出了一个简洁但引人注目的端到端框架，名为GaitEdge，以处理这种具有挑战性的评估。如图1 (d)所示，GaitEdge的中间模态是一种新的合成剪影，其边缘由可训练的mask组成，其他区域为经典的二值剪影。两个直观的现象启发了本设计:第一，rgb信息噪声主要分布在非边缘区域，如人体和背景。因此，将这些区域作为二值剪影可以有效地防止步态无关噪声的泄漏。第二，边缘区域在描述人体形状方面起着至关重要的作用。因此，使唯一的边缘区域可训练就足以释放端到端训练策略的潜力。此外，我们观察到，尺寸归一化对准[9]是必要的轮廓预处理，以保持身体的长宽比。不幸的是，这种操作过去是离线的，因此是不可微分的，这意味着它不能直接应用于对齐合成轮廓。为了解决这个问题，受RoIAlign[6]的启发，我们提出GaitAlign模块来完成GaitEdge的框架，GaitEdge可以看作是[9]所提出的对齐方法的一个可微版本。综上所述，我们做了以下三个主要贡献:(1)我们指出了步态无关噪声被混合到最终步态表征中的担忧，并引入跨域测试来验证rgb信息噪声的泄漏。此外，由于缺乏提供RGB视频的步态数据集，我们收集了10000步态(TTG-200)，其大小约等于流行的CASIA-B[26]。(2)我们提出了GaitEdge，一个简洁但引人注目的端到端步态识别框架。在CASIA-B和TTG-200上的实验表明，GaitEdge达到了最好的性能，我们认为，GaitEdge可以有效地防止无关的RGB信息噪声。(3)我们提出了一个名为GaitAlign的模块用于基于轮廓的端到端的步态识别，它可以被认为是尺寸归一化的一个可微版本。

相关工作

步态识别

步态是一种生物识别技术，早期研究[23]将步态定义为一个特定的人将以一种相当可重复和有特征的方式行走的模式。另一方面，另一个类似的任务，即person re-identification[31]，目的是在另一个相机在另一个地方发现一个在一个相机中出现的人。尽管有相似之处，但它们在本质上仍然不同:第一个任务关注的是行走模式，而第二个任务主要使用服装来识别。因此，值得强调的是，我们不能让步态识别网络获取步态模式以外的信息，如基于rgb的纹理和颜色。目前主流的基于视觉的步态识别方法大致可分为基于模型和基于外观两种。前一种基于模型的方法[15,2,14,22]通常先提取人体的底层结构，如二维或三维骨架关键点，然后对人体行走模式进行建模。总的来说，这样的方法可以更好的减轻衣服的影响，更准确的描述身体的姿势。但由于视频质量较低，这些方法都难以对实际监控场景下的人体结构进行建模。目前，越来越多的基于外观的步态识别方法[24,28,4,29,5,7,16]将基于模型的方法抛在了后面。近年来，GaitSet[4]以一个剪影序列作为输入，取得了很大的进展。随后Fan et al.[5]提出了焦卷积层来学习部件级特征，并利用微运动捕获模块(Micro-motion Capture Module)对短期时间模式进行建模。此外，Lin et al.[16]提出了一个基于3D cnn的全局和局部特征提取模块，从帧中提取有区别的全局和局部表示，其性能明显优于其他方法。

端到端学习

端到端学习是指以可区分的方式整合几个独立的基于梯度的深度学习模块。这种训练模式有一个自然的优势，即系统优化组件的整体性能，而不是优化人为选择的中间产物。最近，一些优秀的研究得益于端到端学习范式。Amodei等人的[1]用神经网络取代了整个手工工程组件管道，通过端到端学习克服了语音的多样性。另一项值得注意的工作是英伟达的自动驾驶系统端到端培训。它只给系统以人的转向角度作为训练信号。尽管如此，系统仍然可以自动学习必要的处理步骤的内部表示，如检测车道线。随着端到端理论的日益流行，一些研究[30,14,20]将其应用于步态识别。首先，Zhang et al.[30]提出了一种自动编码器，在没有明确的外观和步态标签的情况下，对外观和步态信息进行了解耦。其次，Li等[14,13]利用新开发的三维人体网格模型[17]作为中间通道，利用神经网络三维网格渲染器[12]生成的轮廓与RGB图像分割出的轮廓相一致。因为3D网格模型提供了比轮廓更有帮助的信息，这种方法达到了最先进的结果。然而，使用3D网格模型需要更高分辨率的输入RGB图像，这在真实的监视场景中是不可行的。在这种考虑下，我们的GaitEdge主要提出并解决了两个关键问题:跨域评估和剪影偏置。

跨域问题

从前面的角度来看，我们认为，虽然现有的端到端方法[30,20,14,13]大大提高了精度，但很自然地会怀疑RGB信息的引入是提高精度的原因。为了验证我们的猜想，我们引入了两种步态识别模式并进行了实验比较。首先，采用两步步态识别方法GaitGL[16]作为基线；此外，还介绍了一个简单而直接的端到端模型GaitGL-E2E，它提供了一个公平的比较。

首先，采用两阶段步态识别方法GaitGL[16]作为基线;此外，还介绍了一个简单而直接的端到端模型GaitGL-E2E，它提供了一个公平的比较。如图2 (a) (b)所示，两种方法都使用了相同的模块，只是GaitGL-E2E通过一个可训练的分割网络，即U-Net[18]，将二进制掩码替换为浮点编码的轮廓图。实验上，我们将单域评价定义为对CASIA-B*5[26]的训练和测试。相应的，跨域评估被定义为在另一个数据集(TTG-200)上进行训练，但在CASIA-B*上测试训练后的模型。更多的执行细节将在第5节阐述。

如图2 (d)的单域部分所示，GaitGL- e2e的性能很容易超过GaitGL，因为它有更多的可训练参数，并且浮点掩码中包含的信息比二进制掩码多。然而，不可避免的会产生这样的疑问，即流入识别网络的浮点数会带来RGB图像的纹理和颜色，使得识别网络学习gait无关的信息，导致跨域性能下降。另一方面，从图2 (d)的跨域部分可以看出，GaitGL- e2e并没有达到单域的优势，在最具挑战性的情况下，即CL (walk with cloth change)，它甚至远远低于GaitGL (GaitGL: 40.34%， GaitGLE2E: 27.18%)。这一现象表明，端到端模型更容易学习易于识别的粗粒度RGB信息，而不是细粒度的难以察觉的步态模式。以上两个实验证明GaitGL-E2E确实吸收了RGB噪声，因此对于实际的跨域步态识别不再可靠。因此，我们提出了一个由我们精心设计的步态合成模块和可微GaitAlign模块组成的新型框架GaitEdge，如图2 (c)所示。GaitEdge和GaitGL-E2E最显著的区别是我们通过人工合成轮廓图来控制RGB信息的传输。

方法论

步态综合模块

我们一般认为轮廓图像的边缘(二值轮轮廓图中的轮廓)包含了最具识别性的信息。轮廓的内部可以看成是信息较少的低频内容，而如果去除内部信息则会使信息过于密集而无法训练识别网络。因此，设计的模块步态合成(步态合成)的重点是通过掩码操作将可训练的边缘与固定的内在信息结合起来。它只训练轮廓图像的边缘部分，并从冻结的分割网络中提取除边缘以外的区域。如图3所示，为了阐明我们的框架是如何工作的，我们使用黄色表示可训练模块，并说明梯度转移的流程，其中虚线橙色表示向后传播，实线蓝色表示向前传播。

Pre-processing：我们设计了一个不可训练的预处理操作来获得Me和Mi，如图4所示。

具体来说，我们把它分成三个步骤。首先，利用训练后的分割模型对输入的RGB图像进行分割，得到轮廓M；然后，在第二步中，我们使用经典形态算法来得到扩张和侵蚀轮廓(Mi)最后，我们通过元素独占或⊻获得Me。

总的来说，步态合成采用了最直观的方法，通过限制可调区域来保留最有价值的轮廓特征，同时消除大多数低水平的rgb噪声。值得一提的是，由于设计的简单，步态合成可以与之前的基于轮廓的端到端方法相结合。

步态对齐模块

对齐对于所有基于轮廓的步态识别方法都是非常关键的。由于在OUISIR步态数据库[9]中首次使用了轮廓的大小归一化，几乎所有基于剪影的方法都是通过大小归一化对轮廓输入进行预处理，从而消除了噪声，有利于识别。而之前的端到端方法，即GaitNet[20]，将分割后的轮廓直接送入识别网络，很难处理上述情况。因此，我们提出了一个可微步态校准模块GaitAlign，使身体成为图像的中心，并垂直填充整个图像。我们首先回顾尺寸规范化[9]过程，因为GaitAlign可以被看作是一个可微分的版本。在尺寸归一化中，通过计算物体的顶部、底部和水平中心，我们可以按照长宽比将物体缩放到目标高度，然后用零填充x轴以达到目标宽度。在我们的例子中，算法1中的伪代码描述了GaitAlign的过程。我们首先需要用零的一半宽度填充左右两边，以确保裁剪操作不会超过边界。根据宽高比和目标尺寸，计算出四个定时采样位置的精确值。最后，将RoIAlign[6]应用于上一步给出的位置。因此，我们得到了标准尺寸、充满图像的轮廓，并且它的高宽比保持不变(参考GaitAlign的输出，见图3)。另一个值得注意的一点是，GaitAlign模块仍然是可区分的，使我们的端到端培训可行。

标签：轮廓,步态,GaitEdge,RGB,GaitGL,识别
From： https://blog.51cto.com/u_16091013/6318751

信息

正文

摘要

介绍