基于自注意力机制的轻量级人体姿态估计(Lightweight Human Pose Estimation Based on Self-Attention Mechanism)

标签：Based WGNet 模型 Attention 计算窗口机制注意力轻量级

写在前面

本文是一篇于2023年3月21日发表在2023 International Conference on Big Data, Environmental Industry and Materials Science（ICBDEIMS 2023)的一篇会议论文。

论文主要聚焦于解决单签人体姿态估计网络模型中普遍存在的参数多、计算复杂度高、检测时间长的问题，文章采用了沙漏结构来创建轻量级的单路径网络模型，这个模型具有更少的参数和更短的计算时间，为了确保模型的准确性，文章中实现了一种减少参数数量的窗口自注意力机制，文章作者重新设计了自注意力模块，以实现有效提取局部和全局信息，从而丰富模型学习的特征信息，该模块与反向残差网络架构合并，创建了 WGNet 的独立模块。最后，WGNet可以灵活地嵌入到模型的不同阶段。

摘要

摘要原文：
To tackle the issues of numerous parameters, high computational complexity, and extended detection time prevalent in current human pose estimation network models, we have incorporated an hourglass structure to create a lightweight single-path network model, which has fewer parameters and a shorter computation time. To ensure model accuracy, we have implemented a window self-attention mechanism with a reduced parameter count. Additionally, we have redesigned this self-attention module to effectively extract local and global information, thereby enriching the feature information learned by the model. This module merges with the inverted residual network architecture, creating a separate module of WGNet. Finally, WGNet can be flexibly embedded into different stages of the model. Training and validation on COCO and MPII datasets demonstrate that this model reduces the number of parameters by 25%, computational complexity by 41%, and inference time by nearly two times, compared to Hrformer, which also utilizes the windowed self-attention mechanism, at the cost of only 3.5% accuracy.

为了解决当前人体姿态估计网络模型中普遍存在的参数多、计算复杂度高、检测时间长的问题，我们采用沙漏结构来创建轻量级的单路径网络模型，该模型具有更少的参数和更短的计算时间。为了确保模型的准确性，我们实现了一种减少参数数量的窗口自注意力机制。此外，我们重新设计了这个自注意力模块，以有效提取局部和全局信息，从而丰富模型学习的特征信息。该模块与反向残差网络架构合并，创建了 WGNet 的独立模块。最后，WGNet可以灵活地嵌入到模型的不同阶段。在 COCO 和 MPII 数据集上的训练和验证表明，与同样利用窗口自注意力机制的 Hrformer 相比，该模型减少了 25% 的参数数量、41% 的计算复杂度和近两倍的推理时间。成本准确率仅为3.5%。

Introduction 引言

人体姿态估计是人类行为分析、人机交互、医疗康复辅助等许多应用场景的必备任务。主要方法是通过构建神经网络来预测人体关键点的位置，因此提出具有高识别精度的模型是一个研究热点。为了提高预测精度，研究人员大多构建深度复杂的网络模型，但这也使得参数数量较大，计算速度较慢，难以应用于真实场景，这是目前人体姿态估计任务中需要解决的问题。

为了减少模型参数的数量，我们可以直接削减模型的深度和宽度，但这牺牲了相当大的精度，因此必须仔细设计模型结构。此外，随着Vaswani的自注意机制在各种预测任务中的主导地位，越来越多的研究者尝试将其应用于计算机视觉任务。许多研究将自关注机制引入到人体姿态估计任务中，使模型相对于卷积网络具有较强的远程建模能力、简单的结构和较少的参数，使模型的重量有所减轻。关于网络轻量级的研究已经有了很多成熟的研究成果。

Lightweight Model Structure 轻量化模型结构

我们从参数数量、计算复杂度和推理时间等方面对模型进行了综合评估，并设计了一个单分支轻量级人体姿态估计网络模型。整个模型如图所示：

WGNet中自注意机制

WGNet中自注意力机制部分如图所示：

首先，我们将输入的featuremap划分为多个相同大小的窗口，每个窗口分别计算自注意力;然后在每个窗口的相同位置取补丁并缝合在一起形成一个新窗口，每个窗口都进行自关注计算。

我们将WGNet中自我注意的计算量与原始自我注意(以下简称MHSA)进行比较。假设初始特征高度、宽度和通道分别为h、w和C。对于MHSA，特征中的每个patch通过q、k和v矩阵生成查询(q)、键值(k)和值(v)，并使其长度与输入特征深度保持一致。C、q、k和v是需要学习的参数，分别进行初始化，根据变压器中的自注意计算过程，加上生成查询(q)、键(k)和值(v)的计算，得到MHSA计算结果如下(此处假设多头数为1，忽略softmax函数的计算):

在WGNet中，为了便于自我关注，首先将特征划分为不同的窗口，让窗口大小为h'和w'，然后得到窗口hw/h'w'。然后从每个窗口的相同位置提取斑块，形成一个新窗口，并根据MHSA的计算步骤计算每个新窗口的计算量。我们让每个patch的大小取4×3，然后将新窗口的数量乘以每个新窗口的计算次数，我们可以得到WGNet中自关注的计算量公式如下:

假设输入图像大小为256×192，经过两层下采样后的尺寸为64×48。窗口大小需要被输入大小整除。

注意力机制：

注意力机制是机器学习中一种广泛应用于各种不同类型任务的数据处理方法。它在自然语言处理、图像处理和语音识别等领域得到了广泛应用。

注意力机制存在许多不同的分类方式。

根据注意力机制关注的范围不同，可以将其分为硬注意力（只关注一个元素），软注意力，全局注意力（关注全部元素），局部注意力（以对齐位置为中心的窗口）和稀疏注意力（关注分布稀疏的部分元素）等。
根据注意力机制的组合方式，可以将其分为协同注意力机制，层次注意力机制，多头注意力机制等。
根据注意力的计算方式，可以将其分为点积注意力，自注意力和关键值注意力等。
根据注意力机制应用于不同领域的方式，可以将其分为通道域注意力，空间域注意力，时间域注意力和混合域注意力。

[1]夏庆锋,许可儿,李明阳等.强化学习中的注意力机制研究综述[J/OL].计算机科学与探索,1-22[2024-01-20]http://kns.cnki.net/kcms/detail/11.5602.TP.20240116.1141.002.html.

自注意力机制

目前，自注意力是应用最广泛的注意力机制之一，该机制反映了输入和输出序列中元素的相似性，并为学习过程中的不同元素分配不同的权值。

总而言之，自注意力机制广泛应用于基于价值的算法和演员评论家算法，它目前主要实现了三种功能：评估信息的重要性、消除虚假信号和数据冗余以及增强 RL 模型的可解释性。但自注意力机制通常只关注输入序列中局部区域的信息，而缺乏对整个序列的全局感知。这可能在某些任务上限制了强化学习算法的性能。下表为自注意力机制与强化学习结合算法的总结。

[1]夏庆锋,许可儿,李明阳等.强化学习中的注意力机制研究综述[J/OL].计算机科学与探索,1-22[2024-01-20]http://kns.cnki.net/kcms/detail/11.5602.TP.20240116.1141.002.html.

写在最后

好了，今天的分享就到这了，明天再见喽。

标签：Based,WGNet,模型,Attention,计算,窗口,机制,注意力,轻量级
From： https://www.cnblogs.com/wephilos/p/18119943