首页 > 其他分享 >基于自注意力机制的轻量级人体姿态估计(Lightweight Human Pose Estimation Based on Self-Attention Mechanism)

基于自注意力机制的轻量级人体姿态估计(Lightweight Human Pose Estimation Based on Self-Attention Mechanism)

时间:2024-04-11 22:00:11浏览次数:35  
标签:Based WGNet 模型 Attention 计算 窗口 机制 注意力 轻量级

写在前面

本文是一篇于2023年3月21日发表在2023 International Conference on Big Data, Environmental Industry and Materials Science(ICBDEIMS 2023)的一篇会议论文。

论文主要聚焦于解决单签人体姿态估计网络模型中普遍存在的参数多、计算复杂度高、检测时间长的问题,文章采用了沙漏结构来创建轻量级的单路径网络模型,这个模型具有更少的参数和更短的计算时间,为了确保模型的准确性,文章中实现了一种减少参数数量的窗口自注意力机制,文章作者重新设计了自注意力模块,以实现有效提取局部和全局信息,从而丰富模型学习的特征信息,该模块与反向残差网络架构合并,创建了 WGNet 的独立模块。 最后,WGNet可以灵活地嵌入到模型的不同阶段。

摘要

摘要原文:
To tackle the issues of numerous parameters, high computational complexity, and extended detection time prevalent in current human pose estimation network models, we have incorporated an hourglass structure to create a lightweight single-path network model, which has fewer parameters and a shorter computation time. To ensure model accuracy, we have implemented a window self-attention mechanism with a reduced parameter count. Additionally, we have redesigned this self-attention module to effectively extract local and global information, thereby enriching the feature information learned by the model. This module merges with the inverted residual network architecture, creating a separate module of WGNet. Finally, WGNet can be flexibly embedded into different stages of the model. Training and validation on COCO and MPII datasets demonstrate that this model reduces the number of parameters by 25%, computational complexity by 41%, and inference time by nearly two times, compared to Hrformer, which also utilizes the windowed self-attention mechanism, at the cost of only 3.5% accuracy.

为了解决当前人体姿态估计网络模型中普遍存在的参数多、计算复杂度高、检测时间长的问题,我们采用沙漏结构来创建轻量级的单路径网络模型,该模型具有更少的参数和更短的计算时间。为了确保模型的准确性,我们实现了一种减少参数数量的窗口自注意力机制。 此外,我们重新设计了这个自注意力模块,以有效提取局部和全局信息,从而丰富模型学习的特征信息。 该模块与反向残差网络架构合并,创建了 WGNet 的独立模块。 最后,WGNet可以灵活地嵌入到模型的不同阶段。 在 COCO 和 MPII 数据集上的训练和验证表明,与同样利用窗口自注意力机制的 Hrformer 相比,该模型减少了 25% 的参数数量、41% 的计算复杂度和近两倍的推理时间。 成本准确率仅为3.5%。

Introduction 引言

人体姿态估计是人类行为分析、人机交互、医疗康复辅助等许多应用场景的必备任务。主要方法是通过构建神经网络来预测人体关键点的位置,因此提出具有高识别精度的模型是一个研究热点。为了提高预测精度,研究人员大多构建深度复杂的网络模型,但这也使得参数数量较大,计算速度较慢,难以应用于真实场景,这是目前人体姿态估计任务中需要解决的问题。

为了减少模型参数的数量,我们可以直接削减模型的深度和宽度,但这牺牲了相当大的精度,因此必须仔细设计模型结构。此外,随着Vaswani的自注意机制在各种预测任务中的主导地位,越来越多的研究者尝试将其应用于计算机视觉任务。许多研究将自关注机制引入到人体姿态估计任务中,使模型相对于卷积网络具有较强的远程建模能力、简单的结构和较少的参数,使模型的重量有所减轻。关于网络轻量级的研究已经有了很多成熟的研究成果。

Lightweight Model Structure 轻量化模型结构

我们从参数数量、计算复杂度和推理时间等方面对模型进行了综合评估,并设计了一个单分支轻量级人体姿态估计网络模型。整个模型如图所示:

image

WGNet中自注意机制

WGNet中自注意力机制部分如图所示:

image

首先,我们将输入的featuremap划分为多个相同大小的窗口,每个窗口分别计算自注意力;然后在每个窗口的相同位置取补丁并缝合在一起形成一个新窗口,每个窗口都进行自关注计算。

我们将WGNet中自我注意的计算量与原始自我注意(以下简称MHSA)进行比较。假设初始特征高度、宽度和通道分别为h、w和C。对于MHSA,特征中的每个patch通过q、k和v矩阵生成查询(q)、键值(k)和值(v),并使其长度与输入特征深度保持一致。C、q、k和v是需要学习的参数,分别进行初始化,根据变压器中的自注意计算过程,加上生成查询(q)、键(k)和值(v)的计算,得到MHSA计算结果如下(此处假设多头数为1,忽略softmax函数的计算):
image

在WGNet中,为了便于自我关注,首先将特征划分为不同的窗口,让窗口大小为h'和w',然后得到窗口hw/h'w'。然后从每个窗口的相同位置提取斑块,形成一个新窗口,并根据MHSA的计算步骤计算每个新窗口的计算量。我们让每个patch的大小取4×3,然后将新窗口的数量乘以每个新窗口的计算次数,我们可以得到WGNet中自关注的计算量公式如下:

image

假设输入图像大小为256×192,经过两层下采样后的尺寸为64×48。窗口大小需要被输入大小整除。

注意力机制:

注意力机制是机器学习中一种广泛应用于各种不同类型任务的数据处理方法。它在自然语言处理、图像处理和语音识别等领域得到了广泛应用。

注意力机制存在许多不同的分类方式。

  1. 根据注意力机制关注的范围不同,可以将其分为硬注意力(只关注一个元素),软注意力,全局注意力(关注全部元素),局部注意力(以对齐位置为中心的窗口)和稀疏注意力(关注分布稀疏的部分元素)等。

  2. 根据注意力机制的组合方式,可以将其分为协同注意力机制,层次注意力机制,多头注意力机制等。

  3. 根据注意力的计算方式,可以将其分为点积注意力,自注意力和关键值注意力等。

  4. 根据注意力机制应用于不同领域的方式,可以将其分为通道域注意力,空间域注意力,时间域注意力和混合域注意力。

image

[1]夏庆锋,许可儿,李明阳等.强化学习中的注意力机制研究综述[J/OL].计算机科学与探索,1-22[2024-01-20]http://kns.cnki.net/kcms/detail/11.5602.TP.20240116.1141.002.html.

自注意力机制

目前,自注意力是应用最广泛的注意力机制之一,该机制反映了输入和输出序列中元素的相似性,并为学习过程中的不同元素分配不同的权值。

总而言之,自注意力机制广泛应用于基于价值的算法和演员评论家算法,它目前主要实现了三种功能:评估信息的重要性、消除虚假信号和数据冗余以及增强 RL 模型的可解释性。但自注意力机制通常只关注输入序列中局部区域的信息,而缺乏对整个序列的全局感知。这可能在某些任务上限制了强化学习算法的性能。下表为自注意力机制与强化学习结合算法的总结。

image

[1]夏庆锋,许可儿,李明阳等.强化学习中的注意力机制研究综述[J/OL].计算机科学与探索,1-22[2024-01-20]http://kns.cnki.net/kcms/detail/11.5602.TP.20240116.1141.002.html.

写在最后

好了,今天的分享就到这了,明天再见喽。

标签:Based,WGNet,模型,Attention,计算,窗口,机制,注意力,轻量级
From: https://www.cnblogs.com/wephilos/p/18119943

相关文章

  • 论文解读(UGfromer)《Universal Graph Transformer Self-Attention Networks》
    Note:[wechat:Y466551|可加勿骚扰,付费咨询]论文信息论文标题:UniversalGraphTransformerSelf-AttentionNetworks论文作者:论文来源:2022aRxiv论文地址:download论文代码:download视屏讲解:click1-摘要我们引入了一个基于变压器的GNN模型,称为UGfromer,来学习图表示。特别......
  • 【阅读笔记】RBAC(Role-Based Access Control)模型
    摘自:《凤凰架构:构建可靠的大型分布式系统》周志明著使用访问控制模型的目的所有的访问控制模型,实质上都是在解决同一个问题:“谁(User)拥有什么权限(Authority)去操作(Operation)哪些资源(Resource)。”如果某个系统涉及成百上千的资源,又有成千上万的用户,若要为每个用户访问每个资源都......
  • 2023 NIPS A*Net: A Scalable Path-based Reasoning Approachfor Knowledge Graphs 知
    文章链接原文:b9e98316cb72fee82cc1160da5810abc-Paper-Conference.pdf(neurips.cc)代码:https://github.com/DeepGraphLearning/AStarNet一、动机与贡献为了使路径推理方法适用于大规模图上的归纳推理任务,文章改进了路径信息获取的方法。路径推理方法较好的归纳推理能力......
  • Verification -- Basic Concepts ~ 5. Assertion Based Verification
    AssertionBasedVerification基于断言的验证(ABV)是一种将断言用作验证数字设计正确性的主要手段的技术。断言是描述在设计中必须始终为真的条件的语句,通常使用硬件描述语言(如SystemVerilog或VHDL)编写。ABV背后的基本思想是结合使用功能和形式验证设计是否满足其功能要求。Sy......
  • 基于GA优化的CNN-LSTM-Attention的时间序列回归预测matlab仿真
    1.算法运行效果图预览ga优化前:     ga优化后:    2.算法运行软件版本matlab2022a  3.算法理论概述      时间序列预测是许多领域中的核心问题,如金融市场分析、气候预测、交通流量预测等。近年来,深度学习在时间序列分析上取得了显著的成果,尤......
  • 【即插即用】ShuffleAttention注意力机制(附源码)
    原文链接:https://arxiv.org/pdf/2102.00240.pdf源码地址:https://github.com/wofmanaf/SA-Ne摘要简介:注意力机制让神经网络能够准确关注输入的所有相关元素,已成为提高深度神经网络性能的关键组件。在计算机视觉研究中,主要有两种广泛使用的注意力机制:空间注意力和通道注意力......
  • Android平台下轻量级http网络传输库
    Android平台下轻量级http网络传输库 更新时间:2016年01月15日15:06:36 作者:rohsuton  这篇文章主要介绍了Android平台下轻量级http网络传输库的相关资料,需要的朋友可以参考下 AsyncHttpHelp是一个android平台下基于httpclient开发的HTTP网络请求工具。优点功能......
  • 交叉注意力融合时域、频域特征的FFT + CNN -Transformer-CrossAttention电能质量扰动
     往期精彩内容:电能质量扰动信号数据介绍与分类-Python实现-CSDN博客Python电能质量扰动信号分类(一)基于LSTM模型的一维信号分类-CSDN博客Python电能质量扰动信号分类(二)基于CNN模型的一维信号分类-CSDN博客Python电能质量扰动信号分类(三)基于Transformer的一维信号分......
  • Prompt Perturbation in Retrieval-Augmented Generation based Large Language Model
    本文是LLM系列文章,针对《PromptPerturbationinRetrieval-AugmentedGenerationbasedLargeLanguageModels》的翻译。基于大语言模型的检索增强生成中的提示扰动摘要1引言2相关工作3梯度引导的提示扰动4对抗性前缀的检测5实验6结论摘要随着大型......
  • 基于项目的协同过滤推荐算法(Item-Based Collaborative Filtering Recommendation Alg
    前言协同过滤推荐系统,包括基于用户的、基于项目的息肉通过率等,今天我们读一篇基于项目的协同过滤算法的论文。今天读的论文为一篇名叫《基于项目的协同过滤推荐算法》(Item-BasedCollaborativeFilteringRecommendationAlgorithms)。摘要Recommendersystemsapplyknowledg......