首页 > 其他分享 >基于自注意力机制的轻量级人体姿态估计(Lightweight Human Pose Estimation Based on Self-Attention Mechanism)

基于自注意力机制的轻量级人体姿态估计(Lightweight Human Pose Estimation Based on Self-Attention Mechanism)

时间:2024-01-20 15:11:44浏览次数:40  
标签:Based WGNet 模型 Attention 计算 窗口 机制 注意力 轻量级

写在前面

本文是一篇于2023年3月21日发表在2023 International Conference on Big Data, Environmental Industry and Materials Science(ICBDEIMS 2023)的一篇会议论文。

论文主要聚焦于解决单签人体姿态估计网络模型中普遍存在的参数多、计算复杂度高、检测时间长的问题,文章采用了沙漏结构来创建轻量级的单路径网络模型,这个模型具有更少的参数和更短的计算时间,为了确保模型的准确性,文章中实现了一种减少参数数量的窗口自注意力机制,文章作者重新设计了自注意力模块,以实现有效提取局部和全局信息,从而丰富模型学习的特征信息,该模块与反向残差网络架构合并,创建了 WGNet 的独立模块。 最后,WGNet可以灵活地嵌入到模型的不同阶段。

摘要

摘要原文:
To tackle the issues of numerous parameters, high computational complexity, and extended detection time prevalent in current human pose estimation network models, we have incorporated an hourglass structure to create a lightweight single-path network model, which has fewer parameters and a shorter computation time. To ensure model accuracy, we have implemented a window self-attention mechanism with a reduced parameter count. Additionally, we have redesigned this self-attention module to effectively extract local and global information, thereby enriching the feature information learned by the model. This module merges with the inverted residual network architecture, creating a separate module of WGNet. Finally, WGNet can be flexibly embedded into different stages of the model. Training and validation on COCO and MPII datasets demonstrate that this model reduces the number of parameters by 25%, computational complexity by 41%, and inference time by nearly two times, compared to Hrformer, which also utilizes the windowed self-attention mechanism, at the cost of only 3.5% accuracy.

为了解决当前人体姿态估计网络模型中普遍存在的参数多、计算复杂度高、检测时间长的问题,我们采用沙漏结构来创建轻量级的单路径网络模型,该模型具有更少的参数和更短的计算时间。为了确保模型的准确性,我们实现了一种减少参数数量的窗口自注意力机制。 此外,我们重新设计了这个自注意力模块,以有效提取局部和全局信息,从而丰富模型学习的特征信息。 该模块与反向残差网络架构合并,创建了 WGNet 的独立模块。 最后,WGNet可以灵活地嵌入到模型的不同阶段。 在 COCO 和 MPII 数据集上的训练和验证表明,与同样利用窗口自注意力机制的 Hrformer 相比,该模型减少了 25% 的参数数量、41% 的计算复杂度和近两倍的推理时间。 成本准确率仅为3.5%。

Introduction 引言

人体姿态估计是人类行为分析、人机交互、医疗康复辅助等许多应用场景的必备任务。主要方法是通过构建神经网络来预测人体关键点的位置,因此提出具有高识别精度的模型是一个研究热点。为了提高预测精度,研究人员大多构建深度复杂的网络模型,但这也使得参数数量较大,计算速度较慢,难以应用于真实场景,这是目前人体姿态估计任务中需要解决的问题。

为了减少模型参数的数量,我们可以直接削减模型的深度和宽度,但这牺牲了相当大的精度,因此必须仔细设计模型结构。此外,随着Vaswani的自注意机制在各种预测任务中的主导地位,越来越多的研究者尝试将其应用于计算机视觉任务。许多研究将自关注机制引入到人体姿态估计任务中,使模型相对于卷积网络具有较强的远程建模能力、简单的结构和较少的参数,使模型的重量有所减轻。关于网络轻量级的研究已经有了很多成熟的研究成果。

Lightweight Model Structure 轻量化模型结构

我们从参数数量、计算复杂度和推理时间等方面对模型进行了综合评估,并设计了一个单分支轻量级人体姿态估计网络模型。整个模型如图所示:

image

WGNet中自注意机制

WGNet中自注意力机制部分如图所示:

image

首先,我们将输入的featuremap划分为多个相同大小的窗口,每个窗口分别计算自注意力;然后在每个窗口的相同位置取补丁并缝合在一起形成一个新窗口,每个窗口都进行自关注计算。

我们将WGNet中自我注意的计算量与原始自我注意(以下简称MHSA)进行比较。假设初始特征高度、宽度和通道分别为h、w和C。对于MHSA,特征中的每个patch通过q、k和v矩阵生成查询(q)、键值(k)和值(v),并使其长度与输入特征深度保持一致。C、q、k和v是需要学习的参数,分别进行初始化,根据变压器中的自注意计算过程,加上生成查询(q)、键(k)和值(v)的计算,得到MHSA计算结果如下(此处假设多头数为1,忽略softmax函数的计算):
image

在WGNet中,为了便于自我关注,首先将特征划分为不同的窗口,让窗口大小为h'和w',然后得到窗口hw/h'w'。然后从每个窗口的相同位置提取斑块,形成一个新窗口,并根据MHSA的计算步骤计算每个新窗口的计算量。我们让每个patch的大小取4×3,然后将新窗口的数量乘以每个新窗口的计算次数,我们可以得到WGNet中自关注的计算量公式如下:

image

假设输入图像大小为256×192,经过两层下采样后的尺寸为64×48。窗口大小需要被输入大小整除。

注意力机制:

注意力机制是机器学习中一种广泛应用于各种不同类型任务的数据处理方法。它在自然语言处理、图像处理和语音识别等领域得到了广泛应用。

注意力机制存在许多不同的分类方式。

  1. 根据注意力机制关注的范围不同,可以将其分为硬注意力(只关注一个元素),软注意力,全局注意力(关注全部元素),局部注意力(以对齐位置为中心的窗口)和稀疏注意力(关注分布稀疏的部分元素)等。

  2. 根据注意力机制的组合方式,可以将其分为协同注意力机制,层次注意力机制,多头注意力机制等。

  3. 根据注意力的计算方式,可以将其分为点积注意力,自注意力和关键值注意力等。

  4. 根据注意力机制应用于不同领域的方式,可以将其分为通道域注意力,空间域注意力,时间域注意力和混合域注意力。

image

[1]夏庆锋,许可儿,李明阳等.强化学习中的注意力机制研究综述[J/OL].计算机科学与探索,1-22[2024-01-20]http://kns.cnki.net/kcms/detail/11.5602.TP.20240116.1141.002.html.

自注意力机制

目前,自注意力是应用最广泛的注意力机制之一,该机制反映了输入和输出序列中元素的相似性,并为学习过程中的不同元素分配不同的权值。

总而言之,自注意力机制广泛应用于基于价值的算法和演员评论家算法,它目前主要实现了三种功能:评估信息的重要性、消除虚假信号和数据冗余以及增强 RL 模型的可解释性。但自注意力机制通常只关注输入序列中局部区域的信息,而缺乏对整个序列的全局感知。这可能在某些任务上限制了强化学习算法的性能。下表为自注意力机制与强化学习结合算法的总结。

image

[1]夏庆锋,许可儿,李明阳等.强化学习中的注意力机制研究综述[J/OL].计算机科学与探索,1-22[2024-01-20]http://kns.cnki.net/kcms/detail/11.5602.TP.20240116.1141.002.html.

写在最后

好了,今天的分享就到这了,明天再见喽。

标签:Based,WGNet,模型,Attention,计算,窗口,机制,注意力,轻量级
From: https://www.cnblogs.com/wephiles/p/17976436

相关文章

  • Broodstock breeding behaviour recognition based on Resnet50-LSTM with CBAM atten
    一区top,2022年ComputersandElectronicsinAgriculture分类题目:“基于CBAM注意机制Resnet50-LSTM的亲鱼繁殖行为识别”(Du等,2022,pp.-)(pdf)“BroodstockbreedingbehaviourrecognitionbasedonResnet50-LSTMwithCBAMattentionmechanism”(Du等,2022......
  • Stack-array based implementation【1月17日学习笔记】
    点击查看代码//Stack-arraybasedimplementation#include<iostream>usingnamespacestd;#defineMAX_SIZE101intA[MAX_SIZE];//globleinttop=-1;//globlevoidpush(intx){ if(top==MAX_SIZE-1){ cout<<"error:stackoverflow"&l......
  • Android平台Unity下如何通过WebCamTexture采集摄像头数据并推送至RTMP服务器或轻量级R
    技术背景我们在对接Unity下推送模块的时候,遇到这样的技术诉求,开发者希望在Android的Unity场景下,获取到前后摄像头的数据,并投递到RTMP服务器,实现低延迟的数据采集处理。在此之前,我们已经有了非常成熟的RTMP推送模块,也实现了Android平台Unity环境下的Camera场景采集,针对这个技术需求,......
  • 基于标签值分布的强化学习推荐算法(Reinforcement Learning Recommendation Algorithm
    前言看论文的第三天,坚持下去。慢慢来,比较快。——唐迟本文基于2023年6月28日发表在MATHEMATICS上的一篇名为“基于标签值分布的强化学习推荐算法”(ReinforcementLearningRecommendationAlgorithmBasedonLabelValueDistribution)的文章。文章提出了一种基于标签分布......
  • TinyGPT-V:2.8B参数引领轻量级多模态AI
    前言在当前多模态大型语言模型(MLLM)快速发展的背景下,TinyGPT-V的出现标志着一个重要的技术突破。这款轻量级模型以其2.8B参数的设计,在AI领域引起广泛关注,成为GPT-4V等模型的高效替代方案。Huggingface模型下载:https://huggingface.co/Tyrannosaurus/TinyGPT-VAI快站模型免费加速下载......
  • 【论文阅读笔记】【OCR-End2End】 TextFormer: A Query-based End-to-End Text Spotte
    TextFormerarXiv:2306.03377读论文思考的问题论文试图解决什么问题?写作背景是什么?问题:如何设计一种更好的query-based的方法来同时实现端到端的场景文本检测能否利用弱监督数据(只有文本)进一步增强端到端模型的文本识别能力?背景:目前的端到端场景文本检测识别......
  • Android平台RTMP推送|轻量级RTSP服务|GB28181设备接入模块之实时快照保存JPG还是PNG?
    JPG还是PNG?JPG和PNG是两种常见的图片文件格式,在压缩方式、图像质量、透明效果和可编辑性等方面存在显著差异。压缩方式:JPG是一种有损压缩格式,通过丢弃图像数据来减小文件大小,因此可能会损失一些图像细节和质量。而PNG使用的是无损压缩格式,它不会丢失任何原始图像数据,从而保持了图像......
  • Center-based 3D Object Detection and Tracking
    zotero-key:A37ALEJ3zt-attachments:-"280"title:Center-based3DObjectDetectionandTrackingcitekey:yinCenterbased3DObject2021tags:-paperCenter-based3DObjectDetectionandTrackingZoteroAbstractThree-dimensionalobjectsare......
  • 从Bitcask存储模型谈超轻量级KV系统设计与实现
    Bitcask介绍Bitcask是一种“基于日志结构的哈希表”(ALog-StructuredHashTableforFastKey/ValueData)Bitcask最初作为分布式数据库Riak的后端出现,Riak中的每个节点都运行一个Bitcask实例,各自存储其负责的数据。抛开论文,我们先通过一篇博客#Bitcask—alog-struc......
  • 【flink番外篇】9、Flink Table API 支持的操作示例(13)- Row-based(map、flatmap、aggre
    文章目录Flink系列文章一、maven依赖二、Row-based操作1、本示例的公共代码1、Map2、FlatMap3、Aggregate4、GroupWindowAggregate5、FlatAggregate本文介绍了通过TableAPI基于行的map、flatmap、aggregate、groupwindowaggregate和flataggregate操作,并以示例进行展示操......