首页 > 其他分享 >[重读经典论文] Swin-Transformer

[重读经典论文] Swin-Transformer

时间:2023-06-11 11:33:08浏览次数:51  
标签:Transformer Swin Self Attention Multi Head 重读

参考博客:Swin-Transformer网络结构详解

参考视频:12.1 Swin-Transformer网络结构详解

  • 使用了类似卷积神经网络中的层次化构建方法(Hierarchical feature maps),比如特征图尺寸中有对图像下采样4倍的,8倍的以及16倍的,这样的backbone有助于在此基础上构建目标检测,实例分割等任务。
  • 使用了Windows Multi-Head Self-Attention(W-MSA)的概念,将特征图划分成了多个不相交的区域(Window),并且Multi-Head Self-Attention只在每个窗口(Window)内进行,目的是减少计算量,但也会隔绝不同窗口之间的信息传递,所以又提出了 Shifted Windows Multi-Head Self-Attention(SW-MSA),通过此方法能够让信息在相邻的窗口中进行传递。

标签:Transformer,Swin,Self,Attention,Multi,Head,重读
From: https://www.cnblogs.com/harrymore/p/17472725.html

相关文章

  • 【论文阅读】Pyramid Vision Transformer:A Versatile Backbone for Dense Prediction
    ......
  • [重读经典论文]VIT
    参考博客:VisionTransformer详解参考视频:11.1VisionTransformer(vit)网络详解基本流程:提取embedding:将原图分为若干patch,使用convnet提取每个patch的特征作为embedding,然后在前面concat一个用来分类的embedding,之后每个patch加上一个位置编码。tranformerencode:将上一步的......
  • 【论文阅读】CvT:Introducing Convolutions to Vision Transformers
    ......
  • 【论文阅读】Uformer:A General U-Shaped Transformer for Image Restoration
    ......
  • Google | 突破瓶颈,打造更强大的Transformer
    作者:苏剑林前言《AttentionisAllYouNeed》一文发布后,基于Multi-HeadAttention的Transformer模型开始流行起来,而去年发布的BERT模型更是将Transformer模型的热度推上了又一个高峰。当然,技术的探索是无止境的,改进的工作也相继涌现:有改进预训练任务的,比如XLNET的PLM、ALBERT的SO......
  • [重读经典论文]EfficientDet
    参考博客:睿智的目标检测36——Pytorch搭建Efficientdet目标检测平台参考视频:Pytorch搭建自己的Efficientdet目标检测平台EfficientNet+BIFPN+解耦Head(类似RetinaNet),Anchor-Base......
  • 编码器 | 基于 Transformers 的编码器-解码器模型
    基于transformer的编码器-解码器模型是表征学习和模型架构这两个领域多年研究成果的结晶。本文简要介绍了神经编码器-解码器模型的历史,更多背景知识,建议读者阅读由SebastionRuder撰写的这篇精彩博文。此外,建议读者对自注意力(self-attention)架构有一个基本了解,可以......
  • [重读经典论文] RetinaNet——Focal Loss for Dense Object Detection
    1.前言这篇论文也是何凯明的团队在2017年的论文《FocalLossforDenseObjectDetection》中提出的,网络架构魔改了FPN,因此这篇论文的重点是提出了新的分类Loss——FocalLoss,用一个合适的函数,去度量难分类和易分类样本对总的损失函数的贡献。解决了传统交叉熵损失函数因为类别......
  • Transformer结构及其应用详解——GPT、BERT、MT-DNN、GPT-2
    前言 本文首先详细介绍Transformer的基本结构,然后再通过GPT、BERT、MT-DNN以及GPT-2等基于Transformer的知名应用工作的介绍并附上GitHub链接,看看Transformer是如何在各个著名的模型中大显神威的。本文转载自新智元仅用于学术分享,若侵权请联系删除欢迎关注公众号CV技术指南,专......
  • 大模型核心技术原理: Transformer架构详解
    在大模型发展历程中,有两个比较重要点:第一,Transformer架构。它是模型的底座,但Transformer不等于大模型,但大模型的架构可以基于Transformer;第二,GPT。严格意义上讲,GPT可能不算是一个模型,更像是一种预训练范式,它本身模型架构是基于Transformer,但GPT引入了“预测下一个词”的任......