首页 > 其他分享 >Transformer meets UNet

Transformer meets UNet

时间:2023-05-10 13:34:45浏览次数:36  
标签:表示 meets Transformer 嵌入 patch UNet 图像 上下文

简单来说,就是分为两个流,用CNN来获取局部信息,用tranformer获取全局上下文信息,Transformer模块生成一个图像级上下文表示(ICR)来构建图像级的空间依赖图,并生成区域重要性系数(RIC)来模拟每个区域的重要性。

模型结构如下:

 在第一个流当中,我们应用CNN来获取图像(但好像是个二维的图像),经过半U-Net的模型之后

边界热图的获得:

其中σ表示sigmoid激活,而Convb(.)表示1 × 1核卷积操作

2、远程信息的表示:

上面说到,要通过transfomer来实现远程上下文的依赖表示,所以将图像切割成了p*p*c的patch(注意c是通道数,而不是深度,因为他是个二维的),每个patch变成了flattened并且无重叠部分,故每部分的序列长度是

 经过Patch Encoder将这些补丁嵌入到K维的映射当中,为了保持每个patch的空间信息,我们学习到一个一维位置嵌入Ipos∈RN ×K,随后加入到patch嵌入中以保持位置信息

 其中I∈R(p2·C)×K表示投影的patch嵌入。然后,我们利用包含多头自注意(MSA)和多层感知器(MLP)的Transformer块堆栈来学习远程上下文表示。MSA层由M个并行的自注意头组成,用于缩放嵌入的补丁: 

 然后,MLP学习远程依赖通过,其中Norm()表示层归一化[5】,表示d维空间中的编码语义表示。除了编码特征之外,我们还通过重塑(Re)特征并应用1 × 1卷积操作(Conv1)来建模图像级上下文表示(ICR):

我们使用ICR在图像级构建空间依赖图,然后对CNN模块生成的特征集进行归一化。我们进一步定义区域重要系数(RIC)来模拟前景像素在每个区域的分布。RIC系数的目的是提供一个监督信号,指导上下文注意模块确定重要区域(Eq. 3)。ConvR显示了一个1 × 1的卷积操作。

 

标签:表示,meets,Transformer,嵌入,patch,UNet,图像,上下文
From: https://www.cnblogs.com/guanyifan/p/17387713.html

相关文章

  • Transformer 模型中的positional encoding(位置编码)计算理解(2)
            以下(以上)内容来自(参考):https://www.bilibili.com/video/BV1Di4y1c7Zm?p=2&vd_source=6292df769fba3b00eb2ff1859b99d79e  importnumpyasnpdefgetPositionEncoding(seq_len,dim,n=10000):##seq_len:序列长度##dim词向量的维......
  • Transformers回顾 :从BERT到GPT4
    人工智能已成为近年来最受关注的话题之一,由于神经网络的发展,曾经被认为纯粹是科幻小说中的服务现在正在成为现实。从对话代理到媒体内容生成,人工智能正在改变我们与技术互动的方式。特别是机器学习(ML)模型在自然语言处理(NLP)领域取得了重大进展。一个关键的突破是引入了“自......
  • Transformer 估算 101
    Transformer估算101 本文主要介绍用于估算transformer类模型计算量需求和内存需求的相关数学方法。引言其实,很多有关transformer语言模型的一些基本且重要的信息都可以用很简单的方法估算出来。不幸的是,这些公式在NLP社区中鲜为人知。本文的目的是总结这些公式,阐明......
  • transformers在ctr中的应用
    文章目录1.背景2.相关论文解析2.1《AutoInt:AutomaticFeatureInteractionLearningviaSelf-AttentiveNeuralNetworks》2.1.1论文贡献2.1.2模型结构2.1.2.1输入2.1.2.2注意力机制层2.1.3实验结果2.2《BehaviorSequenceTransformerforE-commerceRecommendationin......
  • 2023AAAI_Ultra-High-Definition Low-Light Image Enhancement: A Benchmark and Tran
    一.motivition1.之前的数据集分辨率较低二.contribution1.提出两个超高清数据集UHD-4k和UHD-8k2.网络结构LLFormer(网络结构类似2022CVPR_Restormer:EffificientTransformerforHigh-ResolutionImageRestoration.)三.Network 网络架构类似于:2022CVPR_Restormer:......
  • Transformer学习
    Transformer学习此帖用于整理回顾自己学transformer的一些问题和知识极好的博客和资料:Transformer模型详解-CSDN博客:原理讲的很清楚举个例子讲下transformer的输入输出细节及其他-知乎(zhihu.com):讲的是输入输出的细节Transformer论文逐段精读【论文精读】B站:李沐dalao......
  • 凭“难听”上热搜的 idol 们,不如考虑下让 Transformer 帮您作曲?
    视频制作|白鹡鸰编|小轶考虑到“AI音乐”这一主题的特殊性,唯有多媒体的视频形式才能更好地给大家带来视听上的多重感受。于是,小屋的白鸟鸟同学在科研间隙连续肝了好几个晚上,才得以完成这次视频。然而在上周的推送中,不知道微信出了什么bug,最最精华的视频部分居然消失了!所以今......
  • 李宏毅transformer笔记
     首先这里解决的问题是Seq2Seq列出各种场景,语音识别,机器翻译,chatbot 当前现在NLP模型之所以这么重要,在于他的通用能力,很多场景都可以转换成Seq2Seqsummary,情感分析啊,只要你能通过QA和机器交互的场景都可以是Seq2Seq这里的例子,语法树解析,多元分类,甚至是对象识别Seq2Seq......
  • An Image Is Worth 16x16 Words: Transformers For Image Recognition At Scale
    模型如下图所示:将H×W×C的图像reshape成了N×(P2×C),其中(H,W)是图像的原始分辨率,C是通道数,(P,P)是每个图像块的分辨率,N=H×W/P2为图像块的数量,将一个图像块使用可学习的线性层映射到维度为D的隐藏向量,如式(1)所示,线性映射的输出称为patchembeddings.在patchembeddin......
  • 【阅读】Transformer
    参考AttentionIsAllYouNeedAGeneralSurveyonAttentionMechanismsinDeepLearning注意力足矣(AttentionIsAllYouNeed)一般注意力模型这个模型接受一个输入,执行指定的任务,然后产生所需的输出输入\(X_{d_x\timesn_x}=[{\boldsymbolx}_1,\dots,{\bold......