Transformer meets UNet

时间：2023-05-10 13:34:45浏览次数：39

标签：表示 meets Transformer 嵌入 patch UNet 图像上下文

简单来说，就是分为两个流，用CNN来获取局部信息，用tranformer获取全局上下文信息，Transformer模块生成一个图像级上下文表示(ICR)来构建图像级的空间依赖图，并生成区域重要性系数(RIC)来模拟每个区域的重要性。

模型结构如下：

在第一个流当中，我们应用CNN来获取图像（但好像是个二维的图像），经过半U-Net的模型之后

边界热图的获得：

其中σ表示sigmoid激活，而Convb(.)表示1 × 1核卷积操作

2、远程信息的表示：

上面说到，要通过transfomer来实现远程上下文的依赖表示，所以将图像切割成了p*p*c的patch(注意c是通道数，而不是深度，因为他是个二维的），每个patch变成了flattened并且无重叠部分，故每部分的序列长度是

经过Patch Encoder将这些补丁嵌入到K维的映射当中，为了保持每个patch的空间信息，我们学习到一个一维位置嵌入Ipos∈R^{N ×K}，随后加入到patch嵌入中以保持位置信息

其中I∈R^(p2·C)×K表示投影的patch嵌入。然后，我们利用包含多头自注意(MSA)和多层感知器(MLP)的Transformer块堆栈来学习远程上下文表示。MSA层由M个并行的自注意头组成，用于缩放嵌入的补丁:

然后，MLP学习远程依赖通过，其中Norm()表示层归一化[5】，表示d维空间中的编码语义表示。除了编码特征之外，我们还通过重塑(Re)特征并应用1 × 1卷积操作(Conv1)来建模图像级上下文表示(ICR):

我们使用ICR在图像级构建空间依赖图，然后对CNN模块生成的特征集进行归一化。我们进一步定义区域重要系数(RIC)来模拟前景像素在每个区域的分布。RIC系数的目的是提供一个监督信号，指导上下文注意模块确定重要区域(Eq. 3)。ConvR显示了一个1 × 1的卷积操作。

标签：表示,meets,Transformer,嵌入,patch,UNet,图像,上下文
From： https://www.cnblogs.com/guanyifan/p/17387713.html

Transformer 模型中的positional encoding(位置编码)计算理解(2)
以下（以上）内容来自(参考):https://www.bilibili.com/video/BV1Di4y1c7Zm?p=2&vd_source=6292df769fba3b00eb2ff1859b99d79e importnumpyasnpdefgetPositionEncoding(seq_len,dim,n=10000):##seq_len:序列长度##dim词向量的维......
Transformers回顾：从BERT到GPT4
人工智能已成为近年来最受关注的话题之一，由于神经网络的发展，曾经被认为纯粹是科幻小说中的服务现在正在成为现实。从对话代理到媒体内容生成，人工智能正在改变我们与技术互动的方式。特别是机器学习(ML)模型在自然语言处理(NLP)领域取得了重大进展。一个关键的突破是引入了“自......
Transformer 估算 101
Transformer估算101 本文主要介绍用于估算transformer类模型计算量需求和内存需求的相关数学方法。引言其实，很多有关transformer语言模型的一些基本且重要的信息都可以用很简单的方法估算出来。不幸的是，这些公式在NLP社区中鲜为人知。本文的目的是总结这些公式，阐明......
transformers在ctr中的应用
文章目录1.背景2.相关论文解析2.1《AutoInt:AutomaticFeatureInteractionLearningviaSelf-AttentiveNeuralNetworks》2.1.1论文贡献2.1.2模型结构2.1.2.1输入2.1.2.2注意力机制层2.1.3实验结果2.2《BehaviorSequenceTransformerforE-commerceRecommendationin......
2023AAAI_Ultra-High-Definition Low-Light Image Enhancement: A Benchmark and Tran
一.motivition1.之前的数据集分辨率较低二.contribution1.提出两个超高清数据集UHD-4k和UHD-8k2.网络结构LLFormer(网络结构类似2022CVPR_Restormer:EffificientTransformerforHigh-ResolutionImageRestoration.)三.Network 网络架构类似于：2022CVPR_Restormer:......
Transformer学习
Transformer学习此帖用于整理回顾自己学transformer的一些问题和知识极好的博客和资料：Transformer模型详解-CSDN博客：原理讲的很清楚举个例子讲下transformer的输入输出细节及其他-知乎(zhihu.com)：讲的是输入输出的细节Transformer论文逐段精读【论文精读】B站：李沐dalao......
凭“难听”上热搜的 idol 们，不如考虑下让 Transformer 帮您作曲？
视频制作|白鹡鸰编|小轶考虑到“AI音乐”这一主题的特殊性，唯有多媒体的视频形式才能更好地给大家带来视听上的多重感受。于是，小屋的白鸟鸟同学在科研间隙连续肝了好几个晚上，才得以完成这次视频。然而在上周的推送中，不知道微信出了什么bug，最最精华的视频部分居然消失了！所以今......
李宏毅transformer笔记
首先这里解决的问题是Seq2Seq列出各种场景，语音识别，机器翻译，chatbot 当前现在NLP模型之所以这么重要，在于他的通用能力，很多场景都可以转换成Seq2Seqsummary，情感分析啊，只要你能通过QA和机器交互的场景都可以是Seq2Seq这里的例子，语法树解析，多元分类，甚至是对象识别Seq2Seq......
An Image Is Worth 16x16 Words: Transformers For Image Recognition At Scale
模型如下图所示:将H×W×C的图像reshape成了N×(P2×C),其中(H,W)是图像的原始分辨率,C是通道数,(P,P)是每个图像块的分辨率,N=H×W/P2为图像块的数量,将一个图像块使用可学习的线性层映射到维度为D的隐藏向量,如式(1)所示,线性映射的输出称为patchembeddings.在patchembeddin......
【阅读】Transformer
参考AttentionIsAllYouNeedAGeneralSurveyonAttentionMechanismsinDeepLearning注意力足矣（AttentionIsAllYouNeed）一般注意力模型这个模型接受一个输入，执行指定的任务，然后产生所需的输出输入\(X_{d_x\timesn_x}=[{\boldsymbolx}_1,\dots,{\bold......

Transformer meets UNet

相关文章

赞助商

阅读排行