简单来说,就是分为两个流,用CNN来获取局部信息,用tranformer获取全局上下文信息,Transformer模块生成一个图像级上下文表示(ICR)来构建图像级的空间依赖图,并生成区域重要性系数(RIC)来模拟每个区域的重要性。
模型结构如下:
在第一个流当中,我们应用CNN来获取图像(但好像是个二维的图像),经过半U-Net的模型之后
边界热图的获得:
其中σ表示sigmoid激活,而Convb(.)表示1 × 1核卷积操作
2、远程信息的表示:
上面说到,要通过transfomer来实现远程上下文的依赖表示,所以将图像切割成了p*p*c的patch(注意c是通道数,而不是深度,因为他是个二维的),每个patch变成了flattened并且无重叠部分,故每部分的序列长度是
经过Patch Encoder将这些补丁嵌入到K维的映射当中,为了保持每个patch的空间信息,我们学习到一个一维位置嵌入Ipos∈RN ×K,随后加入到patch嵌入中以保持位置信息
其中I∈R(p2·C)×K表示投影的patch嵌入。然后,我们利用包含多头自注意(MSA)和多层感知器(MLP)的Transformer块堆栈来学习远程上下文表示。MSA层由M个并行的自注意头组成,用于缩放嵌入的补丁:
然后,MLP学习远程依赖通过,其中Norm()表示层归一化[5】,表示d维空间中的编码语义表示。除了编码特征之外,我们还通过重塑(Re)特征并应用1 × 1卷积操作(Conv1)来建模图像级上下文表示(ICR):
我们使用ICR在图像级构建空间依赖图,然后对CNN模块生成的特征集进行归一化。我们进一步定义区域重要系数(RIC)来模拟前景像素在每个区域的分布。RIC系数的目的是提供一个监督信号,指导上下文注意模块确定重要区域(Eq. 3)。ConvR显示了一个1 × 1的卷积操作。
标签:表示,meets,Transformer,嵌入,patch,UNet,图像,上下文 From: https://www.cnblogs.com/guanyifan/p/17387713.html