0. 引言

想尝试TransUnet，先稍微的了解了一下结构。

如果阅读到这篇文章，请略过，本文仅是个人的随笔。

但如果有想了解如何预处理数据并将它们传入网络，请读之后的文章，有详细的说明，也是为我之后做自己的其他任务而做的笔记。

1. 链接 Link

sci论文：https://arxiv.org/pdf/2102.04306.pdf

参考csdn：https://blog.csdn.net/weixin_46435936/article/details/121658305

2. 阅读 Read

2.1. 结构 Structure

由encoder和decoder组成U型结构。

Encoder部分加入了Transformer机制，最终得到了一个一维向量。

仅需要知道加入了这么一种叫Transformer的机制即可，不用深究其实现过程，可简单理解其为一个模块，经过模块的向量变为一维向量。

Decoder部分做了三次上采样，最终将此一维向量恢复成了原来的图像。

Encoder和Decoder部分还做了三次跳跃连接。

2.2. 编码 Encoder

2.2.1. 卷积 CNN

第一个过程被称做图像序列化：Image Sequentialization。

每次卷积过程包括三个步骤：卷积、GroupNorm和最大池化。

这样的过程有三次，每次下采样生成不同的特征图，将会与decoder过程中对应大小的特征进行跳跃连接。

第二个过程被称做补丁嵌入：Patch Embedding。

通过卷积，flatten，position和dropout最终输出带有位置信息的一维向量。

2.2.2. 变换 Transformer

一维向量再被输入Transformer块中重复12次，输出与Patch Embedding部分输出的向量大小相同的一维向量。

2.3. 解码 Decoder

将一维向量重新恢复成原来的特张图的形式（512, H/16, W/16)。

再通过转置卷积和上采样恢复特征，在三个阶段与encoder进行跳跃连接。

跳跃连接部分的上采样过程，最后得到的结果是(16, H, W)维度尺寸的特征图。

最终再进行一次预测的head与label一致，为(num_classes, H, W)进行损失计算。

3. 优势 Advantage

混合编码。

Transformer注重全局信息，但会忽略低分辨率下的图像细节。对解码器部分恢复图片的过程影响较大，会导致分割结果很粗糙。

CNN的平移不变性和捕捉长期依赖能力不足。

4. 想法 Think

是否能并行两个网络，在同一个特征尺寸上既关注局部信息（纯CNN)，又关注全局信息（纯Transformer），在上采样恢复特征的时候仅保留纯CNN的结构进行跳跃连接，或继续并行网络，直到最后的预测出图时再合并参数？

后续复现出代码后将进一步的实验。

标签：采样,00,一维,卷积,Transformer,略读,CNN,TransUnet,向量
From： https://www.cnblogs.com/If-I-Were-A-Bird/p/17754964.html

P2595 [ZJOI2009] 多米诺骨牌
轮廓线DP+外部容斥。似乎是CDQ论文题。有一个\(n\timesm\)的矩形表格，其中有一些位置有障碍。现在要在这个表格内放一些\(1\times2\)或者\(2\times1\)的多米诺骨牌，使得任何两个多米诺骨牌没有重叠部分，任何一个骨牌不能放到障碍上。并且满足任何相邻两行之间都有至少......
【华为OD统一考试B卷 | 100分】报数问题 (1到3报数)（C++ Java Python javaScript）
华为OD在线刷题平台平台涵盖了华为OD机试A卷+B卷的真题。平台的题库不断更新，确保能够涵盖华为OD机试的所有真题。点击链接注册并开始你的刷题之旅：点击立即刷题华为OD统一考试A卷+B卷新题库说明2023年5月份，华为官方已经将的2022/0223Q(1/2/3/4)统一修改为OD统一考试（A卷）和OD统......
P7600 [APIO2021] 封闭道路
P7600[APIO2021]封闭道路APIO从CF搬的题，模拟赛又搬了一遍/jy。首先考虑暴力怎么做，即做\(n\)次树形DP，设\(f_{i,0}\)表示强制删掉\((i,fa_i)\)这条边的最小代价，\(f_{i,1}\)表示强制保留\((i,fa_i)\)这条边的最小代价。对于一个点\(u\)，在限制度数为\(x\)时，对于......
[AHOI2002] Kitty猫基因突变
我们不妨将所有权值打到一棵树上，这很容易想到。考虑暴力，如果我们选择了\(w\)个点，修改后我们会从叶子节点依次合并去计算贡献。很显然我们可以动态规划维护。\(f[p][w][0/1/2]\)表示选了\(w\)个点，后整个区间的状态为\(0/1/2\)。0和1表示整个区间全为这个数。2表示......
洛谷B2005 字符三角形（python）
这题重点在如果输入print(a,a,a,a,a),逗号会使输出的时候五个字符之间有空格，应该用a+a+a+a+a。代码如下a=input();print(""+a)print(""+a+a+a)print(a+a+a+a+a) ......
一次WNDR4300刷机历程
几十块钱下手2个洋垃圾WNDR4300用作全屋漫游，同时安装udpxy，openpvn，aria，clash，samba等软件其中一个长按reset通过tftp-i192.168.1.1PUTopenwrt-22.03.5-ath79-nand-netgear_wndr4300-squashfs-factory.img正常刷机但是另外一个刷入之后反复重启，于是拆机通过TTL（黑色地，绿色TX，白......
[AGC009B] Tournament 题解
思路考虑树形\(\text{dp}\)。我们将每个人与把自己淘汰的人连边。得到一颗以一为根的树。由于我们需要求出必须赢的场数最多的那位选手，至少要赢多少场。考虑最多的限制。可以使用树型动态规划。每一次两个人比赛的代价为：\[dp_i=\max(dp_i,dp_j)+1\]这样就达成了最多的限......
20231009-20231015
20231009考试。20231010[AGC057E]RowCol/ColRowSort给定一个\(n\timesm\)，值域\([0,9]\)的矩阵\(B\)，请你计数有多少个大小相同的矩阵\(A\)满足下列条件：分别对\(A\)的每一列中元素从小到大排序，再分别对\(A\)的每一行中元素从小到大排序能够得到\(B\)。分别......
优艾智合机器人登榜2023深圳行业领袖企业100强
近日,由深圳市行业领袖企业发展促进会与深圳商报共同主办的“2023深圳行业领袖企业100强”与“深圳未来行业领袖企业50强”评选结果出炉。凭借在工业移动机器人领域的突出表现,优艾智合荣登2023深圳行业领袖企业100强榜单!图:深圳商报榜单公示作为国内领先的移动机器人及解决方案提......
00-遇到过的问题
目录一.编译时错误二.运行时错误1.系统崩溃三.蓝牙方面错误1.假连接问题四.红外方面错误一.编译时错误二.运行时错误1.系统崩溃在某个部分添加了一个定时循环扫描时间后,出现该问题具体原因不清楚.三.蓝牙方面错误1.假连接问题重复发回连广播,设备在回连过......

【科研00】【论文阅读】【略读笔记】TransUnet