1. 为什么有patch0,需要一个整合信息的向量,如果只有原始输出的9个向量,用哪个向量来分类都不好。
全用计算量又很大所以加一个可学习的vector,也就是patch 0来整合信息。分类需要,分割和检测不是
2. 位置编码
图像切分重排后失去了位置信息并且Transformer的内部运算是空间信息无关的,所以需要把位置信息编码重新传进网络
ViT使用了一个可学习的vector来编码,编码vector和patch vector直接相加组成输入
3. Attention距离和网络层数的关系
Attention的距离可以等价为Conv中的感受野大小
可以看到越深的层数,Attention跨越的距离越远,但是在最底层,也有的head可以覆盖到很远的距离
这说明他们确实在负责Global信息整合
4. SIFT
SIFT是用于图像处理领域的一种描述。这种描述具有不变性,可在图像中检测出关键点,是一种局部特征描述子
a.尺度空间极值检测:计算的第一阶段搜索所有尺度和图像位置。通过使用高斯差分函数来识别对尺度和方向不变的潜在兴趣点,有效地实现了该算法。
b.关键点定位:在每个候选位置,一个详细的模型被用来确定位置和比例。关键点是基于它们的稳定性度量来选择的。
c.方向分配:基于局部图像梯度方向,将一个或多个方向分配给每个关键点位置。所有未来的操作都在已经相对于每个特征的指定方向、比例和位置进行了变换的图像数据上执行,从而为这些变换提供了不变性。
d.关键点描述符:在每个关键点周围的区域中,以选定的比例测量局部图像梯度。这些被转换成允许显著水平的局部形状失真和照明变化的表示
标签:编码,Attention,位置,vector,VIT,图像,关键点 From: https://www.cnblogs.com/dwletsgo/p/17635388.html