Pyramid Vision Transformer | 2023人工智能大会青年科学家论坛
王文海 香港中文大学
-
首次将多层次金字塔结构引入视觉变化网络
-
研究动机
- | 方法 | 感受野,模型权重->表征能力 | 结构输出->适用面 |
| ---- | -------------------------- | ---------------- |
| CNN | 局部固定 | 金字塔多尺度 |
| ViT | 全局自适应 | 柱状单尺度 |
| PVT | 全局自适应 | 金字塔多尺度 |
- | 方法 | 感受野,模型权重->表征能力 | 结构输出->适用面 |
-
关键点
- 金字塔结构:分辨率由大到小,特征维度从小到大
- 四段式结构:每个阶段存在独立patch 和 transformer
- 空间压缩注意力机制:解决分辨率高导致的资源消耗大的问题
-
如何控制每个阶段分辨率大小
- \(H\times W\times C\to H/P\times W/P\times CP^2\to H/P\times W/P\times C'\to\mathrm{Decoder}\)
-
如何减小高分辨率特征图上注意力算子的计算消耗
- 空间压缩注意力层
- 处理后复杂度仅有原先复杂度的\(1/R_i^2\)
-
如何搭建模型结构
- 参考ResNet模型搭建规则
- 随层数加深特征图分辨率减小,维度加大
- 主要计算量集中在第三层
- 参考ResNet模型搭建规则
-
优点汇总
- 可以输出多尺度高分辨率特征图
- 结合纯transformer的解码器实现检测和分割