cvt

2024-07-10CvT：微软提出结合CNN的ViT架构 | 2021 arxiv
CvT将Transformer与CNN在图像识别任务中的优势相结合，从CNN中借鉴了多阶段的层级结构设计，同时引入了ConvolutionalTokenEmbedding和ConvolutionalProjection操作增强局部建模能力，在保持计算效率的同时实现了卓越的性能。此外，由于卷积的引入增强了局部上下文建模能力，CvT不再需要