2025-01-14ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision(ViLT 无卷积或区域监督的语言视觉转换ViLT:Vision-and-LanguageTransformerWithoutConvolutionorRegionSupervision(ViLT无卷积或区域监督的语言视觉转换器)1.摘要大概内容就是视觉与语言预训练(VLP)在各种视觉与语言联合下游任务重表现很牛逼,但是目前他们大部分都以来图像特征提取过程(比如区域监督和卷积结