ViLT

2025-01-14ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision（ViLT 无卷积或区域监督的语言视觉转换
ViLT:Vision-and-LanguageTransformerWithoutConvolutionorRegionSupervision（ViLT无卷积或区域监督的语言视觉转换器）1.摘要大概内容就是视觉与语言预训练（VLP）在各种视觉与语言联合下游任务重表现很牛逼，但是目前他们大部分都以来图像特征提取过程（比如区域监督和卷积结