ViT:如果在足够多的数据上做预训练,直接用NLP中搬来的Transformer也能把视觉问题解决的很好,这打破了视觉和NLP之间模型上的壁垒,所以就开启了多模态领域的快速发展。
在开始读原文之前,这里展示了一个ViT有趣的特性,即在以下四种情况下CNN甚至人眼都难以分辨图片中是一只鸟,而ViT效果拔群
第一个是遮挡,第二是数据分布偏移(纹理去除),第三是加一个patch,第四是打乱随机排列组合
标签:NLP,Transformer,patch,数据分布,ViT,视觉 From: https://www.cnblogs.com/andoblog/p/17304513.html