首页 > 其他分享 >CLIP 读书笔记

CLIP 读书笔记

时间:2022-10-07 10:55:05浏览次数:67  
标签:shot 细粒度 CLIP 读书笔记 分类 Zero 数据

论文:Learning Transferable Visual Models From Natural Language Supervision
CLIP: Contrastive Language-Image Pre-training

文中27个数据集简介:

数据集 简要描述 数据集类型
StanfordCars 196类小汽车, 16185张图片 细粒度分类
Country211 211个国家的带有GPS信息的图片,以评估视觉预测地理定位能力
Food101 101种食物,101k张图片 细粒度分类
Kinetics700 700种人类动作,每个动作700个视频片段 细粒度分类
SST2 文本情感分析数据集
SUN397 场景理解数据集,899个场景130k张图片 粗分类
UCF101 101种人类行为动作数据集 细粒度分类
HatefulMemes 可引起仇恨多模态图文对数据集
CIFAR10 10种类别数据集 粗分类
CIFAR100 100中类别数据集 粗分类
STL10 类似cifar数据集,每个类别有大量无标注图片 粗分类
FER2013 7分类表情数据集 细粒度分类
Caltech101 101种类别数据集 粗分类
ImageNet 1000种类别数据集 粗分类
OxfordPets 猫狗数据集 细粒度
PascalVOC2007 物体检测数据集 粗分类
Birdsnap 500种鸟类数据集49k张图片 细粒度
MNIST 10个数字分类 粗分类
FGVCAircraft 102种飞机数据集,每一类100张图片 细粒度
RESISC45 45种遥感场景图片数据集 粗分类
Flower102 102种花朵数据集,每种40-258张 细粒度
DTD 纹理数据集 粗分类
CLEVRCounts 合成的视觉问答数据集 粗分类
GTSRB 德国交通信号灯分类数据集 粗分类
PatchCamelyon 淋巴切片组织病理学扫描 粗分类
KITTI Distance 移动机器人和自动驾驶距离预测 回归
EuroSAT 遥感卫星图片10种类别 粗分类

论文针对27个数据集,关于零样本CLIP与全监督ResNet50基准模型进行对比。参考下图
(1)在细粒度分类数据集上,在有的数据集如StandfordCars和Food101上明显由于基准ResNet50 20个百分点;而在有些数据集上如Flowers102和FGVCAircraft上则明显低于基准10个百分点。论文猜测是由于不同监督任务的数据量有很大区别,但是结合上面粗略统计这4个细粒度数据集,类别的数量和每个类别下图片的数量都没有太大区别。
(2)Kinetic700和UCF101是人类动作分类数据集,零样本学习CLIP方法比基准方法高 10百分点上下。论文解释自然语言为涉及动词的视觉概念提供了更广泛的监督,而单纯的视觉监督任务主要以名称为主。
(3)零样本学习CLIP方法在更专业的复杂的抽象的任务上如遥感图像分类如EuroSAT和RESISC45,淋巴结肿瘤检测如PatchCamelyon,合成场景物体计数CLEVRCounts,自动驾驶相关的交通信号识别GTSRB,最近汽车距离识别KITTI Distance这些任务上,该方法表现比基准方法差很多。但是非专业人员在如卫星图片分类、计数、交通信号灯识别变现很稳健,说明零样本学习CLIP方法还有很大的改进空间。但是对于一些专业性很强的任务中,如淋巴结肿瘤辨别,即使是非专业人员也很难识别。零样本学习方法相比小样本学习方式,哪个更合适还有待进一步讨论。

image
Fig. 1

Zero-CLIP方法与few-shot方法对比
直觉认为Zero-shot方法会比few-shot方法性能差,实际表现是Zero-CLIP方法相当于基于相同特征空间 4-shot 线性分类方法。之所以如此,是由于这两种方法的区别。基于CLIP 的Zero-shot分类器,具备自然语言和视觉区分能力,还学习到了语言域和视觉域之间的关联。而常规的监督学习方法,并不能直接从训练样本中学习到概念(分类任务都会把类别标签都转换为0,1,2,……这些数字),另外图片中,经常包含多个不同视觉主体,而标签仅仅给出的其中的一个。

Linear probe CLIP:指基于CLIP特征,进行分类器单独训练。基于上述分析,Linear Probe CLIP 在开始1-shot,2-shot时还不如 Zero-Shot CLIP,单独训练分类器反而更差了。当每个类别变多时,效果才逐渐超过Zero-shot CLIP方法。在20个数据集上验证了,Zero-CLIP方法相当于基于相同特征空间 4-shot 线性分类方法。而基于其它Backbone提取的特征进行16-shot 分类,都不如Zero-Shot CLIP 方法。而16-shot CLIP 比16-shot 其它backbone方法高出10个百分点。

image
Fig. 2

Fig1是 Zero-CLIP方法与ResNet50监督方法进行对比,而Fig3是Zero-CLIP方法与基于CLIP特征空间的few-shot性能对比,这个对比是要求few-shot达到Zero-CLIP方法一样性能下数据集每个类别所需要的最少数量。Fig2表明基于CLIP特征的few-shot 并未都超过了Zero-CLIP,只有few-shot的每个类别数量超过一定数量如4-shot,才超过Zero-CLIP。

从Fig.3看出,达到Zero-CLIP的性能,在不同数据集上,基于CLIP特征训练分类器,不同数据集每个类别样本数量是不相同,从不到1个到最大的要求184个。

image

标签:shot,细粒度,CLIP,读书笔记,分类,Zero,数据
From: https://www.cnblogs.com/wolfling/p/15981782.html

相关文章

  • 《数据科学家访谈录》读书笔记
    ​一、本书内容的介绍《数据科学家访谈录》是一本对当前全球最知名的25位数据科学家的深度采访,然后汇聚成册的访谈录,读者可以从中学习到这25位数据科学领域的大师的个人经历......
  • 最新版JDK、Eclipse安装教程
    摘要:本文详细介绍了在Windows下如何下载当前最新版的JDK及Eclipse以及具体安装步骤,并附软件安装包,最后介绍简单改变窗口风格、字体调整使其编辑界面更加美观整洁。其要点......
  • 读书笔记1
    就同我在上篇读书笔记中说的那样,这本书中的一些方法和思想,需要我们在之后的编程学习过程中一点一点的参悟和领会。比如说从我的第一次个人作业中,我对书中提到的曳光弹代码......
  • 读书笔记2
    最近阅读了《程序员的修炼之道:从小工到专家》第四章:“注重实效的偏执”,再结合上周一的期中考试,让我感触颇深。本章开始先讲述了“按合约设计”,大该讲的是与计算机打交道......
  • Eclipse颜色主题(Color Theme)与缩进线(Indent Guide)插件安装教程
    摘要:这篇博文主要介绍Eclipse的颜色主题插件(ColorTheme)的安装教程,以及如何使用缩进线插件为编辑器中代码添加类似VisualStudio中的缩进线,以对Eclipse编辑器界面进行美......
  • 产品经理必懂得技术那点事儿——读书笔记
    产品经理必懂得技术那点事儿1.产品思维与技术思维1.1.产品经理为什么要懂技术当产品经理与工程师就某一个具体问题进行讨论时,双方站在各自角度就问题进行分析和讨论,固有......
  • 9月《代码大全2中文版》读书笔记
         本月,在王老师的推荐下,我进行了对美国的史蒂夫·麦克奈尔先生编著的《代码大全2中文版》这本书的学习工作。本次学习让我受益匪浅,以下是我个人的一些所思所想......
  • 读书笔记1
    读书笔记1程序员所应该遵循的实用主义原则。我的源码让猫给吃了:出现错误时,要诚实,不要推诿或者找借口。要提供各种可能的解决方案与后果并与他人沟通,而不是提供借口。软......
  • 读书笔记2
    程序需要遵守的实用主义原则。重复的危害:如果某个事物在代码中重复多次,就可能会在维护过程中带来问题,因为改动了一处而忘记改动另一处造成自相矛盾。这加大了维护难度。要......
  • 《程序员修炼之道:从小工到专家》读书笔记2
    除了是程序员,AndyHunt还是一位木匠和音乐家,你LD将v到h与这样的背景粕关单引擎飞机。尽管作者未曾明言,在本书的许多地方、你都将看到与这样的背景相关的叙述。我想,对于两位......