图像文本对比模型实践——CLIP——2021

标签：编码器 CLIP 模型学习 2021 图像文本

图像文本对比模型实践——CLIP——2021

1.论文启发点详细内容（文+图）

clip 原理的极简版：

用图像编码器把图像编码成向量 a；
用文本编码器把文本编码成向量 b；
计算 a·b，
如果 a 和 b 来自一对儿配对的图和文字，则让 a·b 向 1 靠近；
如果 a 和 b 来自不配对儿的图和文字，则让 a·b 向 0 靠近；

1.1CLIP的用途，优势

根源用途：
    把图片和文字编码到同一空间，计算图像和文本的语义相似度；
扩展用途：
    1）图文搜索（根据图像搜索对应文本、或根据文本搜索对应图像）；
    2）协助完成相关的多模态任务（例如在 Stable Diffusion 里作为文本编码器）；
    3）作为评测工具（例如文生图任务中，计算生成图像与文本之间的相似度）。

CLIP zero-shot 这种方式的好处在于：1）不用再标注了，数据规模很容易上去，输入输出不仅限于那N个类别，自由度大了很多。2）多模态比单模态更容易迁移，融合了文本信号后再做视觉任务潜力非常大更容易迁移。

1.2CLIP的工作流

开始OpenAI想做成“输入图片，直接生成文本”这种形式。但是苦于这种方式的训练成本实在太大了，收敛速度也非常非常慢，下面这张图说明了这一点：如果直接用图像预测自然语言的话（蓝色线，生成学习），模型训练的巨慢，对比学习的方式（绿线）就快多了。这里橙色线的意思是给定一个词袋让模型从词袋里选一个作为预测输出（有标签学习），它的自由度介于直接生成文字和对比学习之间。

所以就退而求其次，选择了对比学习的方法，也就是本篇CLIP文章所讲的方法。CLIP结构图如下：

图 1：我们的方法总结。标准图像模型联合训练图像特征提取器和线性分类器来预测某些标签，而 CLIP 联合训练图像编码器和文本编码器来预测一批（图像、文本）训练样本的正确配对。在测试时，学习的文本编码器通过嵌入目标数据集类的名称或描述来合成零样本线性分类器。

预训练：预训练方法也不难理解，模型由两个编码器组成，如上图左半部分，左上紫色的梯形是文本编码器，左下绿色的梯形是图像编码器。作者收集了大量匹配的图像和文本对，然后分别走各自的编码器得到各自的特征，再计算特征两两之间的cos相似度，让配对的特征相似度越近越好，不配对的相似度越远越好。这样就可以完成了CLIP的预训练。

图像分类任务：如上图右半部人，给一堆类别名，把类别名填到“A photo of a {object}.”里面然后编码。然后图像也做编码，编码完成后拿图像特征跟文本特征比cos相似度，跟哪个特征距离最近，我们就认为模型把这张图分到了哪个类别里，so easy~~~

再说一下数据：收集了400 million 的数据文本对，跟webText差不多，称为WIT，即WebImageText。

然后是两个编码器模型：作者尝试了ResNet、EfficientNet、Transformer、最大用了ViT。最小与最大模型参数量为1:100。
伪代码流程

# extract feature representations of each modality
I_f = image_encoder(I) #[n，d_il 可以是ResNet or Vision Transformer
T_f = text_encoder(T) #[n,d_t] 可以是 CBOW（Continuous Bag-Of-Words） or Text Transformer

# joint multimodal embedding [n, d_e]
I_e = L2_normalize(np.dot(I_f, W_i)，axis=1) # normal里面是投射，学习如何从单模态到多模态。
T_e = L2_normalize(np.dot(T_f, w_t)，axis=1) # 这里用了线性投射层
# 别的论文里说用非线性投射层比线性的要多10个点的性能提升，但这里非线性和线性差别不大。
# 作者猜测非线性投射层主要用来适配纯单模态学习。
# 也没用数据增强，只是随机裁剪了
# 对比学习中的temperature，以往任务中调一调会有很大提升，这里设计成了可学习的参数。
# temperature 是计算cos相似度公式里的一个参数

# scaled pairwise cosine similarities [n, n]
logits = np.dot(I_e， T_e.T) * np.exp(t)

# symmetric loss function
labels = np.arange(n)
loss_i = cross.entropy_loss(logits, labels，axis=0)
loss_t = cross.entropy_loss(losits，iatels，axis=1)
loss = (loss_i + loss_t) / 2