使用clip模型计算图文相似度
clip模型
CLIP (Contrastive Language-Image Pretraining) 是由 OpenAI 开发的一种深度学习模型,旨在将自然语言处理和计算机视觉任务结合起来。它通过一种名为对比学习(Contrastive Learning)的训练方法,将图像和文本映射到一个共同的向量空间中,从而可以计算图文之间的相似度。
模型架构
- 文本编码器: 通常使用基于 Transformer 的架构(如 BERT 或 GPT),将文本输入编码为向量表示。
- 图像编码器: 通常使用卷积神经网络(如 ResNet)或视觉 Transformer,将图像输入编码为向量表示。
训练过程
- CLIP 使用了一个巨大的图文对数据集进行训练,每对数据包含一张图像及其相应的描述文本。
- 训练的目标是使图像和对应描述的文本在向量空间中尽可能靠近,而非对应的图像-文本对则尽可能远离。
- 损失函数采用对比损失(Contrastive Loss),通过最大化图像和其描述文本之间的相似度,最小化其他图文对之间的相似度。
应用场景
- 图文检索:给定一个查询图像,找到与之描述相匹配的文本,反之亦然。
- 图像分类:通过输入文本标签,找到最匹配该标签的图像。
- 图文相似度计算:评估图像与文本描述之间的相似度。
clip安装
clip不能直接通过pip安装,可以使用以下命令进行安装
pip install git+https://github.com/openai/CLIP.git
计算图文相似度
判断这张图片与标签[“a car”, “a bus”, “a bicycle”]对应的分数。
import torch
import clip
from PIL import Image
device = "cuda" if torch.cuda.is_available() else "cpu"
model, preprocess = clip.load("ViT-B/32", device=device)
image = preprocess(Image.open("car.jpg")).unsqueeze(0).to(device)
text = clip.tokenize(["a car", "a bus", "a bicycle"]).to(device)
with torch.no_grad():
image_features = model.encode_image(image)
text_features = model.encode_text(text)
logits_per_image, logits_per_text = model(image, text)
probs = logits_per_image.softmax(dim=-1).cpu().numpy()
print("Label probs:", probs)
程序输出:
Label probs: [[0.9781556 0.02080377 0.00104056]]
识别成功,汽车的分数远高于其他两项!
标签:clip,text,模型,图像,文本,image,图文 From: https://blog.csdn.net/summerriver1/article/details/139361415