目录
背景
应该说Milvus 在2.4以上版本提供了一个 collection 放多个 vector db 的功能,并在之上 query 时,可以结合多个不同的query weights 给出综合性得分。但是不是一定要用这个功能才可以完成图片与文本的交互式搜索?答案肯定是否定的。从CLIP的原理上来说,就是 txt 与 pic 映射到相同维度的一个向量空间,只要让 txt 与对应的 pic 的 similarity 足够小,与不mapping 的pic simlairty足够大就好,于是本着这个思路,我们看看怎么实现。
训练素材
download
首先下载
pip install torchvision -i https://pypi.tuna.tsinghua.edu.cn/simple
torchvision 简介
Torchvision是Pytorch中一个开源的机器学习框架,专门为计算机视觉任务设计和优化。它提供了多种功能来支持计算机视觉项目的开发和实验。
简要来说有如下的功能:
数据加载与处理:
Torchvision提供了torchvision.datasets模块,其中包含了许多常用的计算机视觉数据集,如CIFAR-10、CIFAR-100、ImageNet等。torchvision.transforms模块提供了许多预处理功能,如裁剪、旋转、翻转、归一化等,这些功能可以帮助进行数据增强和预处理。
预训练模型: