OpenAI CLIP 关键点 - 连接图像和文字

时间：2023-05-07 11:13:47浏览次数：53

标签：训练 CLIP 模型分类 OpenAI 图像文本关键点

标签： #CLIP #Image2Text #Text2Image #OpenAI
创建时间：2023-04-21 00:17:52

基本原理

CLIP是一个图像分类模型。
准备训练数据：准备大量的文本描述和图片的训练对，然后把进行对比训练。
文本描述和图片的训练对的数据获取：从互联网上获得400Million的图像文本数据对。这个规模大致和GPT-2的数据规模相当。
1. 好处1：数据获取容易。传统的做法会对图像进行分类，以ImageNet为例，获得图片后需要人工进行分类标注，这个周期长成本高。
2. 好处2：迁移能力强。过去是精确分类一张图片，这样当出现一个未包含的图片的时候，在已知图片分类里就找不到对应的答案了。而CLIP因为训练的素材里面的描述是文本性的（而不是一两个单词的简单分类名称），因此它获得了更好的泛化能力。
因为有了这么大的数据，所以需要更好大量的算力，以及优质的算法。
1. Text Encoder采用的是Transformer。
2. Image Encoder采用的是Vision Transformer。
3. 整个计算在256个V100 GPU上训练2周（12天），得出了ViT-L/14@336px模型。
CLIP的设计初衷是为了能够做到零样本迁移（Zero-Shot）到下游数据集上的，也就是说，希望训练完的模型，在遇到一个完全没有见过的图片训练集的时候，可以进行高效的分类。为了达到这个零样本学习的能力：
1. 研发人员摒弃了传统的数据集，因为传统的数据集通常是建立在明确分类基础上的，所以当一个新分类的图片出现的时候，这个模型就不知所措了。
2. 把一般的分类换成一个描述性的文本，则可以比较好的解决这个问题。这里列出了他们准备文本描述的模板，通过这些模板，可以把一个带有歧义的单词，变成一个有意义的图像描述，比如论文里举例：boxer，当只提到这个词的时候，我们可能以为它是个拳击手，但是当结合了模板A photo of a {label}, a type of pet.（其中{label}替换成boxer）那么boxer就可以被理解为一种狗（其中在生成数据的时候，比如a type of pet部分也是可以自动拼进去的，比如图片本来就来自牛津词典宠物图片集，那么自然就可以增加这样的分类信息，这会进一步让图像识别变得更加精准）。
主要用途：图像搜索（基于文本）、自然语言描述图像等。
限制：参考论文P18（6. Limitations）
结果：CLIP在Zero-Shot的情况下，在大部分常见数据集上都比特定训练的模型表现的好。在一些特别的模型基础上，Zero-Shot可能不一定有很好的效果，但是进行Few-shot则比特定训练的模型表现要好，因此模型具备很强的迁移能力。
引发的思考：
1. 数据量大，就可以获得不一样的研究方法和模型效果。其实CLIP用到的方法并不新鲜，前人也有用过类似的方法，但是因为没有采用这么大的数据量，所以没有达到SOTA的效果。
2. 模型的输入输出都变成了token，也可以理解都都是文本，它和NLP领域的GPT模型带来的颠覆性相似。
3. 因为是一般性的文本描述，而不是特定分类描述，所以模型具备了多模态的特性。
4. 因为是一般性的文本描述，所以模型可以用于自然语言描述图像。
这个项目的训练方法没有开源，但是训练结果的模型开源了。

基于CLIP延展的项目

StyleCLIP：变化发型、眼睛等。
CLIPDraw ：CLIPDraw: Exploring Text-to-Drawing Synthesis through Language-Image Encoders 可以通过CLIP绘制一些蜡笔画。
Paper：Open-Vocabulary Object Detection Using Captions 基于字幕的开放词汇目标检测目标检测。
Contrastive Language-Image Forensic Search 基于文本对视频中的内容进行检索。

参考资料

转载请注明出处：https://www.cnblogs.com/volnet/p/openai-clip.html

标签：训练,CLIP,模型,分类,OpenAI,图像,文本,关键点
From： https://www.cnblogs.com/volnet/p/openai-clip.html

eclipse注释模板及格式化模板导入方法
格式化模板导入步骤 1.点击Window->Preference->Java->CodeStyle->Formatter2.点击右侧Import选择*.xml模板文件导入即可3.如果需要对模板进行修改，可点击Edit编辑即可4.模板示例：1.<?xmlversion="1.0"encoding="UTF-8"standalone="no"?>2.<profilesvers......
Eclipse4.5Mars安装JAD反编译插件
第一步：打开eclipse帮助中的软件安装第二步：添加站点：http://feeling.sourceforge.net/update，如下图：第三步：选择EclipseClassDecompiler,下一步,下一步第四步：接受许可，安装！图略！第五步：重启eclipse！第六步：配置Jad，下图为EclipseClassDecompiler的首选项页面，可以选择缺省的反编译器工具，并......
【剪裁 widget】Flutter ClipOval 与 Flutter ClipRRect
本文是【剪裁widget】系列的第三篇，也是最后一篇，今天介绍一下ClipOval和ClipRRect。ClipOval介绍FlutterClipOval用椭圆形去剪裁child，path以外的部分不显示，还能高效的实现动画。剪裁是在绘制阶段，具体实现是在paint方法中调用PaintingContext类的pushClipPath方法进......
【OpenAI】私有框架代码生成实践
作者：京东零售牛晓光根据现有调研和实践，由OpenAI提供的ChatGPT/GPT-4模型和CodeX模型能够很好的理解和生成业界大多数编程语言的逻辑和代码，其中尤其擅长Python、JavaScript、TypeScript、Ruby、Go、C#和C++等语言。然而在实际应用中，我们经常会在编码时使用到一些私有框架、包......
云服务质量评估六大关键点
从云服务质量评估的角度来说，云服务可以包含一项或多项核心服务和支持服务。核心服务是重点，它能满足用户的关键期望和需要。支持服务也是不可或缺的部分，它能推动和增强核心服务的服务。1、可用性从服务的角度来说，可用性是最重要的参数，它表示一个服务是否存在或者是否立即可用。服务......
OpenAI API keys 的申请和测试小结
申请准备工作，申请OpenAIAPIkeys首先需要准备三件套：1.VPN（登录Google和OpenAI）2.GoogleGmail邮箱账号3.国外手机（接收验证码，可用接码平台代替）接下来，开启申请OpenAIAPIkeys之旅。首先，开启VPN全局代理模式，同时将代理服务器的地址改为香港以外的国家，这样避免......
eclipse中使用maven创建springmvc项目
第一步，eclipse---File---New---MavenProject 第二步，如图直接Next 第三步，如图直接Next 第四步，GroupId一般写公司域名的反转，ArtifactId写项目名称，然后点击Finish 第五步，创建好项目后，开始修改配置文件<projectxmlns="http://maven.apache.org/POM/4.0.0"xmlns:......
typescript重写canvas --7.利用clip在指定区域绘图
typescript重写canvas--7.利用clip在指定区域绘图1.使用canvas利用clip在指定区域绘图<!DOCTYPEHTML><html><head><metacharset="utf-8"/></head><body><canvasid="myCanvas"width="250"height="200......
eclipse中创建简单maven项目，并导出jar包运行
第一步，eclipse--New--Other 第二步，选择MavenProject 第三步，直接如图所示点击Next 第四步，也是如图所示点击Next 第五步，输入公司名和项目名，再点击Finish 第六部，右键项目RunAs--Maveninstall，生成jar包，然后复制jar到C盘根目录第七步，如图所示，直接运行......
什么是Auto GPT-4？ OpenAI 最新语言模型概览
动动发财的小手，点个赞吧！人工智能正在快速发展，近年来最令人兴奋的发展之一是创建可以生成类似人类文本的语言模型。领先的人工智能研究机构OpenAI最近发布了其最新的语言模型AutoGPT-4。在什么是AutoGPT-4？OpenAI最新语言模型概述一文，我们将概述什么是AutoGPT-4、Auto......

OpenAI CLIP 关键点 - 连接图像和文字

基本原理

基于CLIP延展的项目

参考资料

相关文章

赞助商

阅读排行