Learning Transferable Visual Models From Natural Language Supervision

时间：2023-08-13 19:24:32浏览次数：46

标签：自然语言 Natural Language 训练 Models 学习 shot 文本数据

Learning Transferable Visual Models From Natural Language Supervision

作者：Alec Radford *1 Jong Wook Kim *1 Chris Hallacy 1 Aditya Ramesh 1 Gabriel Goh 1 Sandhini Agarwal 1 Girish Sastry 1 Amanda Askell 1 Pamela Mishkin 1 Jack Clark 1 Gretchen Krueger 1 Ilya Sutskever 1

OpenAI

发表年份：2021

1. Introduction and Conclusion

Problems

Could scalable pre-training methods which learn directly from web text result in a similar breakthrough in computer vision?

Contributions

main contribution is studying its behavior at large scale.

利用自然语言的文本信息，作为监督信号来学习视觉特征。

Motivation

背景：直接从原始文本中学习的预训练方法在过去几年中彻底改变了 NLP，实现了零样本迁移到下游数据。比如gpt-3一类的模型，几乎不需要特定于数据集的训练数据。而当前的计算机视觉（CV）模型通常被训练用于预测有限的物体类别，这样的模型通常还需要额外的标注数据来完成训练时未曾见过的视觉“概念”。在NLP中，预训练的方法目前已经被验证很成功，直接从网络文本中学习的可扩展预训练方法能否在计算机视觉领域带来类似的突破？

使用自然语言学习的方法可以从互联网上大量的文本数据中学习；

与大多数无监督或自监督的学习方法相比，从自然语言中学习不只是学习一个表征，而且还将该表征与语言联系起来，从而实现灵活的zero-shot learning。

2. Method

工作的核心是从自然语言与图像配对的监督中学习感知

1. Creating a Sufficiently Large Dataset - 400 million (image, text) pairs

2. Selecting an Efficient Pre-Training Method - contrastive representation learning

3. Choosing and Scaling a Model

ResNet50, Vision Transformer(ViT)

Transformer

4. Pre-training

The largest ResNet model, RN50x64, took 18 days to train on 592 V100 GPUs while the largest Vision Transformer took 12 days on 256 V100 GPUs.

由于数据集很大，因此不用担心过拟合问题；

没有加载预训练权重，完全从零开始训练；

没有使用非线性激活函数，而是直接使用一个线性映射；

没有使用文本数据增强（这里主要指从文本中选取一个句子），因为数据集中的文本只有一个句子；

图像数据增强方面只使用了随机裁剪；

温度参数t在训练过程中也被优化。

3. Experiments

zero-shot transfer

zero-shot分类

4. Limitations

report_stqc_230710.pptx

标签：自然语言,Natural,Language,训练,Models,学习,shot,文本,数据
From： https://www.cnblogs.com/qchao/p/17627020.html

【专栏阅读】World models
来源：如何理解Tesla和Wayve在CVPR2023workshop上提到的worldmodel？-EatElephant的回答-知乎https://www.zhihu.com/question/610849510/answer/3108529249 “CVPR2023自动驾驶workshop上Tesla和Wayve都提到了他们在利用生成大模型方面的最新探索方向，即大模型来生成自动......
自然语言处理（Natural Language Processing，NLP）
自然语言处理（NaturalLanguageProcessing，NLP）是人工智能领域的一个重要分支，旨在使计算机能够理解、处理和生成人类自然语言。NLP的目标是让计算机能够像人类一样有效地理解和交流，从而实现更自然、更智能的人机交互。NLP的理解概括：文本理解和分析：NLP技术能够从文本中提取有价值......
Django之models模型层2
一、多表查询之连表查询(基于双下划线的查询)1、2、3、二、聚合查询(aggregate)1、2、三、分组查询annotate 1、 2、四、F与Q查询五、django中如何开启事务 ......
03 ListModelSerializer组件
ListModelSerializer模块自定义反序列化字段#一些只参与反序列化的字段，但是不是与数据库关联的#在序列化类中规定，并在校验字段时从校验的参数字典中剔除classPublishModelSerializer(serializers.ModelSerializer):#自定义不入库的反序列化字段re_name=se......
Django之models模型层、测试环境的搭建
一、models层中常见的几种查询方法1、2、二、测试环境的搭建1、app应用中默认有一个tests.py的测试文件，拷贝manage.py的内容如下到tests.py中此时这个测试文件就能使用django环境了importosimportsysif__name__=='__main__':os.environ.setdefault('DJA......
MySQL学习-DML（Data Manipulation Language）数据--select语句02
表连接：分为内连接和外连接，常用内连接。当需要同时显示多个表中字段时，就可以用表连接。内连接：仅选出两张表中互相匹配的记录外连接：还会选出其他不匹配的记录外连接包含左连接和右连接左连接： ......
什么是编程领域的 DSL - Domain Specific Language
在编程领域中，DomainSpecificLanguage（DSL）是一种特定于特定问题领域的计算机语言，设计用于解决该领域的特定类型的问题。DSL的设计目标通常包括提高生产力，使非程序员可以使用，以及提供特定类型的语言构造。DSL与通用编程语言（GPL）相对，GPL如Python、Java等，可以用于解决各种类型的问题。......
MySQL学习-DML（Data Manipulation Language）数据--select语句
select *fromempselect ename,salfromemp查询不重复的记录：排序：默认升序排列，desc是降序，asc升序orderby后面可以跟多个不同的排列字段，并且每个字段可以有不同的排列顺序。如下先按照deptno升序排列，再按照sal降序排列。限制： ......
models数据库创建
fromdjango.dbimportmodels#Createyourmodelshere.classUserInfo(models.Model):name=models.CharField(verbose_name="姓名",max_length=20)pwd=models.CharField(verbose_name="密码",max_length=20)phone=models.CharField(verbose_na......
建立模型类的方法学习 DecimalField ，models.SmallIntegerField ，get_pay_type_display(
1. total_amount=models.DecimalField(max_digits=10,decimal_places=2,verbose_name="订单总价",default=0)DecimalField:这是一个Django模型字段类型，用于存储十进制数值，通常用于表示货币和其他需要高精度计算的数值max_digits=10:这是DecimalField中的一个参数，用于指......

Learning Transferable Visual Models From Natural Language Supervision

相关文章

赞助商

阅读排行