首页 > 其他分享 >Transformer

Transformer

时间:2023-04-23 14:14:13浏览次数:34  
标签:Transformer 词语 模型 transformer 数据 注意力

参考:
transform的paper出处:https://blog.csdn.net/qq_40585800/article/details/112427990

发展

Transformer是由谷歌于2017年提出的具有里程碑意义的模型,同时也是语言AI革命的关键技术。在此之前的SOTA模型都是以循环神经网络为基础(RNN, LSTM等)。从本质上来讲,RNN是以串行的方式来处理数据,对应到NLP任务上,即按照句中词语的先后顺序,每一个时间步处理一个词语。

相较于这种串行模式,Transformer的巨大创新便在于并行化的语言处理:文本中的所有词语都可以在同一时间进行分析,而不是按照序列先后顺序。为了支持这种并行化的处理方式,Transformer依赖于注意力机制。注意力机制可以让模型考虑任意两个词语之间的相互关系,且不受它们在文本序列中位置的影响。通过分析词语之间的两两相互关系,来决定应该对哪些词或短语赋予更多的注意力。

什么是 Transformer?

Transformer 是 Google 的研究者于 2017 年在《Attention Is All You Need》一文中提出的一种用于 seq2seq 任务的模型,它没有 RNN 的循环结构或 CNN 的卷积结构,在机器翻译等任务中取得了一定提升。

transformer的优势

1.Transformer能够利用分布式GPU进行并行训练,提升模型训练效率
2.Transformer能够分析预测较长的序列,捕获较长的语义信息
3.自注意力可以产生更具可解释性的模型。我们可以从模型中检查注意力分布。

Transformer架构

image
image
image

小细节

Layer normalization

在transformer中,每一个子层(自注意力层,全连接层)后都会有一个Layer normalization层,如下图所示:
Normalize层的目的就是对输入数据进行归一化,将其转化成均值为0方差为1的数据。
image

CV领域论文

image

image
这篇文章首先尝试在几乎不做改动的情况下将Transformer模型应用到图像分类任务中,在 ImageNet 得到的结果相较于 ResNet 较差,这是因为Transformer模型缺乏归纳偏置能力,例如并不具备CNN那样的平移不变性和局部性,因此在数据不足时不能很好的泛化到该任务上。

然而,当训练数据量得到提升时,归纳偏置的问题便能得到缓解,即如果在足够大的数据集上进行与训练,便能很好地迁移到小规模数据集上。

在实验中,作者发现,在中等规模的数据集上(例如ImageNet),transformer模型的表现不如ResNets;而当数据集的规模扩大,transformer模型的效果接近或者超过了目前的一些SOTA结果。作者认为是大规模的训练可以鼓励transformer学到CNN结构所拥有的translation equivariance 和locality.
image
3.2.4 Deformable-DETR
Xizhou Zhu, Weijie Su2, Lewei Lu, Bin Li , Xiaogang Wang, Jifeng Dai. DEFORMABLE DETR: DEFORMABLE TRANSFORMERS FOR END-TO-END OBJECT DETECTION. SenseTime Research, University of Science and Technology of China, The Chinese University of Hong Kong
image

标签:Transformer,词语,模型,transformer,数据,注意力
From: https://www.cnblogs.com/xinxuann/p/17346342.html

相关文章

  • 深入了解 Transformers – Part 1: 介绍 Transformer 模型
    动动发财的小手,点个赞吧!自从最新的LargeLanguageModels(LLaM)发布以来,如OpenAI的GPT系列、开源模型Bloom或谷歌发布的LaMDA等,Transformer展现出了巨大的潜力,成为了深度学习的前沿架构楷模。尽管已经有几篇文章介绍了transformer及其背后的数学原理,但在本文中,我想结合我认为最......
  • 1000层的Transformer,诞生了!
    卖萌屋今日学术精选大家好,我是卖萌酱。今天下午卖萌屋作者群里一位MILA实验室的大佬在临睡前(蒙特利尔时间凌晨0点半)甩出来一篇论文:大佬表示太困了,肝不动了,于是卖萌酱左手抄起一罐咖啡,右手接过论文就开始肝了,必须第一时间分享给卖萌屋的读者小伙伴们!论文链接:https://arxiv.org/pdf/......
  • Swin Transformer
    22年初的屠榜模型题目:用了移动窗口的层级式的visiontransformer摘要:Swintransformer可以作为CV中通用骨干网络。与NLP不同的第一个是对象尺度的问题,第二是多次提到的分辨率太大的问题,之前工作已经用很多办法减少过输入模型的序列长度。移动窗口可以让每次只计算一个窗口内的自......
  • CVPR 2023|两行代码高效缓解视觉Transformer过拟合,美图&国科大联合提出正则化方法DropK
    前言 美图影像研究院(MTLab)与中国科学院大学突破性地提出正则化方法DropKey,用于缓解VisionTransformer中的过拟合问题。该方法通过在注意力计算阶段随机drop部分Key以鼓励网络捕获目标对象的全局信息,从而避免了由过于聚焦局部信息所引发的模型偏置问题,继而提升了基于Tra......
  • ViT-Adapter:用于密集预测任务的视觉 Transformer Adapter
    前言 这篇文章提出了一种用于使得ViT架构适配下游密集预测任务的Adapter。简单的ViT模型,加上这种Adapter之后,下游密集预测任务的性能变强不少。本文给出的ViT-Adapter-L在COCO数据集上达到了60.9的boxAP和59.3的maskAP。本文转载自极市平台作者|CV开发者......
  • Transformer之Positional encoding
    1.前言我在学习NLP的时候,围绕着我不懂得技术点,逐个击破,以此期望能够把各个模块理解的更深入,使我在今后的学习中,能够更深入的分析,让自己更通透。接下来切入正题,介绍下Transformer中需要使用的Positionalencoding,它主要为Transformer这种并行计算模型,难以理解输入句子的语序而针对......
  • Transformer课程 Transformer自模型BERT Fine-tuning
    Transformer自模型BERTFine-tuning从传统机器学习和TransferLearning的区别出发,剖析BERTFine-tuning底层原理,包括对最大后验概率MAP的剖析、Prior先验领域知识的数学原理、工程实践,尤其是结合BERT架构及其训练任务MLM以及NSP来解密,BERT针对具体下游任务微调的力量之源Transform......
  • THFuse: An infrared and visible image fusion network using transformer and hybri
    THFuse:Aninfraredandvisibleimagefusionnetworkusingtransformerandhybridfeatureextractor一种基于Transformer和混合特征提取器的红外与可见光图像融合网......
  • YOLOv7引入Swin Transformer以及CCNet出现的问题
    YOLOv7引入SwinTransformer以及CCNet出现的问题一、YOLOv7训练完,运行test.py的时候出现:RuntimeError:expectedscalartypeFloatbutfoundHalf 错误采用GPU训练时......
  • GPT前世今生-transformer-注意力机制
    GPT前世今生-transformer-注意力机制背景:心理学知识,随意线索和非随意线索。 启发:注意力机制中概念:query:你的要求查询的东西。如问“你要干嘛?”key:如杯子,......