Transformer

时间：2023-04-23 14:14:13浏览次数：45

标签：Transformer 词语模型 transformer 数据注意力

参考：
transform的paper出处:https://blog.csdn.net/qq_40585800/article/details/112427990

发展

Transformer是由谷歌于2017年提出的具有里程碑意义的模型，同时也是语言AI革命的关键技术。在此之前的SOTA模型都是以循环神经网络为基础（RNN, LSTM等）。从本质上来讲，RNN是以串行的方式来处理数据，对应到NLP任务上，即按照句中词语的先后顺序，每一个时间步处理一个词语。

相较于这种串行模式，Transformer的巨大创新便在于并行化的语言处理：文本中的所有词语都可以在同一时间进行分析，而不是按照序列先后顺序。为了支持这种并行化的处理方式，Transformer依赖于注意力机制。注意力机制可以让模型考虑任意两个词语之间的相互关系，且不受它们在文本序列中位置的影响。通过分析词语之间的两两相互关系，来决定应该对哪些词或短语赋予更多的注意力。

什么是 Transformer？

Transformer 是 Google 的研究者于 2017 年在《Attention Is All You Need》一文中提出的一种用于 seq2seq 任务的模型，它没有 RNN 的循环结构或 CNN 的卷积结构，在机器翻译等任务中取得了一定提升。

transformer的优势

1.Transformer能够利用分布式GPU进行并行训练，提升模型训练效率
2.Transformer能够分析预测较长的序列，捕获较长的语义信息
3.自注意力可以产生更具可解释性的模型。我们可以从模型中检查注意力分布。

Transformer架构

小细节

Layer normalization

在transformer中，每一个子层（自注意力层，全连接层）后都会有一个Layer normalization层，如下图所示：
Normalize层的目的就是对输入数据进行归一化，将其转化成均值为0方差为1的数据。

CV领域论文

这篇文章首先尝试在几乎不做改动的情况下将Transformer模型应用到图像分类任务中，在 ImageNet 得到的结果相较于 ResNet 较差，这是因为Transformer模型缺乏归纳偏置能力，例如并不具备CNN那样的平移不变性和局部性，因此在数据不足时不能很好的泛化到该任务上。

然而，当训练数据量得到提升时，归纳偏置的问题便能得到缓解，即如果在足够大的数据集上进行与训练，便能很好地迁移到小规模数据集上。

在实验中，作者发现，在中等规模的数据集上（例如ImageNet），transformer模型的表现不如ResNets；而当数据集的规模扩大，transformer模型的效果接近或者超过了目前的一些SOTA结果。作者认为是大规模的训练可以鼓励transformer学到CNN结构所拥有的translation equivariance 和locality.

3.2.4 Deformable-DETR
Xizhou Zhu, Weijie Su2, Lewei Lu, Bin Li , Xiaogang Wang, Jifeng Dai. DEFORMABLE DETR: DEFORMABLE TRANSFORMERS FOR END-TO-END OBJECT DETECTION. SenseTime Research, University of Science and Technology of China, The Chinese University of Hong Kong

标签：Transformer,词语,模型,transformer,数据,注意力
From： https://www.cnblogs.com/xinxuann/p/17346342.html

深入了解 Transformers – Part 1: 介绍 Transformer 模型
动动发财的小手，点个赞吧！自从最新的LargeLanguageModels（LLaM）发布以来，如OpenAI的GPT系列、开源模型Bloom或谷歌发布的LaMDA等，Transformer展现出了巨大的潜力，成为了深度学习的前沿架构楷模。尽管已经有几篇文章介绍了transformer及其背后的数学原理，但在本文中，我想结合我认为最......
1000层的Transformer，诞生了！
卖萌屋今日学术精选大家好，我是卖萌酱。今天下午卖萌屋作者群里一位MILA实验室的大佬在临睡前（蒙特利尔时间凌晨0点半）甩出来一篇论文：大佬表示太困了，肝不动了，于是卖萌酱左手抄起一罐咖啡，右手接过论文就开始肝了，必须第一时间分享给卖萌屋的读者小伙伴们！论文链接：https://arxiv.org/pdf/......
Swin Transformer
22年初的屠榜模型题目：用了移动窗口的层级式的visiontransformer摘要：Swintransformer可以作为CV中通用骨干网络。与NLP不同的第一个是对象尺度的问题，第二是多次提到的分辨率太大的问题，之前工作已经用很多办法减少过输入模型的序列长度。移动窗口可以让每次只计算一个窗口内的自......
CVPR 2023｜两行代码高效缓解视觉Transformer过拟合，美图&国科大联合提出正则化方法DropK
前言美图影像研究院（MTLab）与中国科学院大学突破性地提出正则化方法DropKey，用于缓解VisionTransformer中的过拟合问题。该方法通过在注意力计算阶段随机drop部分Key以鼓励网络捕获目标对象的全局信息，从而避免了由过于聚焦局部信息所引发的模型偏置问题，继而提升了基于Tra......
ViT-Adapter：用于密集预测任务的视觉 Transformer Adapter
前言这篇文章提出了一种用于使得ViT架构适配下游密集预测任务的Adapter。简单的ViT模型，加上这种Adapter之后，下游密集预测任务的性能变强不少。本文给出的ViT-Adapter-L在COCO数据集上达到了60.9的boxAP和59.3的maskAP。本文转载自极市平台作者|CV开发者......
Transformer之Positional encoding
1.前言我在学习NLP的时候，围绕着我不懂得技术点，逐个击破，以此期望能够把各个模块理解的更深入，使我在今后的学习中，能够更深入的分析，让自己更通透。接下来切入正题，介绍下Transformer中需要使用的Positionalencoding，它主要为Transformer这种并行计算模型，难以理解输入句子的语序而针对......
Transformer课程 Transformer自模型BERT Fine-tuning
Transformer自模型BERTFine-tuning从传统机器学习和TransferLearning的区别出发，剖析BERTFine-tuning底层原理，包括对最大后验概率MAP的剖析、Prior先验领域知识的数学原理、工程实践，尤其是结合BERT架构及其训练任务MLM以及NSP来解密，BERT针对具体下游任务微调的力量之源Transform......
THFuse: An infrared and visible image fusion network using transformer and hybri
THFuse:Aninfraredandvisibleimagefusionnetworkusingtransformerandhybridfeatureextractor一种基于Transformer和混合特征提取器的红外与可见光图像融合网......
YOLOv7引入Swin Transformer以及CCNet出现的问题
YOLOv7引入SwinTransformer以及CCNet出现的问题一、YOLOv7训练完，运行test.py的时候出现：RuntimeError:expectedscalartypeFloatbutfoundHalf 错误采用GPU训练时......
GPT前世今生-transformer-注意力机制
GPT前世今生-transformer-注意力机制背景：心理学知识，随意线索和非随意线索。启发：注意力机制中概念：query：你的要求查询的东西。如问“你要干嘛？”key：如杯子，......