transformer

时间：2023-08-23 15:56:51浏览次数：39

标签：transformer 模型 attention mask padding 序列

masked mutil-head attetion

mask 表示掩码，它对某些值进行掩盖，使其在参数更新时不产生效果。Transformer 模型里面涉及两种 mask，分别是 padding mask 和 sequence mask。其中，padding mask 在所有的 scaled dot-product attention 里面都需要用到，而 sequence mask 只有在 decoder 的 self-attention 里面用到。

padding mask

什么是 padding mask 呢？因为每个批次输入序列长度是不一样的也就是说，我们要对输入序列进行对齐。具体来说，就是给在较短的序列后面填充 0。但是如果输入的序列太长，则是截取左边的内容，把多余的直接舍弃。因为这些填充的位置，其实是没什么意义的，所以我们的attention机制不应该把注意力放在这些位置上，所以我们需要进行一些处理。

具体的做法是，把这些位置的值加上一个非常大的负数(负无穷)，这样的话，经过 softmax，这些位置的概率就会接近0！

而我们的 padding mask 实际上是一个张量，每个值都是一个Boolean，值为 false 的地方就是我们要进行处理的地方。
Sequence mask

文章前面也提到，sequence mask 是为了使得 decoder 不能看见未来的信息。也就是对于一个序列，在 time_step 为 t 的时刻，我们的解码输出应该只能依赖于 t 时刻之前的输出，而不能依赖 t 之后的输出。因此我们需要想一个办法，把 t 之后的信息给隐藏起来。

那么具体怎么做呢？也很简单：产生一个上三角矩阵，上三角的值全为0。把这个矩阵作用在每一个序列上，就可以达到我们的目的。

对于 decoder 的 self-attention，里面使用到的 scaled dot-product attention，同时需要padding mask 和 sequence mask 作为 attn_mask，具体实现就是两个mask相加作为attn_mask。
其他情况，attn_mask 一律等于 padding mask。

流程：

编码器通过处理输入序列开启工作。顶端编码器的输出之后会变转化为一个包含向量K（键向量）和V（值向量）的注意力向量集，这是并行化操作。这些向量将被每个解码器用于自身的“编码-解码注意力层”。

在完成编码阶段后，则开始解码阶段。解码阶段的每个步骤都会输出一个输出序列（在这个例子里，是英语翻译的句子）的元素。

接下来的步骤重复了这个过程，直到到达一个特殊的终止符号，它表示transformer的解码器已经完成了它的输出。每个步骤的输出在下一个时间步被提供给底端解码器，并且就像编码器之前做的那样，这些解码器会输出它们的解码结果。

transformer进行多头注意力机制的原因：

进行Multi-head Attention的原因是将模型分为多个头，形成多个子空间，可以让模型去关注不同方面的信息，最后再将各个方面的信息综合起来。其实直观上也可以想到，如果自己设计这样的一个模型，必然也不会只做一次attention，多次attention综合的结果至少能够起到增强模型的作用，也可以类比CNN中同时使用多个卷积核的作用，直观上讲，多头的注意力有助于网络捕捉到更丰富的特征/信息。

transformer 相比 rnn的优势：

1.RNN系列的模型，并行计算能力很差。RNN并行计算的问题就出在这里，因为 T 时刻的计算依赖 T-1 时刻的隐层计算结果，而 T-1 时刻的计算依赖 T-2 时刻的隐层计算结果，如此下去就形成了所谓的序列依赖关系。

2.Transformer的特征抽取能力比RNN系列的模型要好。

transformer 为什么可以替代 seqtoseq：

seq2seq缺点：这里用代替这个词略显不妥当，seq2seq虽已老，但始终还是有其用武之地，seq2seq最大的问题在于将Encoder端的所有信息压缩到一个固定长度的向量中，并将其作为Decoder端首个隐藏状态的输入，来预测Decoder端第一个单词(token)的隐藏状态。在输入序列比较长的时候，这样做显然会损失Encoder端的很多信息，而且这样一股脑的把该固定向量送入Decoder端，Decoder端不能够关注到其想要关注的信息。

Transformer优点：transformer不但对seq2seq模型这两点缺点有了实质性的改进(多头交互式attention模块)，而且还引入了self-attention模块，让源序列和目标序列首先“自关联”起来，这样的话，源序列和目标序列自身的embedding表示所蕴含的信息更加丰富，而且后续的FFN层也增强了模型的表达能力，并且Transformer并行计算的能力是远远超过seq2seq系列的模型，因此我认为这是transformer优于seq2seq模型的地方。

标签：transformer,模型,attention,mask,padding,序列
From： https://www.cnblogs.com/pass-ion/p/17651872.html

transformer模型的历史
Transformer模型在深度学习领域，尤其是自然语言处理（NLP）中，起到了革命性的作用。以下是其发展历程的简要概述：背景：在Transformer出现之前，循环神经网络（RNN）及其更先进的版本，如长短时记忆网络（LSTM）和门控循环单元（GRU）是处理序列任务的主流架构，例如机器翻译和文本生成。这些模型逐......
transformer小白入门
transformer库是huggingface发布的1个框架，非常好用，很多外行看起来高大上的问题，用它都可以轻松解决，先来看1个小例子：一、情感分析fromtransformersimportpipelineclassifier=pipeline('sentiment-analysis')classifier('youarebeautiful')这简单的三行代码，就能分析......
论文解读（CTDA）《Contrastive transformer based domain adaptation for multi-source c
Note：[wechat：Y466551|可加勿骚扰，付费咨询]论文信息论文标题：Contrastivetransformerbaseddomainadaptationformulti-source cross-domainsentimentclassification论文作者：YanpingFu,YunLiu论文来源：2021aRxiv论文地址：download论文代码：download视屏讲解：click1......
Transformers包使用记录
Transformers是著名的深度学习预训练模型集成库，包含NLP模型最多，CV等其他领域也有，支持预训练模型的快速使用和魔改，并且模型可以快速在不同的深度学习框架间（Pytorch/Tensorflow/Jax）无缝转移。以下记录基于HuggingFace官网教程：https://github.com/huggingface/transformers/blob/......
云原生 AI 工程化实践之 FasterTransformer 加速 LLM 推理
作者：颜廷帅（瀚廷）01背景OpenAI在3月15日发布了备受瞩目的GPT4，它在司法考试和程序编程领域的惊人表现让大家对大语言模型的热情达到了顶点。人们纷纷议论我们是否已经跨入通用人工智能的时代。与此同时，基于大语言模型的应用也如雨后春笋般出现，为我们带来了协同办公、客服对......
[机器学习]对transformer使用padding mask
注：本文是对GPT4的回答的整理校正补充。在处理序列数据时，由于不同的序列可能具有不同的长度，我们经常需要对较短的序列进行填充（padding）以使它们具有相同的长度。但是，在模型的计算过程中，这些填充值是没有实际意义的，因此我们需要一种方法来确保模型在其计算中忽略这些填充值。这就是p......
解码Transformer：自注意力机制与编解码器机制详述与代码实现
本文全面探讨了Transformer及其衍生模型，深入分析了自注意力机制、编码器和解码器结构，并列举了其编码实现加深理解，最后列出基于Transformer的各类模型如BERT、GPT等。文章旨在深入解释Transformer的工作原理，并展示其在人工智能领域的广泛影响。作者TechLead，拥有10+年互联网服......
Windows11安装python模块transformers报错Long Path处理
Windows11安装python模块transformers报错，报错信息如下ERROR:CouldnotinstallpackagesduetoanOSError:[Errno2]Nosuchfileordirectory:'C:\\Users\\27467\\AppData\\Local\\Packages\\PythonSoftwareFoundation.Python.3.11_qbz5n2kfra8p0\\LocalCac......
强到离谱，Transformer为何能闯入CV界秒杀CNN？
Transformer近年来已成为视觉领域的新晋霸主，这个来自NLP领域的模型架构为何能闯入CV界秒杀CNN？自提出之日起，Transformer模型已经在CV、NLP以及其他更多领域中「大展拳脚」，实力冲击CNN。Transformer为什么这么有实力？因为它在分类、检测等任务上展现了极其强劲的性能。而且骨干网络......
基于 Habana Gaudi 的 Transformers 入门
几周前，我们很高兴地宣布HabanaLabs和HuggingFace将开展加速transformer模型的训练方面的合作。与最新的基于GPU的AmazonWebServices(AWS)EC2实例相比，HabanaGaudi加速卡在训练机器学习模型方面的性价比提高了40%。我们非常高兴将这种性价比优势引入Transform......

transformer

masked mutil-head attetion

相关文章

赞助商

阅读排行