首页 > 其他分享 >一文彻底搞懂Transformer - Input(输入)

一文彻底搞懂Transformer - Input(输入)

时间:2024-07-03 12:56:38浏览次数:17  
标签:编码 Transformer 嵌入 位置 输入 Input 搞懂 向量

一、输入嵌入(Input Embedding)

        词嵌入(Word Embedding):词嵌入是最基本的嵌入形式,它将词汇表中的每个单词映射到一个固定大小的向量上。这个向量通常是通过训练得到的,能够捕捉单词之间的语义关系。

        在Transformer中,词嵌入层通常是一个可学习的参数矩阵,其中每一行对应词汇表中的一个单词的嵌入向量。

        假设词汇表大小为12288,嵌入向量的维度为128,则嵌入层会将输入文本中的每个单词映射到一个128维的向量上。

                                                (12288,128)嵌入矩阵

二、位置编码(Positional Encoding

        位置编码(Positional Encoding):Transformer模型完全基于注意力机制,它本身并不包含循环或卷积结构,无法直接理解输入序列中单词的顺序信息。为了弥补这一缺陷,Transformer引入了位置编码来为模型提供单词在序列中的位置信息。

                                                                        位置编码

        位置编码通过一组正弦和余弦函数来实现,这些函数的频率和相位随着位置的不同而变化。位置编码的维度与嵌入向量的维度相同,可以将它们直接相加到嵌入向量上。

        假设嵌入向量的维度为128,输入序列的最大长度为12288,则可以生成一个形状为(12888, 128)的位置编码矩阵。对于序列中的每个位置,都会有一个对应的128维向量来表示其位置信息。

                                                (12288,128)位置编码矩阵

三、Transformer输入处理流程

        Transformer输入处理流程:将预处理后的文本通过分词转换为Token,再将这些Token通过词嵌入转换为高维向量,并添加位置编码以保留顺序信息,最后作为输入传递给Transformer编码器。

  • 文本预处理:将输入的文本数据进行预处理,包括分词(将文本拆分成单词或子词单元)、转换为小写、去除停用词等。这一步通常由分词器(Tokenizer)完成。

  • 构建嵌入向量:将预处理后的文本数据通过词嵌入层转换为嵌入向量。这一步是将文本数据转换为模型可以处理的数值形式的关键步骤。

  • 添加位置编码:为每个嵌入向量添加位置编码,以提供单词在序列中的位置信息。这通常是通过将位置编码向量与嵌入向量相加来实现的。

  • 输入到Transformer模型:将添加了位置编码的嵌入向量作为输入传递给Transformer模型的编码器部分。编码器会利用自注意力机制和其他组件对输入序列进行处理,并生成输出序列的表示。

标签:编码,Transformer,嵌入,位置,输入,Input,搞懂,向量
From: https://blog.csdn.net/u012374012/article/details/140148474

相关文章

  • DVT:华为提出动态级联Vision Transformer,性能杠杠的 | NeurIPS 2021
    论文主要处理VisionTransformer中的性能问题,采用推理速度不同的级联模型进行速度优化,搭配层级间的特征复用和自注意力关系复用来提升准确率。从实验结果来看,性能提升不错来源:晓飞的算法工程笔记公众号论文:NotAllImagesareWorth16x16Words:DynamicTransformersfor......
  • 关于Mamba和Mamba-2经典论文的学习笔记总结,以及Mamba和Transformer的对比总结,欢迎交流
    最近阅读论文的时候,发现很多基于Mamba改进的CV方向论文,好奇的去了解了一下这个Mamba的起源,以及Mamba-2的提出,简单的对Mamba和Transformer的异同进行了归纳,学到了一些东西,我将从第一部分Mamba的提出背景和结构原理,第二部分Mamba与Transformer的异同,第三部分mamba-2的提出背景......
  • Transformer模型学习
    Transformer模型是深度学习领域的一种创新架构,尤其在自然语言处理(NLP)任务中表现出色。它是由Vaswani等人在2017年的论文《AttentionisAllYouNeed》中首次提出的。以下是对Transformer模型的详细介绍:Transformer的起源和重要性Transformer模型的提出是为了解决传统循环......
  • Transformer模型
    Transformer模型是深度学习领域的一种创新架构,尤其在自然语言处理(NLP)任务中表现出色。它是由Vaswani等人在2017年的论文《AttentionisAllYouNeed》中首次提出的。以下是对Transformer模型的详细介绍:Transformer的起源和重要性Transformer模型的提出是为了解决传统循环......
  • 低资源语言的Transformer挑战:探索与机遇
    低资源语言的Transformer挑战:探索与机遇在自然语言处理(NLP)的广阔领域中,低资源语言(也称为小种语言或少数民族语言)面临着独特的挑战。尽管Transformer模型在高资源语言上取得了巨大成功,但其在低资源语言上的应用仍然充满挑战。本文将深入探讨这些挑战,并探索可能的解决方案。......
  • 对Transformer的一些理解
    在学习Transformer这个模型前对seq2seq架构有个了解时很有必要的先上图输入和输出首先理解模型时第一眼应该理解输入和输出最开始我就非常纠结有一个Inputs,一个Outputs(shiftright)和一个OutputProbabilities,首先需要借助这三个输入/输出来初步了解该模型的运行方式。这......
  • Swin Transformer:最佳论文,准确率和性能双佳的视觉Transformer | ICCV 2021
    论文提出了经典的VisionTransormer模型SwinTransformer,能够构建层级特征提高任务准确率,而且其计算复杂度经过各种加速设计,能够与输入图片大小成线性关系。从实验结果来看,SwinTransormer在各视觉任务上都有很不错的准确率,而且性能也很高 来源:晓飞的算法工程笔记公众号论......
  • 【前端CSS3】一篇搞懂各类常用选择器(黑马程序员)
    文章目录一、前言......
  • AI模型大宗师Transformer的Encoder魔法棒
       在AI大模型数字王国里,有一位名叫Transformer的魔法大宗师。他有一个神奇的百宝箱,里面有很多魔法工具,其中有个工具叫Encoder,这个工具拥有一种神奇的力量,可以将复杂的输入信息进行编码,提取出关键的特征和依赖关系。   让我们来一起把这个工具掏出来细看一下,看看......
  • 算法金 | Transformer,一个神奇的算法模型!!
    大侠幸会,在下全网同名「算法金」0基础转AI上岸,多个算法赛Top「日更万日,让更多人享受智能乐趣」抱个拳,送个礼在现代自然语言处理(NLP)领域,Transformer模型的出现带来了革命性的变化。它极大地提升了语言模型的性能和效率,而自注意力机制是其中的核心组件。今个儿我们将......