首页 > 其他分享 >Transformer中的位置编码(Positional Encoding)

Transformer中的位置编码(Positional Encoding)

时间:2024-10-19 13:10:24浏览次数:1  
标签:编码 Transformer Encoding 位置 Positional PE 2i

Transformer中的位置编码(Positional Encoding)

标准位置编码

原理上Transformer是无法隐式学到序列的位置信息的,为了可以处理序列问题,Transformer提出者的解决方案是使用位置编码(Position Encode/Embedding,PE)[1][2] . 大致的处理方法是使用sin和cos函数交替来创建位置编码PE, 计算公式如下:

\[PE_{t,2i}=\sin(t/10000^{2i/d}),\\PE_{t,2i+1}=\cos(t/10000^{2i/d}), \]

在这个公式中, \(t\) 表示的是token的位置, \(i\) 表示的是位置编码的维度

他的最终可视化效果长这样

img

位置编码的作用, 就简而言之就是将每个位置编号,从而每个编号对应一个向量,最终通过结合位置向量和词向量,作为输入embedding,就给每个词都引入了一定的位置信息,这样Attention就可以分辨出不同位置的词了[3],这篇文章[3:1]有标准位置编码的具体实现.

旋转位置编码(RoPE)


reference


  1. [1706.03762] Attention Is All You Need (arxiv.org) ↩︎

  2. Transformer改进之相对位置编码(RPE) - 知乎 (zhihu.com) ↩︎

  3. 一文通透位置编码:从标准位置编码、旋转位置编码RoPE到ALiBi、LLaMA 2 Long(含NTK-aware简介)-CSDN博客 ↩︎ ↩︎

标签:编码,Transformer,Encoding,位置,Positional,PE,2i
From: https://www.cnblogs.com/Mintisn/p/18475776

相关文章

  • 学习Transformer,应该从词嵌入WordEmbedding开始_trasnformer模型中embedding
    其中的2号位置,就是词嵌入层。Embedding层用于将离散的单词数据,转换为连续且固定长度的向量:这样使模型才能处理和学习这些数据的语义信息。例如,我们希望将“AreyouOK?”这句话,作为神经网络模型的输入。此时神经网络是没办法直接处理这句文本的。我们需要先将“Are......
  • transformers 推理 Qwen2.5 等大模型技术细节详解(一)transformers 初始化和对象加载(
    上周收到一位网友的私信,希望老牛同学写一篇有关使用transformers框架推理大模型的技术细节的文章。老牛同学刚开始以为这类的文章网上应该会有很多,于是想着百度几篇质量稍高一点的回复这位网友。结果,老牛同学搜索后发现,类似文章确实不少,但是总觉得不太满意,要么细节深度不够,要么......
  • spacy-transformers: 在spaCy中使用预训练Transformer模型
    spacy-transformersspacy-transformers简介spacy-transformers是一个强大的库,它为spaCy提供了使用预训练Transformer模型的能力。这个库允许用户在spaCy管道中无缝集成像BERT、RoBERTa、XLNet和GPT-2这样的先进Transformer模型。通过spacy-transformers,我们可以轻松地将最先进......
  • 【bayes-Transformer多维时序预测】bayes-Transformer多变量时间序列预测,基于bayes-Tr
    %% 划分训练集和测试集P_train=res(1:num_train_s,1:f_)';T_train=res(1:num_train_s,f_+1:end)';P_test=res(num_train_s+1:end,1:f_)';T_test=res(num_train_s+1:end,f_+1:end)';%% 划分训练集和测试集M=size(P_train,2);N=siz......
  • FFmpeg开发笔记(五十七)使用Media3的Transformer加工视频文件
    ​继音视频播放器ExoPlayer之后,谷歌又推出了音视频转换器Transformer,要在音视频加工领域施展拳脚。根据Android开发者官网介绍:JetpackMedia3是Android媒体库的新家,可让App呈现丰富的视听体验。Media3提供了一个简单的架构,能够基于设备功能开展自定义与可靠性优化,可以解决媒体部分......
  • YOLOv11改进策略【Conv和Transformer】| CVPR-2024 Single-Head Self-Attention 单头
    一、本文介绍本文记录的是利用单头自注意力SHSA改进YOLOv11检测模型,详细说明了优化原因,注意事项等。传统的自注意力机制虽能提升性能,但计算量大,内存访问成本高,而SHSA从根本上避免了多注意力头机制带来的计算冗余。并且改进后的模型在相同计算预算下,能够堆叠更多宽度更大的......
  • Transformer的核心思想---自注意力机制
    自注意力机制(Self-Attention)是Transformer模型的核心思想。它通过一种聪明的方式让神经网络在处理一个序列时(例如,一个句子中的单词),能够“注意”到序列中其他部分的相关信息,而不仅仅依赖于局部信息。相比传统的序列模型(如RNN、LSTM),自注意力机制能更好地捕捉远距离的依赖关系,特别适......
  • Transformer 的缩放因子为什么需要开平方根
    目录一、防止过大的注意力分数导致softmax函数饱和二、维度校正三、保持方差稳定在Transformer模型中,缩放因子(scalingfactor)特别设计用于调整注意力分数(attentionscores),它通常是键向量维度的平方根。这一做法主要是出于以下几个原因:一、防止过大的注意力分数导致......
  • Transformers: 引领自然语言处理的革命性工具
    transformers引言:Transformers的崛起在人工智能和自然语言处理(NLP)领域,Transformers模型的出现无疑是一场革命。而HuggingFace公司开发的Transformers库,更是将这场革命推向了一个新的高度。作为一个开源项目,Transformers为研究人员和开发者提供了一个强大而灵活的工具,使他......
  • HiT-SR:基于层级Transformer的超分辨率,计算高效且能提取长距离关系 | ECCV'24
    Transformer在计算机视觉任务中表现出了令人鼓舞的性能,包括图像超分辨率(SR)。然而,流行的基于Transformer的SR方法通常采用具有二次计算复杂度的窗口自注意力机制,导致固定的小窗口,限制了感受野的范围。论文提出了一种将基于Transformer的SR网络转换为分层Transformer(HiT-SR)的通用策......