首页 > 其他分享 >【NLP高频面题 - Transformer篇】Position encoding为什么选择相加而不是拼接呢?

【NLP高频面题 - Transformer篇】Position encoding为什么选择相加而不是拼接呢?

时间:2025-01-07 10:33:58浏览次数:3  
标签:NLP Transformer 高频 encoding 宝典 面试 要会 面题

**【NLP高频面题 - Transformer篇】Position encoding为什么选择相加而不是拼接呢? **

重要性:★

首先明确:Transformer 会对原始输入做嵌入(embedding),从而映射到需要的维度,可采用一个变换矩阵做矩阵乘积的方式来实现,Transformer 中的 position embedding 也是加在这个嵌入后的向量中的。

了解这一点后,我们开始尝试使用 concat 的方式在原始输入中加入位置编码:

给每一个位置 x i ∈ R ( d , 1 ) x^i \in R^{(d,1)} xi∈R(d,1) concat 上一个代表位置信息的 one-hot 向量 p i ∈ R ( N , 1 ) p^i \in R^{(N,1)} pi∈R(N,1) (N代表共有N个位置)形成 x p i ∈ R ( d + N , 1 ) x_{p}^i \in R^{(d+N,1)} xpi​∈R(d+N,1) ,它也可以表示为 [ [ x i ] T , [ x p ] T ] T [[x^i]^T,[x^p]^T ]^T [[xi]T,[xp]T]T 这个形式。

接着对这个新形成的向量做线性变换,即上述提到的 Transformer 对原始输入做的嵌入操作。记变换矩阵 W ∈ R ( d , d + N ) W\in R^{(d,d+N)} W∈R(d,d+N) , d 就是需要嵌入到的维度(这里为了简便,直接假设原输入的维度与嵌入维度一致,都是 d ),它也可以表示为 [ W I , W P ] [W^I, W^P ] [WI,WP] ,其中 W I ∈ R ( d , d ) , W P ∈ R ( d , N ) W^I \in R^{(d,d)},W^P \in R^{(d,N)} WI∈R(d,d),WP∈R(d,N) 。现在进行变换:

W ⋅ x p i = [ W I , W P ] ⋅ [ [ x i ] T , [ x p ] T ] T = W I ⋅ x i + W P ⋅ x p = e m b e d i + p o s i W \cdot x_{p}^i = [W^I, W^P ] \cdot [[x^i]^T, [x^p]^T ]^T = W^I \cdot x^i + W^P \cdot x^p = embed^i + pos^i W⋅xpi​=[WI,WP]⋅[[xi]T,[xp]T]T=WI⋅xi+WP⋅xp=embedi+posi

由变换结果可知,在原输入上 concat 一个代表位置信息的向量在经过线性变换后等同于将原输入经线性变换后直接加上位置编码信息。

也就是说,可以用concat的形式来表示add,某种程度上两者是等价的,但是使用concat会使维度变大,增加计算量。


NLP 大模型高频面题汇总

NLP基础篇
BERT 模型面
LLMs 微调面

标签:NLP,Transformer,高频,encoding,宝典,面试,要会,面题
From: https://blog.csdn.net/weixin_44025655/article/details/144954720

相关文章

  • Transformer
    注意力机制与Transformer文章目录注意力机制与Transformer注意力机制什么是注意力机制?注意力机制的诞生与历史背景注意力机制的工作原理词嵌入(Word2Vec)自注意力(Self-attention)查询,键,值(Query,Key,Value)注意力机制计算过程多头注意力机制:Multi-HeadSelf-Attent......
  • 两年数据分析 已跑路转NLP大模型了
    其实数据分析这个岗位吧,刚开始确实还行,像我们当时就天天跑报表、做数据可视化、分析业务问题,自我感觉还挺高大上的。但是慢慢就琢磨出不对味儿了,感觉自己就是从‘业务工具人’变成‘高级工具人’。而且说白了,数据分析师的工作很多时候就是把数据整理好,讲成业务听得懂的故......
  • 训练基于Transformer的翻译任务模型
     ......
  • NLP高频面题 - LLM架构篇】使用SwiGLU相对于ReLU有什么好处?
    【NLP高频面题-LLM架构篇】使用SwiGLU相对于ReLU有什么好处?重要性:★★★......
  • Transformer中的注意力机制:从基础概念到高级变体的全面解析
    注意力机制的基础概念核心组件(Query、Key、Value)的详细解释主要的注意力机制变体:自注意力(Self-Attention)多头注意力(Multi-HeadAttention)掩码注意力(MaskedAttention)注意力评分函数的类型和特点多头注意力的现代变体:MHA(Multi-HeadAttention)MQA(Multi-......
  • Transformer学习与基础实验1——注意力机制
    前置概念    自然语言处理(NLP)中,根据任务内容的不同,句子、段落等文本中需要更加关注的部分(不同的词语、句子等)也会不同。    在判断词在句子中的重要性时便使用了注意力机制,可以通过注意力分数来表达某个词在句子中的重要性,分数越高,说明该词对完成该任务的重......
  • 从入门到精通Transformer,掌握NLP技术这本书必看《从零开始构建最先进的NLP模型》
    这大模型书籍上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】内容简介······国内第1本Transformer——变形金刚红书《从零开始构建最先进的NLP模型》如果一定要说未来谁能引领人工智能世界,是Transformer而非chatGPT!编......
  • NLP 中文拼写检测纠正论文-07-NLPTEA-2020中文语法错误诊断共享任务概述
    拼写纠正系列NLP中文拼写检测实现思路NLP中文拼写检测纠正算法整理NLP英文拼写算法,如果提升100W倍的性能?NLP中文拼写检测纠正Paperjava实现中英文拼写检查和错误纠正?可我只会写CRUD啊!一个提升英文单词拼写检测性能1000倍的算法?单词拼写纠正-03-leetcodeedit-d......
  • NLP 中文拼写检测纠正论文-07-NLPTEA-2020中文语法错误诊断共享任务概述
    拼写纠正系列NLP中文拼写检测实现思路NLP中文拼写检测纠正算法整理NLP英文拼写算法,如果提升100W倍的性能?NLP中文拼写检测纠正Paperjava实现中英文拼写检查和错误纠正?可我只会写CRUD啊!一个提升英文单词拼写检测性能1000倍的算法?单词拼写纠正-03-leetcode......
  • 极市平台 | 行人、车辆、动物等ReID最新综述!武大等全面总结Transformer方法 | IJCV 20
    本文来源公众号“极市平台”,仅用于学术分享,侵权删,干货满满。原文链接:行人、车辆、动物等ReID最新综述!武大等全面总结Transformer方法|IJCV20242024的最后一篇文章!提前祝大家跨年快乐!2024好好再见2025笑笑迎接来自乐队“五月天MAYDAY”!极市导读研究人员对基于Transfor......