2024最新AI大模型-LLm八股合集（十二）-Transformer模型

标签：编码微调训练 AI 模型位置 2024 LLMs

更多2024最新AI大模型-LLm八股合集可以拉到文末！！！

相对位置编码

相对位置并没有完整建模每个输入的位置信息，而是在算Attention的时候考虑当前位置与被Attention的位置的相对距离，由于自然语言一般更依赖于相对位置，所以相对位置编码通常也有着优秀的表现。对于相对位置编码来说，它的灵活性更大，更加体现出了研究人员的“天马行空”。

（1）经典式

相对位置编码起源于Google的论文《Self-Attention with Relative Position Representations》，华为开源的NEZHA模型也用到了这种位置编码，后面各种相对位置编码变体基本也是依葫芦画瓢的简单修改。

一般认为，相对位置编码是由绝对位置编码启发而来，考虑一般的带绝对位置编码的Attention：

在这里插入图片描述

（2）XLNET式

在这里插入图片描述

（3）T5式

T5模型出自文章《Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer》，里边用到了一种更简单的相对位置编码。思路依然源自qikjTq_ik^T_jqikjT展开式，如果非要分析每一项的含义，那么可以分别理解为“输入-输入”、“输入-位置”、“位置-输入”、“位置-位置”四项注意力的组合。如果我们认为输入信息与位置信息应该是独立（解耦）的，那么它们就不应该有过多的交互，所以“输入-位置”、“位置-输入”两项Attention可以删掉，而piWQWK⊤pj⊤\boldsymbol{p}{i} \boldsymbol{W}{Q} \boldsymbol{W}{K}^{\top} \boldsymbol{p}{j}^{\top}piWQWK⊤pj⊤实际上只是一个只依赖于(i,j)(i,j)(i,j)的标量，我们可以直接将它作为参数训练出来，即简化为：

$xiWQWK⊤xj⊤+βi,j\boldsymbol{x}_{i} \boldsymbol{W}_{Q} \boldsymbol{W}_{K}^{\top} \boldsymbol{x}_{j}^{\top}+\boldsymbol{\beta}_{i, j}xiWQWK⊤xj⊤+βi,j$

说白了，它仅仅是在Attention矩阵的基础上加一个可训练的偏置项而已，而跟XLNET式一样，在vjv_jvj上的位置偏置则直接被去掉了。包含同样的思想的还有微软在ICLR 2021的论文《Rethinking Positional Encoding in Language Pre-training》中提出的TUPE位置编码。

比较“别致”的是，不同于常规位置编码对将βi,j\beta_{i, j}βi,j视为i−ji−ji−j的函数并进行截断的做法，T5对相对位置进行了一个“分桶”处理，即相对位置是i−ji−ji−j的位置实际上对应的是f(i−j)f(i−j)f(i−j)位置，映射关系如下：

i−ji-ji−j	0	1	2	3	4	5	6	7	8	9	10	11	12	13	14	15
f(i−j)f(i-j)f(i−j)	0	1	2	3	4	5	6	7	8	8	8	8	9	9	9	9
i−ji-ji−j	16	17	18	19	20	21	22	23	24	25	26	27	28	29	30	…
f(i−j)f(i-j)f(i−j)	10	10	10	10	10	10	10	11	11	11	11	11	11	11	11	…

这个设计的思路其实也很直观，就是比较邻近的位置（0～7），需要比较得精细一些，所以给它们都分配一个独立的位置编码，至于稍远的位置（比如8～11），我们不用区分得太清楚，所以它们可以共用一个位置编码，距离越远，共用的范围就可以越大，直到达到指定范围再clip。

（4）DeBERTa式

DeBERTa也是微软搞的，去年6月就发出来了，论文为《DeBERTa: Decoding-enhanced BERT with Disentangled Attention》，最近又小小地火了一把，一是因为它正式中了ICLR 2021，二则是它登上SuperGLUE的榜首，成绩稍微超过了T5。

其实DeBERTa的主要改进也是在位置编码上，同样还是从qikjTq_ik^T_jqikjT展开式出发，T5是干脆去掉了第2、3项，只保留第4项并替换为相对位置编码，而DeBERTa则刚刚相反，它扔掉了第4项，保留第2、3项并且替换为相对位置编码（果然，科研就是枚举所有的排列组合看哪个最优）：

在这里插入图片描述

不过，DeBERTa比较有意思的地方，是提供了使用相对位置和绝对位置编码的一个新视角，它指出NLP的大多数任务可能都只需要相对位置信息，但确实有些场景下绝对位置信息更有帮助，于是它将整个模型分为两部分来理解。以Base版的MLM预训练模型为例，它一共有13层，前11层只是用相对位置编码，这部分称为Encoder，后面2层加入绝对位置信息，这部分它称之为Decoder，还弄了个简称EMD（Enhanced Mask Decoder）；至于下游任务的微调截断，则是使用前11层的Encoder加上1层的Decoder来进行。

SuperGLUE上的成绩肯定了DeBERTa的价值，但是它论文的各种命名真的是让人觉得极度不适，比如它自称的“Encoder”、“Decoder”就很容易让人误解这是一个Seq2Seq模型，比如EMD这个简称也跟Earth Mover’s Distance重名。虽然有时候重名是不可避免的，但它重的名都是ML界大家都比较熟悉的对象，相当容易引起误解，真不知道作者是怎么想的…

面试题笔记分享

为了助力朋友们跳槽面试、升职加薪、职业困境，提高自己的技术，本文给大家整了一套涵盖Android所有技术栈的快速学习方法和笔记。目前已经收到了七八个网友的反馈，说是面试问到了很多这里面的知识点。

每一章节都是站在企业考察思维出发，作为招聘者角度回答。从考察问题延展到考察知识点，再到如何优雅回答一面俱全，可以说是求职面试的必备宝典，每一部分都有上百页内容，接下来具体展示，完整版可直接下方扫码领取。

标签：编码,微调,训练,AI,模型,位置,2024,LLMs
From： https://blog.csdn.net/2401_85325557/article/details/139838056

2024最新AI大模型-LLm八股合集（十二）-Transformer模型

相对位置编码

（1）经典式

（2）XLNET式

（3）T5式

（4）DeBERTa式

面试题笔记分享

相关文章

赞助商

阅读排行