首页 > 其他分享 >2024最新AI大模型-LLm八股合集(十二)-Transformer模型

2024最新AI大模型-LLm八股合集(十二)-Transformer模型

时间:2024-06-21 15:30:02浏览次数:3  
标签:编码 微调 训练 AI 模型 位置 2024 LLMs

更多2024最新AI大模型-LLm八股合集可以拉到文末!!!

相对位置编码

相对位置并没有完整建模每个输入的位置信息,而是在算Attention的时候考虑当前位置与被Attention的位置的相对距离,由于自然语言一般更依赖于相对位置,所以相对位置编码通常也有着优秀的表现。对于相对位置编码来说,它的灵活性更大,更加体现出了研究人员的“天马行空”。

(1)经典式

相对位置编码起源于Google的论文《Self-Attention with Relative Position Representations》,华为开源的NEZHA模型也用到了这种位置编码,后面各种相对位置编码变体基本也是依葫芦画瓢的简单修改。

一般认为,相对位置编码是由绝对位置编码启发而来,考虑一般的带绝对位置编码的Attention:

在这里插入图片描述

在这里插入图片描述

(2)XLNET式

在这里插入图片描述

(3)T5式

T5模型出自文章《Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer》,里边用到了一种更简单的相对位置编码。思路依然源自qikjTq_ik^T_jqikjT展开式,如果非要分析每一项的含义,那么可以分别理解为“输入-输入”、“输入-位置”、“位置-输入”、“位置-位置”四项注意力的组合。如果我们认为输入信息与位置信息应该是独立(解耦)的,那么它们就不应该有过多的交互,所以“输入-位置”、“位置-输入”两项Attention可以删掉,而piWQWK⊤pj⊤\boldsymbol{p}{i} \boldsymbol{W}{Q} \boldsymbol{W}{K}^{\top} \boldsymbol{p}{j}^{\top}piWQWK⊤pj⊤实际上只是一个只依赖于(i,j)(i,j)(i,j)的标量,我们可以直接将它作为参数训练出来,即简化为:

xiWQWK⊤xj⊤+βi,j\boldsymbol{x}_{i} \boldsymbol{W}_{Q} \boldsymbol{W}_{K}^{\top} \boldsymbol{x}_{j}^{\top}+\boldsymbol{\beta}_{i, j}xiWQWK⊤xj⊤+βi,j

说白了,它仅仅是在Attention矩阵的基础上加一个可训练的偏置项而已,而跟XLNET式一样,在vjv_jvj上的位置偏置则直接被去掉了。包含同样的思想的还有微软在ICLR 2021的论文《Rethinking Positional Encoding in Language Pre-training》中提出的TUPE位置编码。

比较“别致”的是,不同于常规位置编码对将βi,j\beta_{i, j}βi,j视为i−ji−ji−j的函数并进行截断的做法,T5对相对位置进行了一个“分桶”处理,即相对位置是i−ji−ji−j的位置实际上对应的是f(i−j)f(i−j)f(i−j)位置,映射关系如下:

i−ji-ji−j0123456789101112131415
f(i−j)f(i-j)f(i−j)0123456788889999
i−ji-ji−j161718192021222324252627282930
f(i−j)f(i-j)f(i−j)101010101010101111111111111111

这个设计的思路其实也很直观,就是比较邻近的位置(0~7),需要比较得精细一些,所以给它们都分配一个独立的位置编码,至于稍远的位置(比如8~11),我们不用区分得太清楚,所以它们可以共用一个位置编码,距离越远,共用的范围就可以越大,直到达到指定范围再clip。

(4)DeBERTa式

DeBERTa也是微软搞的,去年6月就发出来了,论文为《DeBERTa: Decoding-enhanced BERT with Disentangled Attention》,最近又小小地火了一把,一是因为它正式中了ICLR 2021,二则是它登上SuperGLUE的榜首,成绩稍微超过了T5。

其实DeBERTa的主要改进也是在位置编码上,同样还是从qikjTq_ik^T_jqikjT展开式出发,T5是干脆去掉了第2、3项,只保留第4项并替换为相对位置编码,而DeBERTa则刚刚相反,它扔掉了第4项,保留第2、3项并且替换为相对位置编码(果然,科研就是枚举所有的排列组合看哪个最优):

在这里插入图片描述

不过,DeBERTa比较有意思的地方,是提供了使用相对位置和绝对位置编码的一个新视角,它指出NLP的大多数任务可能都只需要相对位置信息,但确实有些场景下绝对位置信息更有帮助,于是它将整个模型分为两部分来理解。以Base版的MLM预训练模型为例,它一共有13层,前11层只是用相对位置编码,这部分称为Encoder,后面2层加入绝对位置信息,这部分它称之为Decoder,还弄了个简称EMD(Enhanced Mask Decoder);至于下游任务的微调截断,则是使用前11层的Encoder加上1层的Decoder来进行。

SuperGLUE上的成绩肯定了DeBERTa的价值,但是它论文的各种命名真的是让人觉得极度不适,比如它自称的“Encoder”、“Decoder”就很容易让人误解这是一个Seq2Seq模型,比如EMD这个简称也跟Earth Mover’s Distance重名。虽然有时候重名是不可避免的,但它重的名都是ML界大家都比较熟悉的对象,相当容易引起误解,真不知道作者是怎么想的…

面试题笔记分享

为了助力朋友们跳槽面试、升职加薪、职业困境,提高自己的技术,本文给大家整了一套涵盖Android所有技术栈的快速学习方法和笔记。目前已经收到了七八个网友的反馈,说是面试问到了很多这里面的知识点。

每一章节都是站在企业考察思维出发,作为招聘者角度回答。从考察问题延展到考察知识点,再到如何优雅回答一面俱全,可以说是求职面试的必备宝典,每一部分都有上百页内容,接下来具体展示,完整版可直接下方扫码领取。

标签:编码,微调,训练,AI,模型,位置,2024,LLMs
From: https://blog.csdn.net/2401_85325557/article/details/139838056

相关文章

  • 三维模型OSGB格式轻量化
    在三维模型应用中,轻量化处理是提高数据传输效率、减少渲染时间和优化用户体验的重要手段。而OSGB格式是一种常见的三维模型格式,在进行轻量化处理时,顶点压缩是一种常用的技术方法。本文将分析OSGB格式顶点压缩的主要技术方法。1、顶点量化顶点量化是一种常用的数据压缩技术,可......
  • 使用国产大模型完成单细胞自动注释
    作者按我们在Python的scverse生态中,重新实现了GPTCelltype的函数,并加入了更多大模型的扩展,同时我们并将其封装进OmicVerse框架中全文字数|预计阅读时间:2000|5min——Starlitnightly(星夜)GPT-4是一种专为语音理解和生成而设计的大型语言模型。哥伦比亚大学梅尔曼公共卫生......
  • 模型蒸馏的代码
    模型蒸馏importpandasaspdimporttensorflowastffromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportconfusion_matrix,f1_scorefromsklearn.metricsimportroc_auc_scoreimportnumpyasnpimportrandom#设置Python的随机......
  • 【AIGC新职业】之:什么是AIGC?其对创意设计行业有什么重要意义?
    【AIGC是什么】AIGC,全称ArtificialIntelligenceGeneratedContent,即人工智能生成内容。这是一种基于生成对抗网络、大型预训练模型等人工智能的技术方法,通过已有数据的学习和识别,以适当的泛化能力生成相关内容的技术。AIGC技术的核心思想是利用人工智能算法生成具有一定......
  • ChatmoneyAI如狂龙腾空,客服领域的赚钱神器!
    本文由ChatMoney团队出品引言在客服行业中,提升效率、降低成本是企业永恒的课题。而智能客服正是解决这一难题的利器。借助ChatmoneyAI这款强大的AI工具,企业可以实现智能化的客服管理,通过自动回复常见问题、智能识别用户需求,大大减轻客服团队的工作负担,提高工作效率。与此同时,Ch......
  • Stable Diffusion一键安装教程含大量关键词模型包
    目前主流AI绘画平台主要有三种:MidjourneyStableDiffusionDALL·E相比较而言StableDiffusion。可以本地化不需要money不占用网络StableDiffusion下载地址想要Stablediffusion安装包的小伙伴可以在文末扫码,我给大家免费安排!1,电脑配置由于是将StableDiffusio......
  • 2024最新最全【网络安全/渗透测试】面试题汇总
    思路流程信息收集漏洞挖掘漏洞利用&权限提升清除测试数据&输出报告复测问题深信服一面:SQL注入防护为什么参数化查询可以防止sql注入SQL头注入点盲注是什么?怎么盲注?宽字节注入产生原理以及根本原因产生原理在哪里编码根本原因解决办法sql里面只有update怎么利用sql如何......
  • 《大数据智能风控 模型、数据和业务实践》导读
    大数据风控是什么大数据风控是指利用大数据技术对风险进行识别、评估、监控和控制的过程。它通过收集和分析大量的数据,包括结构化数据(如交易记录、信用报告)和非结构化数据(如社交媒体信息、网络行为),来预测和防范潜在的风险。大数据风控必要性:提高风险识别能力:大数据风控......
  • IntelliJ IDEA 2024 mac/win版:编程利器,智慧之选
    IntelliJIDEA2024是一款由JetBrains精心打造的集成开发环境(IDE),专为Java等编程语言量身打造,同时支持多种其他语言,为开发者提供了卓越的开发体验。IntelliJIDEA2024mac/win版获取这款IDE凭借其出色的智能化和高效性,赢得了广大开发者的喜爱。IDEA2024不仅提供了丰富的功能......
  • JetBrains GoLand 2024 mac/win版:高效开发,Go无止境
    JetBrainsGoLand2024是一款专为Go语言开发者设计的集成开发环境(IDE),为开发者带来了更加高效、智能和便捷的编程体验。GoLand2024mac/win版获取在代码编辑方面,GoLand2024提供了全行代码补全功能,通过利用先进的深度学习模型,能够智能预测并自动补全整行代码,大大提高了编码速......