首页 > 其他分享 >大模型面试题:目前大模型中的位置编码有哪些?

大模型面试题:目前大模型中的位置编码有哪些?

时间:2024-12-03 12:31:35浏览次数:7  
标签:编码 面试题 模型 位置 相对 embedding 推性

我整理了1000道算法面试题,可以在下面的地方获取,面试题还是有点多的


在大模型中,位置编码主要分为两大派:绝对位置编码和相对位置编码。主流的几种脍炙人口的位置编码如下所示:

  • 正弦编码 正弦曲线(Sinusoidal)位置编码:这是Transformer原始论文中提出的位置编码方式。它通过正弦和余弦函数的组合为每个位置创建编码,波长呈几何级数排列,使得每个位置的编码都是独特的,并且能够捕获位置之间的相对关系。公式如下: 其中,表示位置,代表embedding的维度,代表的是embedding不同位置的索引。

    优点:实现简单,效率高,易用性好,有一定的理论支撑
    缺点:绝对位置编码带来的灵活性差;外推性较差,难以对超出预训练长度的文本进行很好的外推或者说性能下降;难以表示有效的相对位置间的关系,也即难以表示前后方向,只能表示距离。

  • 旋转位置编码 旋转位置编码(RoPE):这是一种相对位置编码,通过旋转向量的方式来编码位置信息。RoPE在特定任务中表现出独特的优势,尤其是在处理具有对称性或周期性特征的数据时。

    优点:能保证相对位置关系;良好的外推性;可以和线性注意力机制兼容.
    缺点:实现上稍微复制;外推到超长序列也存在性能下降问题

    可以参考 https://zhuanlan.zhihu.com/p/647109286 进行学习,十分钟就精通了

  • ALiBi
    相对位置编码(ALiBi):这是一种微调Attention结构的方法,使其能够分辨不同位置的Token。相对位置编码适用于长文本处理和需要捕捉长距离依赖的任务,如机器翻译和问答系统ALibi并没有显示的在网络种加入编码,唯一的修改是在qk点积之后,加入了一个静态的不可学习的bias: m是一个head-specific的超参(multihead),对于n个head而言,步长一般为

    image

    image

    优点:实现简单,减少了模型embedding参数,效率高,具有良好外推性, 缺点:外推到超长序列也存在性能下降问题

标签:编码,面试题,模型,位置,相对,embedding,推性
From: https://blog.csdn.net/hguo11/article/details/144211860

相关文章

  • 大模型面试题:当Batch Size增大时,学习率该如何随之变化?
    我整理了1000道算法面试题:获取该问题大答案的理论分析请参考苏剑林的科学空间,地址位于https://kexue.fm/archives/10542说下结论:从方差的角度来分析,有两个角度来说明学习率应该和Batchsize的关系,一个是呈现根号的关系,也即Batchsize增大x倍,学习率增大根号x倍,另一个角度是......
  • SQL面试题——腾讯SQL面试题 连续5天涨幅超过5%的股票
    腾讯SQL面试题连续5天涨幅超过5%的股票今天的面试题目是来自腾讯的,题目的含义很明确了,连续5天涨幅超过5%的股票,我们之前已经做过大量的连续的问题了持续增长我们也可以称之为连续增长,本质上还是连续类的问题,前面我们已经介绍过很多连续的问题了SQL面试题——最大连续登......
  • SQL面试题——腾讯SQL面试题 占据好友封面个数
    腾讯SQL面试题占据好友封面个数有两个表,朋友关系表user_friend,用户步数表user_steps。朋友关系表包含两个字段,用户id,用户好友的id;用户步数表包含两个字段,用户id,用户的步数查询:占据多少个好友的封面(在好友的列表中排行第一,且必须超过好友的步数)--好友关系表+-------+-......
  • QWQ智能测试:阿里云开源AI模型推理能力测试
    从玄离199最新的科技补全系列视频:【科技补全26】全球最大盗版视频网站被摧毁;Sora被泄露;网易怒喷腾讯抄袭;新型电脑病毒通过微信群传播;_哔哩哔哩_bilibili中了解到阿里云开源了具有推理能力的AI模型QWQ,为了测试它的推理能力,我们来找一些题目来测试一下他的推理能力。我们来......
  • 如何用AI制作3D模型?
    Meshy是一款3DAIGC工具,借助Meshy我们可以在一分钟内将文字和图片转化为高质量的3D模型。 Meshy的三种使用模式:文字生成3D、图像生成3D、文本生成贴图。本文将通过"Textto3D"来讲解如何用AI生成3D模型。在本指南中,我们演示了如何使用Meshy创建3D模型。这种创新工具可以将文本......
  • 【金猿人物展】白鲸开源CEO郭炜:未来数据领域的PK是大模型Transformer vs 大数据Transf
    本文由白鲸开源CEO郭炜撰写并投递参与“数据猿年度金猿策划活动——2024大数据产业年度趋势人物榜单及奖项”评选。去年是大模型蓬勃兴起的一年,热度席卷全球,仿佛AI已经可以解决一切问题。今年随着热潮退去,大模型开始进入深水区,试图深入改造各行各业的底层逻辑。而在大数据处理......
  • java特殊编码生成
    工作中想要生成一个特殊编码,比如:SZ-2412030009,前面三位是编码固定开头,然后是yyMMdd,最后是当天的个数。期望能够生成一个计算当天task个数,第二天重新计数的一个编码,用于插入到数据库中作为特殊标识。便于用户快速查看任务时间和个数@ResourceprivateRedisTemplat......
  • 高级java每日一道面试题-2024年12月02日-JVM篇-虚拟机为什么使用元空间替换了永久代?
    如果有遗漏,评论区告诉我进行补充面试官:虚拟机为什么使用元空间替换了永久代?我回答:在Java高级面试中,关于虚拟机为何使用元空间替换了永久代的问题,可以从以下几个方面进行详解:一、背景与概念永久代(PermanentGeneration):内存溢出:永久代的大小是固定的,且默认值较小......
  • ultralytics框架yolov8模型训练过程(日志)讲解
    训练命令及提示        执行下面的命令,可以使用yolov8的图像目标检测功能完成训练:yolotrainmodel=yolov8x.ptdata=test.yamlepochs=150imgsz=640命令执行成功后,会先弹出以下的信息:Newhttps://pypi.org/project/ultralytics/8.3.39available......
  • 第7章 大模型之Adaptation
     7.1引言在自然语言处理任务中,虽然语言模型(例如GPT-3)在很多任务上能够仅通过提示(prompting)进行上下文学习,但它们并不适用于所有下游任务。特别是当下游任务的格式和主题与语言模型的训练数据存在差异时(例如,自然语言推理NLI、问题回答QA等),就需要对模型进行适配(adaptation)。......