• 2025-01-05大模型基础组件 - 位置编码
    为什么需要位置编码自注意力机制没有顺序感知:Transformer模型中的自注意力(Self-Attention)机制计算的是输入序列中所有位置的元素之间的关系,而这些关系仅仅依赖于元素的内容,而不考虑它们在序列中的顺序。例如,模型并不能自动地识别“第一个词”和“最后一个词”之间的顺序关系
  • 2025-01-03清华:傅里叶位置嵌入优化LLM长度泛化
  • 2024-12-30RoPE在Transformer中的应用
    RoPE在Transformer中的应用概述在Transformer神经网络架构中,位置信息的引入对于增强模型的理解和处理能力至关重要。作为一种有效的技术,位置编码旨在帮助模型理解不同元素在序列中的相对位置。尽管传统的绝对位置编码方法简单易用,但它们在处理长度变化的文本时显示出一定
  • 2024-12-15旋转位置编码(RoPE):Transformer 模型中的创新位置编码技术
    一、引言        在自然语言处理(NLP)领域,Transformer模型因其强大的并行计算能力和优秀的性能而广受关注。然而,原始Transformer模型的一个重要缺点是无法有效捕捉输入序列中token的位置信息。为了解决这一问题,研究人员开发了多种位置编码方法,其中旋转位置编码(Rota
  • 2024-12-13旋转位置编码Rope
    1.背景  注意力机制本身没有获取位置信息的能力,对于transformer来说"Helloworld"和"worldHello"两句话中的"Hello"张量是完全相同的,即使两句话中的相同Hello可能有不同的表达含义,所以需要在输入信息中添加位置信息2.原理  transformer中KQV都是而二维的张量,所以可以用
  • 2024-12-12RoPE论文阅读笔记
    复数几何意义:https://zhuanlan.zhihu.com/p/646598747https://zhuanlan.zhihu.com/p/359502624Motivation&Abs作者提出了旋转位置编码(RotaryPositionEmbedding,RoPE)的新方法来有效利用位置信息。RoPE使用旋转矩阵对绝对位置进行编码,同时在自注意公式中纳入了明确的相对
  • 2024-12-04【NLP高频面题 - LLM架构篇】旋转位置编码RoPE相对正弦位置编码有哪些优势?
    【NLP高频面题-LLM架构篇】旋转位置编码RoPE相对正弦位置编码有哪些优势?重要性:⭐⭐⭐
  • 2024-12-03NUS:LLM在BF16与RoPE上存在长上下文挑战
  • 2024-12-01【NLP高频面题 - LLM架构篇】旋转位置编码RoPE如何进行外推?
    【NLP高频面题-LLM架构篇】旋转位置编码RoPE如何进行外推?重要性:★★★
  • 2024-11-30【NLP高频面题 - LLM架构篇】旋转位置编码RoPE相对正弦位置编码有哪些优势?
    【NLP高频面题-LLM架构篇】旋转位置编码RoPE相对正弦位置编码有哪些优势?重要性:⭐⭐⭐
  • 2024-11-26【人人都能看懂 - 大模型架构篇】旋转位置编码(RoPE)形象理解+源码解析
    【人人都能看懂-大模型架构篇】旋转位置编码(RoPE)形象理解+源码解析重要性:★★★
  • 2024-11-25【NLP高频面题 - LLM架构篇】什么是旋转位置编码(RoPE)?
    【NLP高频面题-LLM架构篇】什么是旋转位置编码(RoPE)?重要性:★★★
  • 2024-11-24字节 NLP 算法岗一面面试题7道(含解析)
    最近这一两周不少互联网公司都已经开始秋招提前批面试了。不同以往的是,当前职场环境已不再是那个双向奔赴时代了。求职者在变多,HC在变少,岗位要求还更高了。最近,我们又陆续整理了很多大厂的面试题,帮助一些球友解惑答疑,分享技术面试中的那些弯弯绕绕。总结如下:《大模型面
  • 2024-12-05RTL difftest搭建
    difftest在测试集中可以起到十分重要的作用,可以快速找到发生问题的指令和pc寄存器地址。在nemu作为dut,参考其他模拟器(比如spike)的功能中,大部分代码已经完成,我们只需要完成寄存器的比对即可。但在RTL中重新实现这一功能或者类似功能时,我们需要完成更多函数,但大体的框架已经完成
  • 2024-11-26HarmonyOS Next 中 FIDO 认证与分布式系统的融合
    本文旨在深入探讨华为鸿蒙HarmonyOSNext系统(截止目前API12)中FIDO认证与分布式系统的融合,基于实际开发与应用实践进行总结。主要作为技术分享与交流载体,难免错漏,欢迎各位同仁提出宝贵意见和问题,以便共同进步。本文为原创内容,任何形式的转载必须注明出处及原作者。一、分布
  • 2024-09-22【面试经验】商汤NLP一面
    整体不到1h前20min讲了一个项目,没太详细问。然后八股:Llama2架构(embedding,transformerblock,LMhead)Llama2transformerblock里做了哪些改变(RMSNorm,RoPE,SwiGLU,PreNorm不太清楚说全了没)为什么用RMSNorm不用LayerNorm(答参数量少,不太对)为什么用RoPE不用绝
  • 2024-09-05论 LLMs 如何解决长文本问题?
    一、长文本的核心问题与解决方向1.1文本长度与显存及计算量之关系要研究清楚长文本的问题,首先应该搞清楚文本长度在模型中的地位与影响。那么我们便以Decoder-base的模型为例来进行分析1.1.1模型参数量Decoder-base的模型主要包括3个部分:embedding,decoder-laye
  • 2024-08-31【大模型理论篇】RoPE旋转位置编码底层数学原理分析
    1.位置编码对于NLP模型的作用             位置编码(PositionalEncoding)在大模型(例如Transformer架构)中起到了非常重要的作用。没有位置编码的信息,模型会丧失序列的顺序信息,导致模型退化成一个简单的“词袋模型”(BagofWordsmodel)。        在Tra
  • 2024-08-20AI换脸Rope软件整合包保姆级使用教程,最新珍珠版,支持N卡,win10、win11可用
    大家好 今天要跟大家介绍的是一款速度超快的换脸AI——Rope的最新版本。这款软件最让人惊艳的地方是融合换脸和脸部区域控制换脸。你别看他只有区区4K多stars除了它的换脸速度让人惊艳之外,这个工具还支持多张照片同时进行换脸。也就是说,你可以选几张人脸照片,算法会自动融合这
  • 2024-07-17RoPE旋转位置编码代码实现梳理
    RoPE流程总结&RoPE介绍通过绝对位置编码起到相对位置编码的效果,寻找一个函数\(f,g\),使得\(<f_{q}\left(x_{m},m\right),f_{k}\left(x_{n},n\right)>=g\left(x_{m},x_{n},m-n\right)\)这里的RoPE是在计算Attention的过程中引入的。首先对于一个token的嵌入\(x\),通过\(
  • 2024-05-23shader 代码 分享:粒子的 缩放 和 位移(贝塞尔曲线控制不同粒子的位置) -- shader 绳索效果
    原始代码:shader_typeparticles;uniformintamount:hint_range(1,1000)=8;uniformfloatmax_rope_distance:hint_range(1.0,1000.0)=20.0;uniformfloatscale:hint_range(0.0,10.0)=1.0;uniformvec3start=vec3(-5.0,5.0,0.0);uniformvec3end