• 2024-12-15旋转位置编码(RoPE):Transformer 模型中的创新位置编码技术
    一、引言        在自然语言处理(NLP)领域,Transformer模型因其强大的并行计算能力和优秀的性能而广受关注。然而,原始Transformer模型的一个重要缺点是无法有效捕捉输入序列中token的位置信息。为了解决这一问题,研究人员开发了多种位置编码方法,其中旋转位置编码(Rota
  • 2024-12-12Redis 基础知识
    Redis基础1.什么是Redis?Redis是一个开源的、高性能的内存数据库,也可以用作缓存和消息队列。它以键值对的形式存储数据,并支持丰富的数据结构。Redis被广泛应用于Web、物联网、游戏等需要高吞吐和低延迟的场景。官网:https://redis.io/开发语言:CLicense:BSD3-Clause
  • 2024-09-19Llama3学习记录
    Llama3学习记录Llama3是一个稠密的transformer网络模型,应用于预测文本序列的下一个token。相较于先前版本的Llama模型,其性能提升主要来自于数据质量的提升以及多样性,并且也受益于模型参数的增加1.网络架构由上图可知,Llama3是一个decoderonly的网络模型Llama3模型具体
  • 2024-07-19Transformer中高级位置编码的介绍和比较:Linear Rope、NTK、YaRN、CoPE
    在处理诸如文本之类的序列时,排序信息显然是至关重要的。为了结合排序信息而不是将序列视为集合,对位置信息进行编码是至关重要的。位置编码通过为每个位置分配嵌入向量并将其添加到相应的标记表示来实现这一点。绝对和相对位置编码是最常见的两种位置编码方式,但是本文将要比
  • 2023-12-01LLM 入门笔记-Tokenizer
    以下笔记参考huggingface官方tutorial:https://huggingface.co/learn/nlp-course/chapter6下图展示了完整的tokenization流程,接下来会对每个步骤做进一步的介绍。1.Normalizationnormalize其实就是根据不同的需要对文本数据做一下清洗工作,以英文文本为例可以包括删除
  • 2023-11-18自然语言处理预训练——子词嵌入
    在英语中,“helps”“helped”和“helping”等单词都是同一个词“help”的变形形式。“dog”和“dogs”之间的关系与“cat”和“cats”之间的关系相同,“boy”和“boyfriend”之间的关系与“girl”和“girlfriend”之间的关系相同。在法语和西班牙语等其他语言中,许多动词有40多种变
  • 2023-11-07Rotary Position Embedding分析
    1旋转角度计算计算公式如下,其中d为词嵌入维度,\[\theta_j=10000^{-2(j-1)/d},j\in[1,2,\ldots,d/2]\]#计算词向量元素两两分组之后,每组元素对应的旋转角度#维度:[dim/2]freqs=1.0/(theta**(torch.arange(0,dim,2)[:(dim//2)].float()/dim))2计算整个seq
  • 2023-07-24RoPE
    目录概RoPESuJ.,LuY.,PanS.,MurtadhaA.,WenB.andLiuY.RoFormer:Enhancedtransformerwithrotarypositionembedding.概原作者的博客已经讲得非常到位了:[here]and[there].RoPERoPE是一种相对位置编码,特点是它可以像绝对位置编码一样,在embeddi
  • 2023-07-24fpl2
    f=torch.fft.fft2(image)#计算频率freqs=torch.fft.fftfreq(image.shape[-1])print(freqs)#设定阈值,用于分离高频和低频信息threshold=0.1#创建掩码,用于分离高频和低频信息mask=(freqs.abs()<threshold).float()#应用掩码,分离高频和低频信息low_freq=to