• 2024-11-13【杂学】大模型推理加速 —— KV-cache 技术
    如果不熟悉Transformer的同学可以点击这里了解自从《AttentionIsAllYouNeed》问世以来,Transformer已经成为了LLM中最基础的架构,被广泛使用。KV-cache是大模型推理加速的关键技术之一,已经成为了Transformer标配的功能,不过其只能用于Decoder结构:由于Decoder中有
  • 2024-11-11【杂学】先进的 NLP 技术 —— 旋转位置编码(Rotary Position Embedding,RoPE)
    Transformer已经渐渐成为目前LLM最通用底层架构之一,其中的位置编码也显得极其重要,由于注意力分数本质上是每个token的val加权和,并没有考虑其中的空间信息,因此需要在自注意力模块之前就将位置信息融合进序列中。绝对位置编码绝对位置编码是一种将序列中的每个位置进行编码