杂学

2024-11-13【杂学】大模型推理加速 —— KV-cache 技术
如果不熟悉Transformer的同学可以点击这里了解自从《AttentionIsAllYouNeed》问世以来，Transformer已经成为了LLM中最基础的架构，被广泛使用。KV-cache是大模型推理加速的关键技术之一，已经成为了Transformer标配的功能，不过其只能用于Decoder结构：由于Decoder中有
2024-11-11【杂学】先进的 NLP 技术 —— 旋转位置编码（Rotary Position Embedding，RoPE）
Transformer已经渐渐成为目前LLM最通用底层架构之一，其中的位置编码也显得极其重要，由于注意力分数本质上是每个token的val加权和，并没有考虑其中的空间信息，因此需要在自注意力模块之前就将位置信息融合进序列中。绝对位置编码绝对位置编码是一种将序列中的每个位置进行编码