Transformer系列技术博文汇总! |
文章目录
- 第1篇:矩阵乘法概念解释
- 第2篇:使用缩放点积方法的自注意力
- 第3篇:深入探讨多头注意力、自注意力和交叉注意力
- 第4篇:Transformer 架构
- 第5篇:PostLN,PreLN和ResiDual Transformers
- 第6篇:多头注意力的变种:多查询(MQA)和分组查询注意力(GQA)
- 第7篇:Transformer模型的高效自注意力机制
- 第8篇:注意力机制中的线性复杂度:PyTorch中的逐步实现
- 第9篇:相对自注意力解释
第1篇:矩阵乘法概念解释
- Matrix Multiplication Concept Explained(矩阵乘法概念解释)
第2篇:使用缩放点积方法的自注意力
- Self-Attention Using Scaled Dot-Product Approach(使用缩放点积方法的自注意力)
第3篇:深入探讨多头注意力、自注意力和交叉注意力
- A Dive Into Multihead Attention, Self-Attention and Cross-Attention(深入探讨多头注意力、自注意力和交叉注意力)
第4篇:Transformer 架构
- Transformer Architecture(Transformer 架构)
第5篇:PostLN,PreLN和ResiDual Transformers
- PostLN, PreLN and ResiDual Transformers
第6篇:多头注意力的变种:多查询(MQA)和分组查询注意力(GQA)
- Variants of Multi-head attention: Multi-query (MQA) and CGrouped-query attention (GQA)(多头注意力的变种:多查询(MQA)和分组查询注意力(GQA))
第7篇:Transformer模型的高效自注意力机制
- Efficient Self-Attention for Transformers(Transformer模型的高效自注意力机制)
- 文章链接:『大模型笔记』Transformer的几种高效自注意力(降低计算复杂度的方法)!
第8篇:注意力机制中的线性复杂度:PyTorch中的逐步实现
- Linear Complexity in Attention Mechanism: A step-by-stepimplementation in PyTorch(注意力机制中的线性复杂度:PyTorch中的逐步实现)
第9篇:相对自注意力解释
- Relative Self-Attention Explained(相对自注意力解释)