B站课程 Transformer从零详细解读(可能是你见过最通俗易懂的讲解) 的上课笔记
1. Transformer 模型概述
- Transformer 是一种基于自注意力机制的模型,广泛应用于自然语言处理领域。
1.1 位置编码
- 为什么需要位置编码:模型需要理解单词在句子中的位置关系。
- 位置编码公式:使用正弦和余弦函数为每个单词添加位置信息。
1.2 注意力机制
- 基本的注意力机制:模型能够关注输入序列中不同位置的信息。
- 多头注意力:允许模型在多个表示子空间中并行地学习信息。
1.3 残差连接和Layer Normalization
- 残差连接:帮助梯度在深层网络中流动。
- Layer Normalization:对每个样本的所有特征进行归一化处理。
1.4 前馈神经网络
- 每个Transformer层中的前馈网络部分。
2. TRM 模型详解
- TRM 可能是指某种特定于任务的模型,但PPT中未给出详细信息。
2.1 输入与输出示例
- 展示了一个简单的输入输出例子:“我 爱 你”。
2.2 Embedding 和位置编码
- Embedding:将单词转换为固定大小的向量。
- 位置编码:为每个单词的Embedding添加位置信息。
2.3 注意力机制的深入
- 注意力机制的本质:模型如何关注不同单词。
- QKV(Query, Key, Value):注意力机制中的三个主要组成部分。
2.4 多头注意力机制
- 多头注意力允许模型同时从不同角度学习信息。
2.5 残差和LayerNorm的作用
- 解释了残差连接和LayerNorm在模型中的作用和重要性。
2.6 Batch Normalization (BN)
- BN的优点:解决内部协变量偏移,缓解梯度饱和问题。
- BN的缺点:在小批量大小和RNN中效果不佳。
2.7 Layer Normalization (LayerNorm)
- 解释了为什么LayerNorm在RNN中比BN更有效。
2.8 为什么需要Mask
- 在解码器中,为了防止信息泄露,需要对尚未生成的单词进行Mask操作。
3. 总结
- Transformer模型的关键特性和组件。
- TRM模型的特定应用和特点(如果有更多信息)。