文章目录
- 前言
- 1 GPT2和语言模型
- 1.1 什么是语言模型
- 1.2 语言模型的Transformer
- 1.3 与BERT的一个不同之处
- 1.4 Transformer 模块的进化
- 1.5 语言模型入门: 了解GPT2
- 1.6 深入理解GPT2 的更多细节
- 1.7 GPT2总结
- 2 可视化 Self- Attention
- 2.1 Self-Attention
- 2.2 图解 Masked Self_attention
- 2.2 GPT2 的Self-Attention
- 2.3 GPT2 全连接神经网络
- 3 语言模型之外
- 3.1 机器翻译
- 3.2 生成摘要
- 3.3 迁移学习
- 3.4 音乐生成
- 4 总结
- 参考
前言
GPT-2是一个巨大的, 基于Transformer的语言模型, 它是在一个巨大的数据集上训练的
1 GPT2和语言模型
1.1 什么是语言模型
什么语言模型?
GPT-2 基本上就是键盘应用程序中预测下一个词的功能
1.2 语言模型的Transformer
Transformer 模型是由Encoder 和 Decoder 组成的
1.3 与BERT的一个不同之处
GPT-2 是使用Transformer的Decoder 模块构建的
BERT 是使用Transformer 的Encoder 模块构建的
1.4 Transformer 模块的进化
(1) Encoder模块
原始的接受特定长度的输入---->可以填充序列的其余部分
(2) Decoder 模块
会屏蔽未来的token
1.5 语言模型入门: 了解GPT2
能够处理1024个token
1.6 深入理解GPT2 的更多细节
每一行都是词的embedding
token embedding------>token +position-------->
Self-Attention
1.7 GPT2总结
感觉还是像天书一样[捂脸]
2 可视化 Self- Attention
2.1 Self-Attention
3个步骤
1 为每个路径创建Query Key Value矩阵
2 对于每个输入的token , 使用它的Query 向量为所有其他的Key 向量进行打分
3 将Value向量乘以它们对应的分数后求和
2.2 图解 Masked Self_attention
2.2 GPT2 的Self-Attention
评价模型:每次处理一个token
2.3 GPT2 全连接神经网络
用于处理Self Attention 层的输出, 这个输出的表示包含了合适的上下文 全连接神经网络由两层组成
全连接层:
3 语言模型之外
3.1 机器翻译
机器翻译 Encoder不是必须的
3.2 生成摘要
文章的实际开头部分用作训练数据的标签
3.3 迁移学习
在数据量有限制时 ,一个只有Decoder的Transformer 比预训练的Encoder-Decoder Transformer 能够获得更好的结果
3.4 音乐生成
音乐建模就像语言建模一样 ,只需要让模型以无监督的方式学习音乐 ----->采样输出
4 总结
懵~~ 越发感觉到算法里图像,NLP,推荐系统,的三大方向了,每一个都是巨坑
参考
Datawhale基于transformers的自然语言处理(NLP入门)