首页 > 其他分享 >Task04 学习GPT

Task04 学习GPT

时间:2022-12-09 10:34:25浏览次数:59  
标签:Transformer 语言 模型 Self GPT2 Encoder 学习 GPT Task04


文章目录

  • ​​前言​​
  • ​​1 GPT2和语言模型​​
  • ​​1.1 什么是语言模型​​
  • ​​1.2 语言模型的Transformer​​
  • ​​1.3 与BERT的一个不同之处​​
  • ​​1.4 Transformer 模块的进化​​
  • ​​1.5 语言模型入门: 了解GPT2​​
  • ​​1.6 深入理解GPT2 的更多细节​​
  • ​​1.7 GPT2总结​​
  • ​​2 可视化 Self- Attention​​
  • ​​2.1 Self-Attention​​
  • ​​2.2 图解 Masked Self_attention
  • ​​2.2 GPT2 的Self-Attention​​
  • ​​2.3 GPT2 全连接神经网络​​
  • ​​3 语言模型之外​​
  • ​​3.1 机器翻译​​
  • ​​3.2 生成摘要​​
  • ​​3.3 迁移学习​​
  • ​​3.4 音乐生成​​
  • ​​4 总结​​
  • ​​参考​​

前言

GPT-2是一个巨大的, 基于Transformer的语言模型, 它是在一个巨大的数据集上训练的

1 GPT2和语言模型

1.1 什么是语言模型

什么语言模型?
     GPT-2 基本上就是键盘应用程序中预测下一个词的功能

1.2 语言模型的Transformer

Transformer 模型是由Encoder 和 Decoder 组成的

Task04 学习GPT_Self

1.3 与BERT的一个不同之处

GPT-2 是使用Transformer的Decoder 模块构建的
BERT 是使用Transformer 的Encoder 模块构建的

1.4 Transformer 模块的进化

(1) Encoder模块

原始的接受特定长度的输入---->可以填充序列的其余部分

(2) Decoder 模块

Task04 学习GPT_深度学习_02


会屏蔽未来的token

1.5 语言模型入门: 了解GPT2

Task04 学习GPT_深度学习_03

能够处理1024个token

1.6 深入理解GPT2 的更多细节

每一行都是词的embedding

Task04 学习GPT_Self_04


token embedding------>token +position-------->

Self-Attention

1.7 GPT2总结

感觉还是像天书一样[捂脸]

2 可视化 Self- Attention

Task04 学习GPT_深度学习_05

2.1 Self-Attention

3个步骤
1 为每个路径创建Query Key Value矩阵
2 对于每个输入的token , 使用它的Query 向量为所有其他的Key 向量进行打分
3 将Value向量乘以它们对应的分数后求和

2.2 图解 Masked Self_attention

2.2 GPT2 的Self-Attention

评价模型:每次处理一个token

Task04 学习GPT_自然语言处理_06

2.3 GPT2 全连接神经网络

用于处理Self Attention 层的输出, 这个输出的表示包含了合适的上下文 全连接神经网络由两层组成

全连接层:

Task04 学习GPT_深度学习_07

3 语言模型之外

3.1 机器翻译

机器翻译 Encoder不是必须的

3.2 生成摘要

文章的实际开头部分用作训练数据的标签

Task04 学习GPT_语言模型_08

3.3 迁移学习

在数据量有限制时 ,一个只有Decoder的Transformer 比预训练的Encoder-Decoder Transformer 能够获得更好的结果

3.4 音乐生成

音乐建模就像语言建模一样 ,只需要让模型以无监督的方式学习音乐 ----->采样输出

4 总结

懵~~ 越发感觉到算法里图像,NLP,推荐系统,的三大方向了,每一个都是巨坑

参考

​Datawhale基于transformers的自然语言处理(NLP入门)​


标签:Transformer,语言,模型,Self,GPT2,Encoder,学习,GPT,Task04
From: https://blog.51cto.com/u_15796263/5923947

相关文章