Task04 学习GPT

时间：2022-12-09 10:34:25浏览次数：72

标签：Transformer 语言模型 Self GPT2 Encoder 学习 GPT Task04

文章目录

前言
1 GPT2和语言模型

1.1 什么是语言模型
1.2 语言模型的Transformer
1.3 与BERT的一个不同之处
1.4 Transformer 模块的进化
1.5 语言模型入门: 了解GPT2
1.6 深入理解GPT2 的更多细节
1.7 GPT2总结

2 可视化 Self- Attention

2.1 Self-Attention
2.2 图解 Masked Self_attention
2.2 GPT2 的Self-Attention
2.3 GPT2 全连接神经网络

3 语言模型之外

3.1 机器翻译
3.2 生成摘要
3.3 迁移学习
3.4 音乐生成

4 总结
参考

前言

GPT-2是一个巨大的, 基于Transformer的语言模型, 它是在一个巨大的数据集上训练的

1 GPT2和语言模型

1.1 什么是语言模型

什么语言模型?
GPT-2 基本上就是键盘应用程序中预测下一个词的功能

1.2 语言模型的Transformer

Transformer 模型是由Encoder 和 Decoder 组成的

Task04 学习GPT_Self

1.3 与BERT的一个不同之处

GPT-2 是使用Transformer的Decoder 模块构建的
BERT 是使用Transformer 的Encoder 模块构建的

1.4 Transformer 模块的进化

(1) Encoder模块

原始的接受特定长度的输入---->可以填充序列的其余部分

(2) Decoder 模块

Task04 学习GPT_深度学习_02

会屏蔽未来的token

1.5 语言模型入门: 了解GPT2

Task04 学习GPT_深度学习_03

能够处理1024个token

1.6 深入理解GPT2 的更多细节

每一行都是词的embedding

Task04 学习GPT_Self_04

token embedding------>token +position-------->

Self-Attention

1.7 GPT2总结

感觉还是像天书一样[捂脸]

2 可视化 Self- Attention

Task04 学习GPT_深度学习_05

2.1 Self-Attention

3个步骤
1 为每个路径创建Query Key Value矩阵
2 对于每个输入的token , 使用它的Query 向量为所有其他的Key 向量进行打分
3 将Value向量乘以它们对应的分数后求和

2.2 图解 Masked Self_attention

2.2 GPT2 的Self-Attention

评价模型:每次处理一个token

Task04 学习GPT_自然语言处理_06

2.3 GPT2 全连接神经网络

用于处理Self Attention 层的输出, 这个输出的表示包含了合适的上下文全连接神经网络由两层组成

全连接层:

Task04 学习GPT_深度学习_07

3 语言模型之外

3.1 机器翻译

机器翻译 Encoder不是必须的

3.2 生成摘要

文章的实际开头部分用作训练数据的标签

Task04 学习GPT_语言模型_08

3.3 迁移学习

在数据量有限制时 ,一个只有Decoder的Transformer 比预训练的Encoder-Decoder Transformer 能够获得更好的结果

3.4 音乐生成

音乐建模就像语言建模一样 ,只需要让模型以无监督的方式学习音乐 ----->采样输出

4 总结

懵~~ 越发感觉到算法里图像,NLP,推荐系统，的三大方向了，每一个都是巨坑

参考

Datawhale基于transformers的自然语言处理(NLP入门)

标签：Transformer,语言,模型,Self,GPT2,Encoder,学习,GPT,Task04
From： https://blog.51cto.com/u_15796263/5923947

【集成学习（上）】My_Task06_掌握分类问题的评估及超参数调优笔记
文章目录评估模型的性能并调参:当类别为两类时,可以绘制混淆矩阵与ROC曲线评估模型的性能并调参:更详细的可以查看大佬的知乎：https://zhuanlan.zhihu.com/p......
飞机游戏六空战强化学习环境1—DBML 使用
飞机游戏六空战强化学习环境1—DBML使用目录飞机游戏六空战强化学习环境1—DBML使用一 Github地址二项目简介三下载，配置四使用一 Github地址GitHub-mrwang......
CCSP学习笔记-chap5-云运营安全
1支持数据中心设计的规划流程2设施和构建云环境中的物理基础架构3运行云环境中的物理基础架构4管理云环境中的物理基础架构5构建云环境中的逻辑基础架构6管理云......
CCSP学习笔记-chap6-法律、风险与合规
1理解云环境中的法律要求和独特风险2理解审计流程、方法论与云环境所需的调整3理解数字证据的收集和保管4理解隐私问题，包括司法管辖权的差异5理解外包和云合同设......
CCSP学习笔记-chanp4-云应用程序安全
1识别应用程序安全所需的培训和意识宣贯2理解软件研发生命周期（SDLC）流程3理解云应用程序架构的特性4实现安全软件研发生命周期5理解应用程序安全标准6理解云软件......
1.5.5 HDFS读写解析-hadoop-最全最完整的保姆级的java大数据学习资料
目录1.5.5HDFS读写解析1.5.5.1HDFS读数据流程1.5.5.2HDFS写数据流程1.5.5HDFS读写解析1.5.5.1HDFS读数据流程客户端通过DistributedFileSystem向NameNode请求下......
Vue 官方文档2.x教程学习笔记 1 基础 1.8 列表渲染 1.8.1 用 v-for 把一个数组对应为
OverridetheentrypointofanimageIntroducedinGitLabandGitLabRunner9.4.Readmoreaboutthe extendedconfigurationoptions.Beforeexplainingtheav......
How to understand prototype chain in JavaScript? ChatGPT
HowtounderstandprototypechaininJavaScript?InJavaScript,theprototypechainisamechanismthatbindstheobjectpropertiesandmethodstoparentobjec......
FreeSWITCH学习笔记：系统架构
本文更新于2022-12-09，使用FreeSWITCH1.10.7。目录目录结构命令行freeswitchfs_cli端口日志信号数据库core.dbsofia_reg_PROFILE.db接口拨号计划呼叫字符串挂机原因Channe......
Java流程控制学习
P33用户交互ScannerScanner对象之前我们学的基本语法中我们并没有实现程序和人的交互，但是Java给我们提供了这样一个工具类，我们可以获取用户的输入。java.util.Scanner......