Transformer 工作流程（大白话版）

时间：2024-08-02 21:25:29浏览次数：16

标签：编码器每个大白话流程 Transformer 生成解码器句子

Transformer 工作流程：通俗易懂的解释

想象一下，你在参加一个创意写作班，你和其他几位同学一起写一篇故事。老师会让每个人轮流写一段，但在写之前，你们可以参考之前同学写的内容。这有点像 Transformer 的工作流程。让我们一步步来解释。

编码器（Encoder）

1. 输入嵌入层（Input Embedding）

首先，你们每个人写的段落会被转换成一系列数字，就像把每个词变成一组独特的代码。这些代码让计算机能够理解文本内容。

2. 位置编码（Positional Encoding）

虽然每个词变成了代码，但我们还需要知道这些词在句子中的位置。所以，我们给每个词加上一些位置信息，告诉计算机哪个词在前，哪个词在后。

3. 多头自注意力机制（Multi-Head Self-Attention Mechanism）

接下来，我们要确定每个词的重要性。比如，你写了一句：“猫在沙发上睡觉。” 计算机会检查“猫”和“睡觉”的关系，看看它们之间有多重要。自注意力机制会给每对词打分，分数越高，表示它们关系越密切。多个头（Heads）同时做这件事，以便从不同角度看待词与词之间的关系。

4. 前馈神经网络（Feed-Forward Neural Network）

然后，这些信息会经过一个神经网络，就像经过一个“思考器”，它会进一步处理这些关系，提取出更有用的特征。

5. 残差连接和层规范化（Residual Connection and Layer Normalization）

为了让计算过程更加稳定，我们会加入一些捷径，让信息可以绕过某些处理步骤（残差连接），并对结果进行标准化（层规范化），确保每一步的输出都在一个合理的范围内。

编码器的每一层都会重复上述步骤，逐步提炼出更高级的特征。

解码器（Decoder）

1. 输入嵌入层和位置编码

解码器的开始部分与编码器类似，把要生成的目标句子（比如，翻译成另一种语言的句子）也转换成代码，并加上位置信息。

2. 掩码多头自注意力机制（Masked Multi-Head Self-Attention Mechanism）

在生成过程中，我们不想让当前生成的词看到未来要生成的词。所以我们使用掩码技术，确保当前词只能看到已经生成的词。就像你写作时，只能参考之前同学写的部分，不能提前看到他们接下来会写什么。

3. 多头注意力机制（Multi-Head Attention Mechanism）

解码器还会参考编码器生成的内容。就像你可以看看之前同学写的段落（编码器输出），结合自己已经写的部分（解码器输入），继续写下去。

4. 前馈神经网络、残差连接和层规范化

接下来的步骤与编码器类似，进一步处理信息，让生成的内容更加自然、流畅。

解码器的每一层也会重复这些步骤，逐步生成完整的句子。

输出层

线性变换和 Softmax
最后，解码器的输出会通过一个线性层，然后通过 Softmax 层，把结果转换成词的概率分布，最终生成一个词。就像你每次写一句话时，从一大堆可能的词中选择最合适的那个。

总结

输入序列 通过编码器处理，生成上下文表示。
解码器 使用这些上下文表示和已生成的部分句子，逐步生成完整句子。
Transformer 通过自注意力机制，高效地理解和生成自然语言，确保每个词都能与上下文紧密联系，并且能够并行处理，提高效率。

通过这些步骤，Transformer 模型能够高效、准确地理解和生成自然语言，使得机器翻译、文本生成等任务更加出色。

标签：编码器,每个,大白话,流程,Transformer,生成,解码器,句子
From： https://blog.csdn.net/qq_41312236/article/details/140880596

简要说一下关于实现整个深度学习项目的流程
我们以识别生物信号为例子，其他类似与图像、文本和目标/故障检测的同样适用1.信号预处理；首先要将得到的生物信号进去噪音去除，另外所有的生物信号由于采样时间不同可能长度并不一样，这时候你需要统一长度。2.特征工程；你需要对所有的经过预处理并且将要输入神经网络的信号提取特......
靠谱的抖音短视频 SEO 矩阵系统源码开发部署----搭建流程分享
一、需求分析在开始抖音短视频SEO矩阵系统源码的开发部署之前，首先需要明确您的业务需求和目标。例如，您希望系统具备哪些功能，是侧重于关键词优化、内容推荐还是用户行为分析等。同时，还需要考虑系统的可扩展性、稳定性以及与抖音平台的兼容性。通过多平台账号绑定、多任务创......
程序员进阶架构知识体系、开发运维工具使用、Java体系知识扩展、前后端分离流程详解、
场景作为一名开发者，势必经历过从入门到自学、从基础到进阶、从学习到强化的过程。当经历过几年企业级开发的磨炼，再回头看之前的开发过程、成长阶段发现确实是走了好多的弯路。作为一名终身学习的信奉者，秉承持续学习、持续优化的信念。不惜耗费无数个日日夜夜，耗费大量时间精力......
学习C语言的第4天--运算符与流程控制
今日目标了解各种运算符及其用法。掌握条件语句和循环语句的使用。每日练习目录今日目标运算符1.算术运算符2.关系运算符3.逻辑运算符4.位运算符5.赋值运算符6.其他运算符条件运算符（三元运算符）指针运算符逗号运算符流程控制1.条件语句if语句if-else语句......
了解自闭症寄宿学校申请流程与入学要求，为孩子选择合适的学校
当家长决定为自闭症孩子选择寄宿学校时，了解申请流程和入学要求是至关重要的一步。这不仅关系到孩子能否顺利入学，还影响着他们未来的学习和生活质量。首先，家长需要对目标学校进行充分的调研。可以通过互联网搜索、咨询其他家长或者与专业机构交流等方式，了解学校的教育理念、师......
流程控制语句结构
Java三种流程控制语句简介从结构化程序设计角度出发，一般使用顺序结构、分支结构、循环结构进行程序设计和流程控制。详细的使用方法如下。顺序结构顺序结构是程序的基本结构代码会由上而下的进行执行，中途不会出现判断或跳转。案例：publicclassProcessControl{publ......
实在RPA助力中国烟草11省40余家企业，实现多业务流程自动化
近年来，为深入贯彻行业数字化转型战略部署和发展新质生产力体制机制，诸多省市烟草公司及中烟公司大力推进烟草行业数字化转型，然而烟草行业在数字化转型过程中始终存在一个核心痛点，即数据整合的复杂性、系统间的兼容性问题，以及伴随的调用数据、处理数据的安全性问题。这就要求烟......
网络编程基本流程介绍
参照：恋恋风尘的官方博客讲解：C++asio网络编程笔记下载地址：gitee:笔记/c++/网络编程/asio网络编程基本流程网络编程的基本流程对于服务端是这样的服务端socket——创建socket对象。bind——绑定本机ip+port。listen——监听来电，若在监听到来电，则建立起连接。accept——......
Langchain——chatchat3.1版本docker部署流程Langchain-Chatchat
Langchain——chatchat3.1版本docker部署流程Langchain-Chatchat1.项目地址#项目地址https://github.com/chatchat-space/Langchain-Chatchat#dockerhub地址https://hub.docker.com/r/chatimage/chatchat/tags2.docker部署参考官方文档#官方文档https://github.com/......
Java流程控制语句结构中的循环结构
循环结构目录循环结构while循环do...while循环for循环如果您想要同样的操作执行多次，就需要使用循环结构。Java中有三种主要的循环结构：while循环do…while循环for循环while循环while是最基本的循环，它的结构为：while(布尔表达式){//循环内容}只要布尔表达式......