首页 > 其他分享 >NLP原理系列1-说清楚transformer原理

NLP原理系列1-说清楚transformer原理

时间:2023-08-30 09:44:05浏览次数:38  
标签:NLP transformer val Outputs key decoder 原理 推理

NLP原理系列1-说清楚transformer原理

来用思维导图和截图描述。

  思维导图的本质是 变化(解决问题)-> 更好的, 或者复杂问题拆分为小问题 以及拆分的思路。

 

参考链接:李宏毅 transformer原理。

 

一 tansformer的推理及训练过程

1 tf 训练过程

红框部分是 训练得grandtruth,正确答案。

decoder的上面输出部分是 推理结果。 采用了一些teach model

 

2 tf 推理过程

假如我们的场景是问答,问题是“中国的首都是哪里?”
推理阶段最开始,左侧Input就是这个问题,右下Outputs就是起始符,Inputs和Outputs共同进行前向传播,它们会在中间蓝笔红笔那部分完成汇合,然后到右上侧推理出“北”(如果模型效果尚可,确实能正确推理出“北京”的话),“北”作为本步推理结果,就会被送入Outputs拼在起始符后方,然后Inputs和带有“北”的Outputs又共同前向传播,又再汇合推理出“京”…大抵是这么一个往复的过程

 

推理优化过程

紫色部分只执行一次,如果计算出来的红圈部分保存的话。 红圈部分是 key 和value, 篮圈是query。

如描述的推理过程, 推理到 “北”字后,只有那个"北"的 logist 回来到红框 位置生成新的query,与原来的key和value汇合。

绿色部分是一个 decoder block块

 

我们构造一个较复杂多层模型

 保存任何一组key和val即可。

 

截图为decoder的单层结构图,也是GPT的简化图。 12x即重复12层block。

 

GPT全部是decoder block 也是会计算key val所以也可以保存起来, 那么每一层得 key-val都是新的,所以实际是保存了12组 key-val。 (从代码中读到, 可以再次确认)

 

标签:NLP,transformer,val,Outputs,key,decoder,原理,推理
From: https://www.cnblogs.com/lx63blog/p/17664464.html

相关文章

  • 进程调度的原理和算法探析
    进程的调度进程的调度是由操作系统完成的,其目的是为了在一个进程占用CPU执行自己的操作后,选择下一个进程来占用CPU。调度发生的原因很简单,每个进程都希望能够占用CPU进行工作。因此,调度程序会进行上下文切换,并选择一个进程来执行其功能。那么,什么时候进行调度呢?调度的原则又是什......
  • 操作系统执行程序原理
    数根据毕达哥拉斯学派的宗旨——万物皆数,那么一切数据(信息)都可以用数来表示,而数又可以转换为二进制数(莱布尼茨在改造帕斯卡的加法器时,提出的二进制概念)。布尔代数GeorgeBoole的布尔代数,则可以将算术运算转换为逻辑运算,人们根据逻辑运算的规律来组建电路,于是电路就可以实现布尔......
  • 文本标注技术方案(NLP标注工具)
    Doccanodoccano是一个面向人类的开源文本注释工具。它为文本分类、序列标记和序列到序列任务提供注释功能。您可以创建用于情感分析、命名实体识别、文本摘要等的标记数据。只需创建一个项目,上传数据,然后开始注释。您可以在数小时内构建数据集。支持命名实体识别,情感分类,机器......
  • 国密算法SM2的优势、原理和应用场景
    在数字化时代,信息安全成为关注的焦点。密码算法是信息安全的核心,而国密算法SM2是一种国产密码算法,已经广泛应用于电子认证、电子签名、数据加密等领域。本文将深入介绍SM2算法的优势、原理和应用场景,并探讨如何利用FuncGPT(慧函数)生成的SM2库构建安全的应用程序。 一、国密算法S......
  • 装饰器 原理
    #装饰器是用来装饰方法的,其作用就是在原函数的基础上,扩展功能。#之所以要采用装饰器,是因为开放封闭原则,对修改封闭,对扩展开放。也就是说,新功能的添加不能修改旧代码的执行逻辑和调用方式importtimedeffunc1(n=1):print(f"runstart")time.sleep(n)print(f"r......
  • 原来笔记本一直插着电源使用比较好 工作原理3张图秒懂
    热搜内容提到:原来笔记本一直插着电源使用比较好!笔记本电脑在充满电后使用,电源适配器将继续为电脑供电,而充满电的内置电池则不会继续工作,并不会出现一边充电、一边放电的情况。据了解,笔记本电脑里的锂电池没有记忆效应,而且正规厂家生产的锂电池都有相当完善的BMS(电池管理系统),......
  • transformer怎么学习
    Transformer、MLP、CNN、RNN的区别在于特征的交互方式不一样~自从Transformer以及BETR出来以后,便开始在NLP领域一统江湖。随着这几年的发展,在各种视觉基准数据集上,VisionTransformer已经逐步替代掉了以往的CNN结构,并且整体架构更加简单。近期,基于Transformer的多模态大模型以及AI......
  • FPGA芯片结构介绍及工作原理解析
     FPGA工作原理与简介  如前所述,FPGA是在PAL、GAL、EPLD、CPLD等可编程器件的基础上进一步发展的产物。它是作为ASIC领域中的一种半定制电路而出现的,即解决了定制电路的不足,又克服了原有可编程器件门电路有限的缺点。  由于FPGA需要被反复烧写,它实现组合逻辑的基本结构不......
  • 08 IPv4地址协议以及网络层工作原理
    IP地址表示一个IPv4地址有32bit。一个IPv4地址有32bit。IP构成网络部分:用来标识一个网络,IP地址不能反映任何有关主机位置的地理信息,只能通过网络号码字段判断出主机属于哪个网络,IP地址不能反映任何有关主机位置的地理信息,只能通过网络号码字段判断出主机属于哪个网络......
  • SpringBoot - 原理
    目录配置文件优先级配置文件优先级虽然springboot支持多种格式配置文件,但是在项目开发时,推荐统一使用一种格式的配置(yml是主流)IDEA配置系统属性和命令行参数:命令行参数>系统属性总体优先级:命令行参数优先级>系统属性>application.properties>application.y......