首页 > 其他分享 >注意力机制 transformer

注意力机制 transformer

时间:2024-04-06 19:44:07浏览次数:29  
标签:分数 transformer 矩阵 qkv 机制 注意力 向量

https://jalammar.github.io/illustrated-transformer/
X就是输入的向量 ,第一步就是创建三个输入向量qkv
image
第二步是计算分数:分数决定了对输入句子的其他部分的关注程度。
分数是通过查询向量与我们要评分的各个单词的键向量的点积来计算的。因此,如果我们处理位置#1中单词的自注意力,第一个分数将是q1和k1的点积。第二个分数是q1和k2的点积。
image
第三步和第四步是将分数除以 8(论文中使用的关键向量维度的平方根 – 64。这会导致梯度更稳定。这里可能还有其他可能的值,但这是默认),然后将结果传递给 softmax 运算。 Softmax 对分数进行归一化,使它们全部为正值并且加起来为 1。
image
image
image

矩阵格式

WQ、WK、WV是由训练得到的
image
自注意力层的输出是以下形式:(下面这个公式总结了上面的第二步到第六步)
image
单头注意力 经过注意力层之后会输出一个z,但是多头会输出n个z矩阵

多头注意力机制(它扩展了模型关注不同位置的能力)

注意力机制只是拿出一个qkv 而多头注意力机制是拿出了多组qkv,同时输出也是n个z矩阵。
然后再经过一个训练得到的W矩阵相乘,得到z矩阵
image
image

标签:分数,transformer,矩阵,qkv,机制,注意力,向量
From: https://www.cnblogs.com/kafukasy/p/18117815

相关文章

  • 响应式流的核心机制——背压机制
    一、响应式流是什么?响应式流旨在为无阻塞异步流处理提供一个标准。它旨在解决处理元素流的问题——如何将元素流从发布者传递到订阅者,而不需要发布者阻塞,或订阅者有无限制的缓冲区或丢弃。响应式流模型存在两种基本的实现机制。一种就是传统开发模式下的“拉”模式,即消费者主动......
  • 线程等待通知机制
    join()是等待线程结束。wait是等待线程通知,并不一定是执行结束。能更加精细的控制线程执行的顺序。在什么情况下使用线程等待通知呢?“线程饿死问题”,一个线程频繁的获取锁和释放锁,由于获取锁的速度太快,其他的线程抢不到,那么就会影响到代码的执行速度。而等待通知机制就......
  • 深入理解Java异常处理机制(day20)
    异常处理异常处理是程序运行过程产生的异常情况进行恰当的处理技术在计算机编程里面,异常的情况比所我们所想的异常情况还要多。Java里面有两种异常处理方式;1.利用try···catch···finaly语句处理异常,优点是分开了处理异常代码和程序正常代码,增强了程序的可读性,减少......
  • JVM类加载机制有哪些?
    全盘负责,当一个类加载器负责加载某个Class时,该Class所依赖的和引用的其他Class也将由该类加载器负责载入,除非显示使用另外一个类加载器来载入父类委托,先让父类加载器试图加载该类,只有在父类加载器无法加载该类时才尝试从自己的类路径中加载该类缓存机制,缓存机制将会保证所有加......
  • Spark面试整理-解释Spark中的内存管理和持久化机制
    在Apache Spark中,内存管理和持久化机制是核心特性,它们对于提高大规模数据处理的效率和性能至关重要。内存管理统一的内存管理:Spark使用统一的内存管理模型,将执行内存(用于计算如shuffle、join等)和存储内存(用于缓存数据如RDDs)合并在一起。这种模型提供了更高的灵活性和效......
  • Python程序设计 垃圾回收机制&鸭子类型
    1.简介引用计数(python默认):记录该对象当前被引用的次数,每当新的引用指向该对象时,它的引用计数ob_ref加1,每当该对象的引用失效时计数ob_ref减1,一旦对象的引用计数为0,该对象立即被回收标记清除:第一段给所有活动对象标记,第二段清除非活动对象分代回收:python将内存根据对象的存......
  • 【系统深入学习GO】Go 的并发机制-原理探究 线程实现模型
    在操作系统提供的内核线程之上,Go搭建了一个特有的两级线程模型。*两级线程模型:两级线程模型也称为多对多(M:N)的线程实现。与其他模型相比,两级线程模型提供了更求的灵活性。在此模型下,一个进程可以与多个KSE相关联,这与内核级线程模型相似。但与内核级线程模型不同的是,进程......
  • Transformer模型-Multi-Head Attention多头注意力的简明介绍
    今天介绍transformer模型的Multi-HeadAttention多头注意力。原论文计算scaleddot-productattention和multi-headattention实际整合到一起的流程为:通过之前文章,假定我们已经理解了attention;今天我们按顺序来梳理一下整合之后的顺序。重新梳理AttentionIsAllYou......
  • transformer结构-position_encoding层
    transformer结构-position_encoding层1完整代码importmathimporttorchimporttorch.nnasnnclassPositionEncoding(nn.Module):def__init__(self,d_model,dropout,max_len):"""d_model:词嵌入维度max_len:每个句子最大长度。......
  • 使用注意力机制的 LSTM 彻底改变时间序列预测
    目录一、说明二、LSTM和注意力机制简介三、为什么要将LSTM与时间序列注意力相结合?四、模型架构训练与评估五、验证六、计算指标七、结论一、说明  在时间序列预测领域,对更准确、更高效的模型的追求始终存在。深度学习的应用为该领域的重大进步铺平了道路,其中......