首页 > 其他分享 >注意力机制 (2)

注意力机制 (2)

时间:2023-02-19 10:55:05浏览次数:31  
标签:编码器 解码器 https 机制 com 注意力


 

 

下图来自:https://baijiahao.baidu.com/s?id=1683481435616221574&wfr=spider&for=pc

 

 

 

下面内容来自:https://www.cnblogs.com/databingo/p/9769928.html

 

注意力机制

注意力机制是一种在编码器-解码器结构中使用到的机制, 现在已经在多种任务中使用:

  • 机器翻译(Neural Machine Translation, NMT)
  • 图像描述(Image Captioning (translating an image to a sentence))
  • 文本摘要(Summarization(translating to a more compact language))

而且也不再局限于编码器-解码器结构, 多种变体的注意力结构, 应用在各种任务中.

总的来说, 注意力机制应用在:

  • 允许解码器在序列中的多个向量中, 关注它所需要的信息, 是传统的注意力机制的用法. 由于使用了编码器多步输出, 而不是使用对应步的单一定长向量, 因此保留了更多的信息.
  • 作用于编码器, 解决表征问题(例如Encoding Vector再作为其他模型的输入), 一般使用自注意力(self-attention)

1. 编码器-解码器注意力机制

1.1 编码器-解码器结构

如上图, 编码器将输入嵌入为一个向量, 解码器根据这个向量得到输出. 由于这种结构一般的应用场景(机器翻译等), 其输入输出都是序列, 因此也被称为序列到序列的模型Seq2Seq.

对于编码器-解码器结构的训练, 由于这种结构处处可微, 因此模型的参数可以通过训练数据和最大似然估计得到最优解, 最大化对数似然函数以获得最优模型的参数, <br />

 

全局注意力

 

 

局部注意力

 

 

层级注意力

对于一个NLP问题, 在整个架构中, 使用了两个自注意力机制: 词层面句子层面. 符

 

 

 


 REF

https://www.zhihu.com/question/68482809/answer/264632289

https://www.jianshu.com/p/e27c15bfd970

https://www.jianshu.com/p/3968af85d3cb

https://mp.weixin.qq.com/s?__biz=MzU0NjgzMDIxMQ==&mid=2247592410&idx=2&sn=d45944d78c997d996c0947f820ab05dc&chksm=fb548b36cc230220e5a8a2713329efd6541873e021bb7bfa2cb2f4c65da4b23da70cbb9812da&scene=27

https://zhuanlan.zhihu.com/p/362366192?utm_medium=social&utm_oi=710944035610562560

 

标签:编码器,解码器,https,机制,com,注意力
From: https://www.cnblogs.com/emanlee/p/17133277.html

相关文章

  • python存储机制||垃圾回收机制||分代回收
    关于python的存储问题(1)由于python中万物皆对象,所以python的存储问题是对象的存储问题,并且对于每个对象,python会分配一块内存空间去存储它(2)对于整数和短小的字符等,python......
  • 注意力机制(3)
    链接:https://www.zhihu.com/question/68482809/answer/264632289 作者:张俊林深度学习中的注意力机制从本质上讲和人类的选择性视觉注意力机制类似,核心目标也是从众多信......
  • self-attention自注意力机制 2
    https://blog.csdn.net/Michale_L/article/details/126549946 三、Self-Attention详解针对输入是一组向量,输出也是一组向量,输入长度为N(N可变化)的向量,输出同样为长度为N......
  • 一文看尽深度学习中的各种注意力机制
    前言 本文以通俗易懂的方式,介绍注意力机制的系列变形方法。 本文转载自CVHub作者|派派星 欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、......
  • GAN中对生成器和判别器更新机制的理解
    首先是这2个网络是交替迭代训练。可以是1:1迭代即D_update_ratio==1,那么G和D之间是1:1的方式进行参数更新若D_update_ratio==2,那么首先更新两次D再更新一次G更新G的时候......
  • mysql锁机制以及优化
    锁分类从性能上划分乐观锁适合读多的场景悲观锁适合写多的场景从操作粒度划分表锁一般用作数据迁移、开销小加锁快手动加表锁locktable表名称read(write),表......
  • 【操作系统】操作系统IO技术底层机制和ZeroCopy
    1.DMA技术详解(1)应用程序从磁盘读写数据的时序图(未用DMA技术前)(2)什么是DMA技术(DirectMemoryAccess)直接内存访问,直接内存访问是计算机科学中的一种内存访问技术。DMA之......
  • 注意力机制
    注意力机制 注意力机制在NLP领域十分火热,克服了以往seq2seq翻译定位不准的问题,加强了词的前后联系,能够根据当前的语境,合理分配候选词的权重,提升翻译的准确率。注意力机......
  • Attention注意力机制与self-attention自注意力机制
    Self-Attention(自注意力) 注意力机制在NLP领域十分火热,克服了以往seq2seq翻译定位不准的问题,加强了词的前后联系,能够根据当前的语境,合理分配候选词的权重,提升翻译的准确......
  • 浏览器渲染机制
    1.浏览器如何渲染网页概述:浏览器渲染一共有五步处理HTML并构建DOM树。处理CSS构建CSSOM树。将DOM与CSSOM合并成一个渲染树。根据渲染树来布局,计算每个......