下图来自:https://baijiahao.baidu.com/s?id=1683481435616221574&wfr=spider&for=pc
下面内容来自:https://www.cnblogs.com/databingo/p/9769928.html
注意力机制
注意力机制是一种在编码器-解码器结构中使用到的机制, 现在已经在多种任务中使用:
- 机器翻译(Neural Machine Translation, NMT)
- 图像描述(Image Captioning (translating an image to a sentence))
- 文本摘要(Summarization(translating to a more compact language))
而且也不再局限于编码器-解码器结构, 多种变体的注意力结构, 应用在各种任务中.
总的来说, 注意力机制应用在:
- 允许解码器在序列中的多个向量中, 关注它所需要的信息, 是传统的注意力机制的用法. 由于使用了编码器多步输出, 而不是使用对应步的单一定长向量, 因此保留了更多的信息.
- 作用于编码器, 解决表征问题(例如Encoding Vector再作为其他模型的输入), 一般使用自注意力(self-attention)
1. 编码器-解码器注意力机制
1.1 编码器-解码器结构
如上图, 编码器将输入嵌入为一个向量, 解码器根据这个向量得到输出. 由于这种结构一般的应用场景(机器翻译等), 其输入输出都是序列, 因此也被称为序列到序列的模型Seq2Seq.
对于编码器-解码器结构的训练, 由于这种结构处处可微, 因此模型的参数可以通过训练数据和最大似然估计得到最优解, 最大化对数似然函数以获得最优模型的参数, <br />
全局注意力
局部注意力
层级注意力
对于一个NLP问题, 在整个架构中, 使用了两个自注意力机制: 词层面和句子层面. 符
REF
https://www.zhihu.com/question/68482809/answer/264632289
https://www.jianshu.com/p/e27c15bfd970
https://www.jianshu.com/p/3968af85d3cb
https://mp.weixin.qq.com/s?__biz=MzU0NjgzMDIxMQ==&mid=2247592410&idx=2&sn=d45944d78c997d996c0947f820ab05dc&chksm=fb548b36cc230220e5a8a2713329efd6541873e021bb7bfa2cb2f4c65da4b23da70cbb9812da&scene=27
https://zhuanlan.zhihu.com/p/362366192?utm_medium=social&utm_oi=710944035610562560
标签:编码器,解码器,https,机制,com,注意力 From: https://www.cnblogs.com/emanlee/p/17133277.html