seq2seq中的注意力机制

时间：2023-04-12 17:46:18浏览次数：43

seq2seq中的注意力机制解决了长期梯度消失的问题，LSTM只解决了一部分长短期问题。

transformer中采用的自注意力机制多少借鉴该方法，其最核心的公式如下图所示。

Attention机制详解（一）——Seq2Seq中的Attention - 知乎 (zhihu.com)

Q、K、V分别代表询问、键值以及数据值，本质就是根据输入的x分配权值，关注更有意义的部分。Q、K、V其实都是从同样的输入矩阵X线性变换而来的。我们可以简单理解成：

$Q = XW^Q \\ K = XW^K \\ V = XW^V \\$

在这张图中， $Q$ 与 $K^\top$ 经过MatMul，生成了相似度矩阵。对相似度矩阵每个元素除以 $\sqrt{d_k}$ ， $d_k$ 为 $K$ 的维度大小。这个除法被称为Scale。当 $d_k$ 很大时， $QK^\top$ 的乘法结果方差变大，进行Scale可以使方差变小，训练时梯度更新更稳定。方差过大容易导致softmax结果非0及1，梯度更新后会造成结果振荡，不利于梯度稳定更新。

此外，为了便于理解，提供了seq2seq的pytorch实现。

PyTorch实现Seq2Seq机器翻译 - 那少年和狗 - 博客园 (cnblogs.com)

seq2seq的基本架构如图所示，可以通过输入不定长的序列，输出不定长的序列。Seq2Seq在训练阶段和预测阶段稍有差异。如果Decoder第一个预测预测的输出就错了，它会导致“蝴蝶效应“，影响后面全部内容。为了解决这个问题，在训练时，Decoder每个时间步的输入不全是上一个时间步的输出，而以一定的概率选择真实值作为输入。

标签：梯度,Seq2Seq,seq2seq,机制,注意力,输入
From： https://www.cnblogs.com/xmds/p/17310576.html

jwt验证机制
jwt数据结构为1.header头:{"type":"JWT"}2.payload:有效载荷3.signature签名防止篡改服务器和客户端jwt交互过程服务器给出token的时候：1.前提：账号密码验证通过得到用户信息或者其他信息(过期时间等)往header或者payload里面塞2. base64urlEncode(header)+"."+base64......
java事件处理机制
事件源可以是一个键可以是一个鼠标可以是一个按钮.....发生了就是事件源事件就是事件的对象，当事件源发生了就会有事件对象（事件对象就会传递给事件监听者）事件监听者接受刀事件对象了之后会进行事件处理方法 ......
PCIe扫盲——中断机制介绍（INTx）
一个简单的PCI总线INTx中断实现流程，如下图所示。1. 首先，PCI设备通过INTx边带信号产生中断请求，经过中断控制器（InterruptController，PIC）后，转换为INTR信号，并直接发送至CPU；2. CPU收到INTR信号置位后，意识到了中断请求的发生，但是此时并不知道是什么中断请求。于是通过......
58、K8S-监控机制-Prometheus-自定义metrics
Kubernetes学习目录1、安装python环境1.1、下载python软件wgethttps://www.python.org/ftp/python/3.9.16/Python-3.9.16.tgz1.2、安装依赖包yuminstallgccgcc-c++glibc-develglibczlib-develzlibopenssl-developensslsqlite-develreadline-develbzip2-devel......
加载中，三点循环机制
<!DOCTYPEhtml><htmllang="en"><head><metacharset="UTF-8"><title>加载动画</title></head><style>.dotting{margin:20%auto;width:150px;}.dotting{margi......
WiredTiger的日志和检查点机制
1.日志·对于每个写操作，mongodb将改变写入日志文件，即事务日志文件。写入的频率收到storage.journal.commitIntervalMs参数的控制。默认是100毫秒，可取值的范围是1--500毫秒。·WT缓存中的页数据也会被标记为脏数据日志文件的格式示例：$wtprintlog-u-x{"lsn":[15,256],......
消息队列kafka及zookeeper机制
一、zookeeper1、zookeeper简介Zookeeper：开源分布式的服务，为分布式框架提供协调服务的apache项目2、zookeeper特点①、zookper是一个领导者，多个跟随着组成②、集群中有半数以上节点存活，集群正常服务，奇数台最小3台③、全局数据一致，每个server保存一份相同的数据副本，client无论连......
57、K8S-监控机制-Prometheus-PromQL基础-运算符、聚合、功能函数
Kubernetes学习目录1、数据基础1.1、时间序列1.1.1、介绍时间序列数据：按照时间顺序记录系统、设备状态变化的数据，每个数据称为一个样本；数据采集以特定的时间周期进行，因而，随着时间流逝，将这些样本数据记录下来，将生成一个离散的样本数据序列；该序列也称为向量（Vector）；而将多个序......
Java基础之RMI与JDNI机制
一、RMI1.1概念RMI是用Java在JDK1.2中实现的，它大大增强了Java开发分布式应用的能力，Java本身对RMI规范的实现默认使用的是JRMP协议。而在Weblogic中对RMI规范的实现使用T3协议JRMP：JavaRemoteMessageProtocol，Java远程消息交换协议。这是运行在JavaRMI之下、TCP/IP之上的线路......
spring中的扫描机制
背景项目中出现，一个bean在@ComponentScan注解的包下面却没有被扫描，并创建为bean的bug。所以需要了解spring的扫描机制。原因以及源码位置当项目里面有resources/META-INF/spring.components文件的时候，spring进入这个if判断if(this.componentsIndex!=null&&indexSupp......

seq2seq中的注意力机制

相关文章

赞助商

阅读排行