机器学习——Bahdanau 注意力

时间：2023-11-16 13:34:26浏览次数：34

9.7节中探讨了机器翻译问题：通过设计一个基于两个循环神经网络的编码器-解码器架构，用于序列到序列学习。具体来说，循环神经网络编码器将长度可变的序列转换为固定形状的上下文变量，然后循环神经网络解码器根据生成的词元和上下文变量按词元生成输出（目标）序列词元。然而，即使并非所有输入（源）词元都对解码某个词元都有用，在每个解码步骤中仍使用编码相同的上下文变量。有什么方法能改变上下文变量呢？

Bahdanau等人提出了一个没有严格单向对齐限制的可微注意力模型 (Bahdanau et al., 2014)。在预测词元时，如果不是所有输入词元都相关，模型将仅对齐（或参与）输入序列中与当前预测相关的部分。这是通过将上下文变量视为注意力集中的输出来实现的。

模型

总结

在预测词元时，如果不是所有输入词元都是相关的，那么具有Bahdanau注意力的循环神经网络编码器-解码器会有选择地统计输入序列的不同部分。这是通过将上下文变量视为加性注意力池化的输出来实现的。
在循环神经网络编码器-解码器中，Bahdanau注意力将上一时间步的解码器隐状态视为查询，在所有时间步的编码器隐状态同时视为键和值。

标签：编码器,机器,词元,解码器,Bahdanau,上下文,注意力
From： https://www.cnblogs.com/yccy/p/17836008.html

机器学习——注意力评分函数
10.2节使用了高斯核来对查询和键之间的关系建模。 (10.2.6)中的高斯核指数部分可以视为注意力评分函数（attentionscoringfunction），简称评分函数（scoringfunction），然后把这个函数的输出结果输入到softmax函数中进行运算。通过上述步骤，将得到与键对应的值的概率分布（即注意力权重......
python机器学习算法原理实现——MCMC算法之gibbs采样
【算法原理】Gibbs采样是一种用于估计多元分布的联合概率分布的方法。在MCNC（Markov Chain Monte Carlo）中，Gibbs采样是一种常用的方法。通俗理解Gibbs采样，可以想象你在一个多维空间中，你需要找到这个空间的某个特定区域（这个区域代表了你感兴趣的分布）。但是，你不能直接看到整个空间，只......
机器学习算法原理实现——HMM生成序列和维特比算法
【HMM基本概念】隐马尔可夫模型（Hidden Markov Model，HMM）是一种统计模型，用于描述一个含有未知参数（隐状态）的马尔可夫过程。在HMM中，我们不能直接观察到状态，但可以观察到每个状态产生的一些相关数据（观测值）。HMM的目标是，给定观测序列，估计出最可能的状态序列。HMM的基本假设有两个（见例子......
机器学习算法原理实现——EM算法
【EM算法简介】EM算法，全称为期望最大化算法（Expectation-Maximization Algorithm），是一种迭代优化算法，主要用于含有隐变量的概率模型参数的估计。EM算法的基本思想是：如果给定模型的参数，那么可以根据模型计算出隐变量的期望值；反过来，如果给定隐变量的值，那么可以通过最大化似然函数来估......
机器学习算法原理实现——朴素贝叶斯
【先说条件概率】条件概率是指在某个事件发生的条件下，另一个事件发生的概率。以下是一个实际的例子：假设你有一副扑克牌（不包括大小王，共52张牌），你随机抽一张牌。我们设事件A为"抽到的牌是红色的"（红心和方块为红色，共26张），事件B为"抽到的牌是心"（红心共13张）。1.首先，我们可以计算事件A和事......
机器学习算法原理实现——最大熵模型
【写在前面】在sklearn库中，没有直接称为"最大熵模型"的类，但是有一个与之非常相似的模型，那就是LogisticRegression。逻辑回归模型可以被视为最大熵模型的一个特例，当问题是二分类问题，且特征函数是输入和输出的线性函数时，最大熵模型就等价于逻辑回归模型。【最大熵模型的原理】最大熵......
机器学习——注意力汇聚：Nadaraya-Watson 核回归
上节介绍了框架下的注意力机制的主要成分图10.1.3：查询（自主提示）和键（非自主提示）之间的交互形成了注意力汇聚；注意力汇聚有选择地聚合了值（感官输入）以生成最终的输出。本节将介绍注意力汇聚的更多细节，以便从宏观上了解注意力机制在实践中的运作方式。具体来说，1964年提出的Nadara......
机器学习-小样本情况下如何机器学习
交叉验证是在机器学习建立模型和验证模型参数时常用的办法。交叉验证，顾名思义，就是重复的使用数据，把得到的样本数据进行切分，组合为不同的训练集和测试集，用训练集来训练模型，用测试集来评估模型预测的好坏。在此基础上可以得到多组不同的训练集和测试集，某次训练集中的某样本在下次可......
【数字识别】基于机器视觉的字符识别语言播报附附Matlab代码
✅作者简介：热爱科研的Matlab仿真开发者，修心和技术同步精进，代码获取、论文复现及科研仿真合作可私信。......
【路径规划】基于动态窗口法DWA算法的机器人动态避障路径规划研究附Matlab代码
✅作者简介：热爱科研的Matlab仿真开发者，修心和技术同步精进，代码获取、论文复现及科研仿真合作可私信。......

机器学习——Bahdanau 注意力

相关文章

赞助商

阅读排行