2024.3.13 Masked Self-Attention(掩码自注意力机制)

自注意力机制

自注意力机制计算单词相似度时，已经明确知道这句话有多少个单词，而掩码则是分批次给，最后一次给全

为什么要做这个改进：生成模型，生成单词，是一个个生成的

当我们做生成任务的是时候，我们也想对生成的这个单词做注意力计算，但是，生成的句子是一个一个单词生成的

掩码自注意力机制

例如：I have a dream

I
I have
I have a
I have a dream
I have a dream 为结束符

详细来说：

"i" 作为第一个单词，只能有和 "i" 自己的 attention；
"have" 作为第二个单词，有和 "i、have" 前面两个单词的 attention；
"a" 作为第三个单词，有和 "i、have、a" 前面三个单词的 attention；
"dream" 作为最后一个单词，才有对整个句子 4 个单词的 attention。

并且在做完 softmax 之后，横轴结果合为 1。如下图所示：

标签：attention,Self,Attention,生成,单词,掩码,dream,注意力
From： https://www.cnblogs.com/adam-yyds/p/18071588

Self-Attention相比较RNN和LSTM的优缺点
2024.3.13Self-AttentionSelf-Attention相比较RNN和LSTM的优缺点RNN基本单元结构无法做长序列，当一段话达到50个字，效果就很差了复杂度为n的平方$X_0$往后面越传播，信息越少（如你爷爷的爷爷的爷爷的名字）LSTM基本结构LSTM通过各种门，遗忘门，选择性的可以记忆之前的信息（200词）Se......
Be Your Own Teacher: Improve thePerformance of Convolutional Neural Networks via
摘要本文中，提出了一种名为自蒸馏的通用训练框架，该框架通过缩小网络的规模而不是扩大网络的规模，而提高卷积神经网络的性能。传统的知识蒸馏是一种网络之间的知识转换方法，它迫使学生神经网络接近预先训练的教师神经网络的softmax层输出，与此不同，所提出的自蒸馏框架提取网络......
Self-Attention和Attentiond的区别
2024.3.12Self-Attention和Attentiond的区别注意力机制是一个很宽泛（宏大）的一个概念，QKV相乘就是注意力，但是他没有规定QKV是怎么来的通过一个查询变量Q，去找到V里面比较重要的东西假设K==V，然后QK相乘求相似度A，然后AV相乘得到注意力值Z，这个Z就是V的另外一种形式的表示Q可以是任何......
Attention(注意力机制)
2024.3.12Attention(注意力机制)##怎么做注意力我（查询对象Q)，这张图（被查询对象V）如：我看这张图，第一眼，我就会去判断哪些东西对我而言更重要，哪些有更不重要（去计算Q和V里的事物的重要度）重要度计算，其实是不是就是相似度计算（更接近）Q，$K=k_1,k_2,\cdots,k_N$,（图中所有事物的一个列......
Augmentation-Free Self-Supervised Learning on Graphs论文阅读笔记
Abstract我们认为，如果没有精心设计的增强技术，图上的扩充可能会任意的做出表现，因为图的底层语义会极大地变化。因此，现有的基于增强的方法的性能高度依赖于增强方案的选择，即与增强相关的超参数。在本文中，我们提出了一种新的无增强图自监督学习框架，即AFGRL。具体地说，我们发现通过与......
Self-attention
输入n个向量，要输出相同个数的向量（比如，输入一个句子，输出句子中每个词的词性。每个单词转化为向量可以用one-hotvector或者wordembedding方法）如果将每个向量连一个FC（fullyconnectednetwork），会出现像Isawasaw这种情况，两个saw单词一样，所以两个FC输出结果也会一样这时，我们可以......
Bootstrap Your Own Latent A New Approach to Self-Supervised Learning论文阅读笔记
BootstrapYourOwnLatentANewApproachtoSelf-SupervisedLearning论文阅读笔记Abstract 我们提出了BYOL，一种新的自监督图像表示学习的方法。BYOL依赖于两个神经网络，即在线网络和目标网络，它们相互作用和相互学习。从一个图像的增广视图出发，我们训练在线网络来预测同一图......
LLM 加速技巧：Muti Query Attention
前言 MQA是19年提出的一种新的Attention机制，其能够在保证模型效果的同时加快decoder生成token的速度。在大语言模型时代被广泛使用，很多LLM都采用了MQA，如Falcon、PaLM、StarCoder等。本文转载自DeephubImba作者：FlorianJune仅用于学术分享，若侵权请联系删除欢迎关注......
LLM 加速技巧：Muti Query Attention
MQA是19年提出的一种新的Attention机制，其能够在保证模型效果的同时加快decoder生成token的速度。在大语言模型时代被广泛使用，很多LLM都采用了MQA，如Falcon、PaLM、StarCoder等。在介绍MQA之前，我们先回顾一下传统的多头注意力Multi-HeadAttention(MHA)多头注意力是tra......
基于CNN-GRU-Attention的时间序列回归预测matlab仿真
1.算法运行效果图预览 2.算法运行软件版本matlab2022a 3.算法理论概述 CNN-GRU-Attention模型结合了卷积神经网络（CNN）、门控循环单元（GRU）和注意力机制（Attention）来进行时间序列数据的回归预测。CNN用于提取时间序列的局部特征，GRU用于捕获时间序列的长期......

Masked Self-Attention(掩码自注意力机制)

2024.3.13 Masked Self-Attention(掩码自注意力机制)

自注意力机制

掩码自注意力机制

相关文章

赞助商

阅读排行