首页 > 其他分享 >Masked Self-Attention(掩码自注意力机制)

Masked Self-Attention(掩码自注意力机制)

时间:2024-03-13 21:48:51浏览次数:29  
标签:attention Self Attention 生成 单词 掩码 dream 注意力

2024.3.13 Masked Self-Attention(掩码自注意力机制)

自注意力机制

自注意力机制计算单词相似度时,已经明确知道这句话有多少个单词,而掩码则是分批次给,最后一次给全

为什么要做这个改进:生成模型,生成单词,是一个个生成的

当我们做生成任务的是时候,我们也想对生成的这个单词做注意力计算,但是,生成的句子是一个一个单词生成的

掩码自注意力机制

例如:I have a dream

  1. I
  2. I have
  3. I have a
  4. I have a dream
  5. I have a dream 为结束符

详细来说:

  1. "i" 作为第一个单词,只能有和 "i" 自己的 attention;
  2. "have" 作为第二个单词,有和 "i、have" 前面两个单词的 attention;
  3. "a" 作为第三个单词,有和 "i、have、a" 前面三个单词的 attention;
  4. "dream" 作为最后一个单词,才有对整个句子 4 个单词的 attention。

并且在做完 softmax 之后,横轴结果合为 1。如下图所示:

标签:attention,Self,Attention,生成,单词,掩码,dream,注意力
From: https://www.cnblogs.com/adam-yyds/p/18071588

相关文章

  • Self-Attention相比较RNN和LSTM的优缺点
    2024.3.13Self-AttentionSelf-Attention相比较RNN和LSTM的优缺点RNN基本单元结构无法做长序列,当一段话达到50个字,效果就很差了复杂度为n的平方$X_0$往后面越传播,信息越少(如你爷爷的爷爷的爷爷的名字)LSTM基本结构LSTM通过各种门,遗忘门,选择性的可以记忆之前的信息(200词)Se......
  • Be Your Own Teacher: Improve thePerformance of Convolutional Neural Networks via
    摘要本文中,提出了一种名为自蒸馏的通用训练框架,该框架通过缩小网络的规模而不是扩大网络的规模,而提高卷积神经网络的性能。传统的知识蒸馏是一种网络之间的知识转换方法,它迫使学生神经网络接近预先训练的教师神经网络的softmax层输出,与此不同,所提出的自蒸馏框架提取网络......
  • Self-Attention和Attentiond的区别
    2024.3.12Self-Attention和Attentiond的区别注意力机制是一个很宽泛(宏大)的一个概念,QKV相乘就是注意力,但是他没有规定QKV是怎么来的通过一个查询变量Q,去找到V里面比较重要的东西假设K==V,然后QK相乘求相似度A,然后AV相乘得到注意力值Z,这个Z就是V的另外一种形式的表示Q可以是任何......
  • Attention(注意力机制)
    2024.3.12Attention(注意力机制)##怎么做注意力我(查询对象Q),这张图(被查询对象V)如:我看这张图,第一眼,我就会去判断哪些东西对我而言更重要,哪些有更不重要(去计算Q和V里的事物的重要度)重要度计算,其实是不是就是相似度计算(更接近)Q,$K=k_1,k_2,\cdots,k_N$,(图中所有事物的一个列......
  • Augmentation-Free Self-Supervised Learning on Graphs论文阅读笔记
    Abstract我们认为,如果没有精心设计的增强技术,图上的扩充可能会任意的做出表现,因为图的底层语义会极大地变化。因此,现有的基于增强的方法的性能高度依赖于增强方案的选择,即与增强相关的超参数。在本文中,我们提出了一种新的无增强图自监督学习框架,即AFGRL。具体地说,我们发现通过与......
  • Self-attention
    输入n个向量,要输出相同个数的向量(比如,输入一个句子,输出句子中每个词的词性。每个单词转化为向量可以用one-hotvector或者wordembedding方法)如果将每个向量连一个FC(fullyconnectednetwork),会出现像Isawasaw这种情况,两个saw单词一样,所以两个FC输出结果也会一样这时,我们可以......
  • Bootstrap Your Own Latent A New Approach to Self-Supervised Learning论文阅读笔记
    BootstrapYourOwnLatentANewApproachtoSelf-SupervisedLearning论文阅读笔记Abstract​ 我们提出了BYOL,一种新的自监督图像表示学习的方法。BYOL依赖于两个神经网络,即在线网络和目标网络,它们相互作用和相互学习。从一个图像的增广视图出发,我们训练在线网络来预测同一图......
  • LLM 加速技巧:Muti Query Attention
    前言 MQA是19年提出的一种新的Attention机制,其能够在保证模型效果的同时加快decoder生成token的速度。在大语言模型时代被广泛使用,很多LLM都采用了MQA,如Falcon、PaLM、StarCoder等。本文转载自DeephubImba作者:FlorianJune仅用于学术分享,若侵权请联系删除欢迎关注......
  • LLM 加速技巧:Muti Query Attention
    MQA是19年提出的一种新的Attention机制,其能够在保证模型效果的同时加快decoder生成token的速度。在大语言模型时代被广泛使用,很多LLM都采用了MQA,如Falcon、PaLM、StarCoder等。在介绍MQA之前,我们先回顾一下传统的多头注意力Multi-HeadAttention(MHA)多头注意力是tra......
  • 基于CNN-GRU-Attention的时间序列回归预测matlab仿真
    1.算法运行效果图预览 2.算法运行软件版本matlab2022a 3.算法理论概述        CNN-GRU-Attention模型结合了卷积神经网络(CNN)、门控循环单元(GRU)和注意力机制(Attention)来进行时间序列数据的回归预测。CNN用于提取时间序列的局部特征,GRU用于捕获时间序列的长期......