首页 > 其他分享 >Self-Attention和Attentiond的区别

Self-Attention和Attentiond的区别

时间:2024-03-12 21:34:20浏览次数:29  
标签:Attentiond Self Attention QKV 同源 机制 注意力

2024.3.12 Self-Attention和Attentiond的区别

注意力机制是一个很宽泛(宏大)的一个概念,QKV相乘就是注意力,但是他没有规定QKV是怎么来的

通过一个查询变量Q,去找到V里面比较重要的东西

假设K==V,然后QK相乘求相似度A,然后AV相乘得到注意力值Z,这个Z就是V的另外一种形式的表示

Q可以是任何东西,V也是任何一种东西,K往往是等同于V的(同源),K和V不同源不相等可不可以

他没有规定QKV怎么来,他只规定了QKV怎么做(注意力机制)

注意力机制

自注意力机制

自注意力机制特别狭隘,是属于注意力机制的,注意力机制包括了自注意力机制的

自注意力机制本质上QKV可以看作是相等的

对于一个词向量(不一定准确),做的是空间上的对应(一种线性表达)$k_1$,乘上了参数矩阵,依然代表了X

自注意力机制不仅规定了QKV同源,而且规定了QKV的做法(如上图那样)

交叉注意力机制

Q和V不同源,但是K和V同源

cyd注意力机制

Q和V同源,Q和K不同源

或者自己命名一种(xxx注意力机制)

如:Q必须为1,K和V不同源

标签:Attentiond,Self,Attention,QKV,同源,机制,注意力
From: https://www.cnblogs.com/adam-yyds/p/18069359

相关文章

  • Attention(注意力机制)
    2024.3.12Attention(注意力机制)##怎么做注意力我(查询对象Q),这张图(被查询对象V)如:我看这张图,第一眼,我就会去判断哪些东西对我而言更重要,哪些有更不重要(去计算Q和V里的事物的重要度)重要度计算,其实是不是就是相似度计算(更接近)Q,$K=k_1,k_2,\cdots,k_N$,(图中所有事物的一个列......
  • Augmentation-Free Self-Supervised Learning on Graphs论文阅读笔记
    Abstract我们认为,如果没有精心设计的增强技术,图上的扩充可能会任意的做出表现,因为图的底层语义会极大地变化。因此,现有的基于增强的方法的性能高度依赖于增强方案的选择,即与增强相关的超参数。在本文中,我们提出了一种新的无增强图自监督学习框架,即AFGRL。具体地说,我们发现通过与......
  • Self-attention
    输入n个向量,要输出相同个数的向量(比如,输入一个句子,输出句子中每个词的词性。每个单词转化为向量可以用one-hotvector或者wordembedding方法)如果将每个向量连一个FC(fullyconnectednetwork),会出现像Isawasaw这种情况,两个saw单词一样,所以两个FC输出结果也会一样这时,我们可以......
  • Bootstrap Your Own Latent A New Approach to Self-Supervised Learning论文阅读笔记
    BootstrapYourOwnLatentANewApproachtoSelf-SupervisedLearning论文阅读笔记Abstract​ 我们提出了BYOL,一种新的自监督图像表示学习的方法。BYOL依赖于两个神经网络,即在线网络和目标网络,它们相互作用和相互学习。从一个图像的增广视图出发,我们训练在线网络来预测同一图......
  • LLM 加速技巧:Muti Query Attention
    前言 MQA是19年提出的一种新的Attention机制,其能够在保证模型效果的同时加快decoder生成token的速度。在大语言模型时代被广泛使用,很多LLM都采用了MQA,如Falcon、PaLM、StarCoder等。本文转载自DeephubImba作者:FlorianJune仅用于学术分享,若侵权请联系删除欢迎关注......
  • LLM 加速技巧:Muti Query Attention
    MQA是19年提出的一种新的Attention机制,其能够在保证模型效果的同时加快decoder生成token的速度。在大语言模型时代被广泛使用,很多LLM都采用了MQA,如Falcon、PaLM、StarCoder等。在介绍MQA之前,我们先回顾一下传统的多头注意力Multi-HeadAttention(MHA)多头注意力是tra......
  • 基于CNN-GRU-Attention的时间序列回归预测matlab仿真
    1.算法运行效果图预览 2.算法运行软件版本matlab2022a 3.算法理论概述        CNN-GRU-Attention模型结合了卷积神经网络(CNN)、门控循环单元(GRU)和注意力机制(Attention)来进行时间序列数据的回归预测。CNN用于提取时间序列的局部特征,GRU用于捕获时间序列的长期......
  • 李宏毅2022机器学习HW4 Speaker Identification上(Dataset &Self-Attention)
    Homework4Dataset介绍及处理Datasetintroduction训练数据集metadata.json包括speakers和n_mels,前者表示每个speaker所包含的多条语音信息(每条信息有一个路径feature_path和改条信息的长度mel_len或理解为frame数即可),后者表示滤波器数量,简单理解为特征数即可,由此可知每个.pt......
  • 【李宏毅机器学习2021】(四)Self-attention
    引入Self-attention前面学到的内容输入都是一个向量,假如输入是一排向量,又应如何处理。来看下有什么例子需要将一排向量输入模型:当输入是一排向量时,输出有三种类型:输入和输出的长度一样,每一个向量对应一个label,如词性标注、音标识别、节点特性(如会不会买某件商品)。一......
  • /proc/pid/mountinfo /proc/self/mountinfo
    该文件包含有关进程的挂载名称空间中的挂载的信息(参见mount_namespaces(7))。它提供了各种信息(例如,传播状态、绑定挂载的挂载根、每个挂载及其父挂载的标识符),这些信息在(旧的)/proc/pid/挂载文件中是没有的(例如,不可扩展性、无法区分每个挂载和每个超级块选项)。 (4)root:......