首页 > 其他分享 >Attention(注意力机制)

Attention(注意力机制)

时间:2024-03-12 17:13:45浏览次数:29  
标签:重要 哪些 Attention cdots 相似 机制 注意力

2024.3.12 Attention(注意力机制)

 ## 怎么做注意力

我(查询对象Q),这张图(被查询对象V)

如:我看这张图,第一眼,我就会去判断哪些东西对我而言更重要,哪些有更不重要(去计算Q和V里的事物的重要度)

重要度计算,其实是不是就是相似度计算(更接近)

Q,$K =k_1,k_2,\cdots,k_N$,(图中所有事物的一个列表)我们一般使用点乘的方式——>求内积

通过点乘的方法计算Q和K里的每一个事物的相似度,就可以拿到Q和$k_1$的相似值$s_1$,Q和$k_2$的相似值$s_2$,Q和$k_n$的相似值$s_n$

做一层$softmax(a_1,a_2,\cdots,a_n)$就可以得到概率$(a_1,a_2,\cdots,a_n)$

image-20240312113412501

为什么要除以$\sqrt{d_k}$:$d_k$一般是头数(如词向量维度为8)

减少数据之间的差距(例如:80,20--->0.8,0.2 80/8,20/8------>10,2.5------>0.1,0.025

softmax:不再唯一的确定某一个最大值,而是为每个输出分类的结果都赋予一个概率值,表示属于每个类别的可能性。

进而就可以找出哪个对Q而言更重要了

最终我们还得进行一个汇总,当使用Q查询结束了后,Q已经失去了它的使用价值,我们最终还是要拿到这张图片,只不过现在的这张图片多了一些信息(对我而言重要的和不重要的信息)

接下来

$(a_1,a_2,\cdots,a_n)(v_1,v_2,\cdots,v_n)=(a_1v_1,a_2v_2,\cdots,a_nv_n)$

针对计算出来的权重$a_i$ ,对 V中的所有 values 进行加权求和计算,得到 Attention 向量:

image-20240312113300585

一般K=V,在tranformer里,K!=V是可以的,但是K和V之间一定具有某种联系,这样的QK点乘才能指导V哪些不重要,哪些重要

标签:重要,哪些,Attention,cdots,相似,机制,注意力
From: https://www.cnblogs.com/adam-yyds/p/18068741

相关文章

  • 保护模式:段机制
     一、段机制  内存是计算机系统的关键资源,程序必须被加载到内存中才可以被CPU所执行。程序运行过程中,也要使用内存来记录数据和动态的信息。在一个多任务的系统中,每个任务都需要使用内存资源,因此系统需要有一套机制来隔离不同任务所使用的内存,要使这种隔离即安全又高效,那么硬......
  • 权限概念、权限提升概念以及权限提升的分类和目的 Windows 提权的基础原理是了解操作
    关于权限概念、权限提升概念以及权限提升的分类和目的,以下是一些基本信息供您参考:权限概念:权限是指系统或应用程序授予用户或进程执行某些操作或访问资源的能力。权限通常按照用户的身份、角色或组织结构来管理,以确保系统安全和数据保护。权限提升概念:权限提升是指用......
  • 图数据库基准测试 LDBC SNB 系列讲解:Schema 和数据生成的机制
    LDBC(LinkedDataBenchmarkCouncil)SocialNetworkBenchmark,简称LDBCSNB,是一种针对社交网络场景的评估图数据库性能的基准测试。LDBC简介除了SocialNetworkBenchmark,LDBC旗下目前还有其他几种基准测试:GraphalyticsBenchmark,FinancialBenchmark和SemanticPublishB......
  • cglib FastClass机制
    前言关于动态代理的一些知识,以及cglib与jdk动态代理的区别,在这一篇已经介绍过,不熟悉的可以先看下。本篇我们来学习一下cglib的FastClass机制,这是cglib与jdk动态代理的一个主要区别,也是一个面试考点。我们知道jdk动态代理是使用InvocationHandler接口,在invoke方法内,可以使用Meth......
  • 基于通道注意力和时间注意力的时间卷积网络:用于航空发动机剩余使用寿命预测的双重注意
    基于通道注意力和时间注意力的时间卷积网络:用于航空发动机剩余使用寿命预测的双重注意力架构标题:Channelattention&temporalattentionbasedtemporalconvolutionalnetwork:Adualattentionframeworkforremainingusefullifepredictionoftheaircraftengines......
  • 简述Kubernetes准入机制
    在对集群进行请求时,每个准入控制代码都按照一定顺序执行。如果有一个准入控制拒绝了此次请求,那么整个请求的结果将会立即返回,并提示用户相应的error信息,准入控制(AdmissionControl)准入控制本质上为一段准入代码,在对kubernetesapi的请求过程中,顺序为:先经过认证&授权,然后执行准入......
  • QT信号与槽机制与事件机制的区别
    QT信号与槽机制与事件机制的区别第一:什么是信号与槽?事件?所谓信号槽,实际就是观察者模式。当某个事件发生之后,比如,按钮检测到自己被点击了一下,它就会发出一个信号(signal)。这种发出是没有目的的,类似广播。如果有对象对这个信号感兴趣,它就会使用连接(connect)函数,意思是,用自己的一......
  • Self-attention
    输入n个向量,要输出相同个数的向量(比如,输入一个句子,输出句子中每个词的词性。每个单词转化为向量可以用one-hotvector或者wordembedding方法)如果将每个向量连一个FC(fullyconnectednetwork),会出现像Isawasaw这种情况,两个saw单词一样,所以两个FC输出结果也会一样这时,我们可以......
  • Java入门(向世界呐喊、Java运行机制、IDEA)
    Java入门1.HelloWorld!(向世界呐喊)新建文件夹用于存放代码(Code)->新建Java文件(Hello.java)->使用Notepad++进行编辑->在当前路径打开CMDpublicclassHello{ publicstaticvoidmain(String[]args){ System.out.print("HelloWorld!"); }}注意:系统可能没有显示文件......
  • Pod实现机制与设计模式
    每个Pod都有一个特殊的被称为"根容器"的Pause容器(Pause容器,又叫Infrastructure容器)。Pause容器对应的镜像属于Kubernetes平台的一部分,除了Pause容器,每个Pod还包含一个或者多个紧密相关的用户业务容器。 众所周知,容器之间是通过Namespace隔离的,Pod要想解决上述应用场景,那么......