2024.3.12 自-注意力机制（向量）

首先可以看到 Self Attention 有三个输入 Q、K、V：对于 Self Attention，Q、K、V 来自句子 X 的词向量 x 的线性转化，即对于词向量 x，给定三个可学习的矩阵参数$W_Q$ ，$W_K$,$W_V$,x 分别右乘上述矩阵得到 Q、K、V。

Self-Attention的关键点在于，不仅仅是k$\approx$V$\approx$Q来源同一个X，这三者是同源的

可以通过X找到X里面的关键点

并不是K=V=Q=K=X,而是通过三个参数$W_Q$ ，$W_K$，$W_V$

$z_1$表示的就是thinking 的新的向量表示

对于thinking，初始词向量$x_1$

现在通过thinking machines这句话去查询这句话里的每个单词和thinking之间的相似度

新的$z_1$依然是thinking的词向量表示，只不过这个词向量的表示蕴含了thinking machines这句话对于thinking而言哪个信息为更重要的信息

不做注意力，its的词向量就只有本身，没有任何附加消息

但是做了之后，也就是说its有law这层意思，而通过自注意力机制得到新的its的词向量，则会包含一定的laws和application的信息

每一个单词对应每一个单词都会有一个权重，这也是 Self Attention 名字的来源，即 Attention 的计算来源于 Source（源句）和 Source 本身，通俗点讲就是 Q、K、V 都来源于输入 X(句子) 本身

标签：thinking,Self,Attention,its,机制,注意力,向量
From： https://www.cnblogs.com/adam-yyds/p/18068744

Attention(注意力机制)
2024.3.12Attention(注意力机制)##怎么做注意力我（查询对象Q)，这张图（被查询对象V）如：我看这张图，第一眼，我就会去判断哪些东西对我而言更重要，哪些有更不重要（去计算Q和V里的事物的重要度）重要度计算，其实是不是就是相似度计算（更接近）Q，$K=k_1,k_2,\cdots,k_N$,（图中所有事物的一个列......
保护模式：段机制
一、段机制内存是计算机系统的关键资源，程序必须被加载到内存中才可以被CPU所执行。程序运行过程中，也要使用内存来记录数据和动态的信息。在一个多任务的系统中，每个任务都需要使用内存资源，因此系统需要有一套机制来隔离不同任务所使用的内存，要使这种隔离即安全又高效，那么硬......
权限概念、权限提升概念以及权限提升的分类和目的 Windows 提权的基础原理是了解操作
关于权限概念、权限提升概念以及权限提升的分类和目的，以下是一些基本信息供您参考：权限概念：权限是指系统或应用程序授予用户或进程执行某些操作或访问资源的能力。权限通常按照用户的身份、角色或组织结构来管理，以确保系统安全和数据保护。权限提升概念：权限提升是指用......
图数据库基准测试 LDBC SNB 系列讲解：Schema 和数据生成的机制
LDBC（LinkedDataBenchmarkCouncil）SocialNetworkBenchmark，简称LDBCSNB，是一种针对社交网络场景的评估图数据库性能的基准测试。LDBC简介除了SocialNetworkBenchmark，LDBC旗下目前还有其他几种基准测试：GraphalyticsBenchmark，FinancialBenchmark和SemanticPublishB......
cglib FastClass机制
前言关于动态代理的一些知识，以及cglib与jdk动态代理的区别，在这一篇已经介绍过，不熟悉的可以先看下。本篇我们来学习一下cglib的FastClass机制，这是cglib与jdk动态代理的一个主要区别，也是一个面试考点。我们知道jdk动态代理是使用InvocationHandler接口，在invoke方法内，可以使用Meth......
基于通道注意力和时间注意力的时间卷积网络：用于航空发动机剩余使用寿命预测的双重注意
基于通道注意力和时间注意力的时间卷积网络：用于航空发动机剩余使用寿命预测的双重注意力架构标题:Channelattention&temporalattentionbasedtemporalconvolutionalnetwork:Adualattentionframeworkforremainingusefullifepredictionoftheaircraftengines......
ELMO模型—>解决向量一词多义
2024.3.11ELMO模型—>解决向量一词多义elmo解决一词多义问题,与Word2Vec不同的是，可以融合上下文信息ElMO（专门做词向量，通过预训练）不只是训练一个Q矩阵，我们还可以把这个词的上下文信息融入到这个Q矩阵中上图中，左边的LSTM获取E2的上文信息，右边对应获取下文信息怎么处理一词多......
简述Kubernetes准入机制
在对集群进行请求时，每个准入控制代码都按照一定顺序执行。如果有一个准入控制拒绝了此次请求，那么整个请求的结果将会立即返回，并提示用户相应的error信息，准入控制（AdmissionControl）准入控制本质上为一段准入代码，在对kubernetesapi的请求过程中，顺序为：先经过认证&授权，然后执行准入......
QT信号与槽机制与事件机制的区别
QT信号与槽机制与事件机制的区别第一：什么是信号与槽？事件？所谓信号槽，实际就是观察者模式。当某个事件发生之后，比如，按钮检测到自己被点击了一下，它就会发出一个信号（signal）。这种发出是没有目的的，类似广播。如果有对象对这个信号感兴趣，它就会使用连接（connect）函数，意思是，用自己的一......
Java入门(向世界呐喊、Java运行机制、IDEA)
Java入门1.HelloWorld！(向世界呐喊)新建文件夹用于存放代码(Code)->新建Java文件(Hello.java)->使用Notepad++进行编辑->在当前路径打开CMDpublicclassHello{ publicstaticvoidmain(String[]args){ System.out.print("HelloWorld!"); }}注意：系统可能没有显示文件......

自-注意力机制（向量）

2024.3.12 自-注意力机制（向量）

相关文章

赞助商

阅读排行