注意力机制

有一个字典(Python中称为字典，也叫键值对)。我们记为(key, value)。

比方说我们有下列腰围体重数据，我们又有一个样本，他的腰围是57，那么我们预测他的体重值是多少呢？或者说我们怎么预测他的体重值呢？

由于57到56和58的距离一样，那么我们可以预测他的体重值为它们对应体重的平均值，即(43 + 48) / 2 = 0.5 * 43 + 0.5 * 48 = 45.5，注意此处，由于56和58离57非常接近，所以我们自然会非常"注意"它们，所以我们分给它们的注意力权重各为0.5。但是这里有一个问题，我们没有用上其他的键值对

我们好像要调整一下注意力权重，那么我们该怎么计算权重呢？

简单理解，体重预测值f(q)就是预测值的key与每个已知值的key所计算出来的权重再乘以与已知值相对应的value再进行求和。

而其中的权重就是α(q, k_i)

我们将上面的q称为请求(query)，k叫做键(key)，v叫做值(value)。

q，k，v在多维的情况下也是类似的。

假设q是二维的，由于q1和k1都是二维向量，注意力分数可以使以下几种，如图所示：

以点积模型为例：

为了方便，我们使用矩阵来表示：

为了缓解梯度消失问题，我们还会除以一个特征维度，我们将其称为“缩放点积注意力模型”

如果Q、K、V是同一个矩阵会发生什么？那就是自注意力，

我么用X来表示这个矩阵，那么有：

三个可以训练的矩阵：

写在最后

以上截图和文字均来自于哔哩哔哩:

【注意力机制的本质|Self-Attention|Transformer|QKV矩阵-哔哩哔哩】 https://b23.tv/W4FwAY4

标签：体重,矩阵,我们,key,哔哩,机制,注意力
From： https://www.cnblogs.com/wephilos/p/18119960

什么是注意力机制？
什么是注意力机制注意力机制（AttentionMechanism）是一种在深度学习模型中模拟人类注意力的技术。它的主要思想是，当我们处理一个任务时，我们不会平等地对待所有的信息，而是会将注意力集中在某些关键的部分。例如，当我们阅读一段文本时，我们会更关注与当前任务相关的词汇和句子，而忽略其......
Redis持久化机制
1.持久化机制Redis官方提供了两种不同的持久化方法来将内存的数据存储到硬盘里面分别是:-快照(Snapshot)-AOF(AppendOnlyFile)只追加日志文件1.1快照(Snapshot)1.特点这种方式可以将某一时刻的所有数据都写入硬盘中,当然这也是redis的默认开启持久化方式,保存的文......
Java的异常机制
异常机制三种类型检查型异常：程序员无法预见的运行时异常：在编译时会被忽略错误ERROR：错误在代码中被忽略，在编译时检查不到异常处理机制抛出异常捕获异常异常处理的五个关键字：try，catch，finally，throw，throws以下为这五个关键词的使用方法：packageexception;publicclassD......
2024年4月6日-UE5-拉怪机制，怪物攻击玩家、伤害源、黑板
先选择一个怪物攻击的动画序列，转换为蒙太奇打开怪物总类，添加自定义事件，把网格体拖下来然后打开AI行为树加一个selector，意思是先走左边的，走不到再走右边的然后新建一个怪物黑板打开黑板，新建一个目标玩家添加一个序列，然后把装饰器选成黑板，再把目标改成我......
kube-apiserver限流机制原理
Kubernetes的kube-apiserver组件提供了一种限流机制来保护API服务器不会因为过多的请求而过载。这是通过几种机制实现的，包括基于速率的限流（RBAC）和基于并发连接数的限流。基于速率的限流：kube-apiserver可以配置为限制来自每个用户的请求速率。这是通过--basic-auth-file参......
kube-apiserver限流机制原理
本文分享自华为云社区《kube-apiserver限流机制原理》，作者：可以交个朋友。背景apiserver是kubernetes中最重要的组件，一旦遇到恶意刷接口或请求量超过承载范围，apiserver服务可能会崩溃，导致整个kubernetes集群不可用。所以我们需要对apiserver做限流处理来提升kubernetes的健壮性。......
Redis过期删除策略和内存淘汰机制
过期删除策略1、惰性删除就是过期之后下一次取数据时，发现过期了，就删除它。2、定期删除定期删除一些过期的key。redis采用的时惰性删除+过期删除。问题：可能会漏掉一些key,从而导致OOM。内存淘汰机制3*2+2volatile-lru:从过期数据集中选择最近最少使用的数据淘汰。allKe......
注意力机制 transformer
https://jalammar.github.io/illustrated-transformer/X就是输入的向量，第一步就是创建三个输入向量qkv第二步是计算分数：分数决定了对输入句子的其他部分的关注程度。分数是通过查询向量与我们要评分的各个单词的键向量的点积来计算的。因此，如果我们处理位置#1中单词的自注意......
响应式流的核心机制——背压机制
一、响应式流是什么？响应式流旨在为无阻塞异步流处理提供一个标准。它旨在解决处理元素流的问题——如何将元素流从发布者传递到订阅者，而不需要发布者阻塞，或订阅者有无限制的缓冲区或丢弃。响应式流模型存在两种基本的实现机制。一种就是传统开发模式下的“拉”模式，即消费者主动......
线程等待通知机制
join（）是等待线程结束。wait是等待线程通知，并不一定是执行结束。能更加精细的控制线程执行的顺序。在什么情况下使用线程等待通知呢？“线程饿死问题”，一个线程频繁的获取锁和释放锁，由于获取锁的速度太快，其他的线程抢不到，那么就会影响到代码的执行速度。而等待通知机制就......

注意力机制

注意力机制

写在最后

相关文章

赞助商

阅读排行