1. 为了提高模型能力，自注意力模型经常采用查询-键-值（Query-Key-Value，QKV）模式.

怎么就提高模型能力了呢？为什么用QKV就能提高？

NNDL配套实验书，讲解了“简单自注意力模型”，先体会最简单的模型有助于对“自注意力”这个“自”的理解。

键值对注意力 VS. 自注意力，会发现公式中的不同之处：QKV变成了XXX。（注意：此处的QKV，KV来自Key Value Pair注意力，Q来自外部。不是自注意力的Query-Key-Value，QKV均来自内部。）

一切都源于自身，所以是：Self注意力。

简单自注意力模型 不带参数，模型能力有限。

“查询-键-值”模式 带参数，提高了模型能力。自注意力模型常用QKV方式。

这就说到了本质：QKV是带参数的，所以能力提高了。

放在一起仔细端详~ 发现其中奥妙：

2. X线性映射到三个不同的空间QKV

把图拆开了看更方便。就是最简单的线性变换，没有难度。注意一下维度。QK维度相等，why？ V的维度可以不一样？

3. 键值对注意力 VS. QKV

除了QKV的来源不一样，其他都一样。所以，如果前面的注意力机制学的没问题，这里的自注意力也不难。

4. QKV缩放点积模型的使用

计算注意力模型分布，并softmax归一化

5. 键值对注意力模式聚合

根据求得的分布α，结合V，计算加权平均，得到输出向量H。这里采用的方式是键值对注意力模式。

6. 合在一起在看图，就觉得很清晰了

这时候，不只是觉得图片好看，脉络也清清楚楚了~

标签：模型,Self,Attention,QKV,step,键值,注意力
From： https://www.cnblogs.com/hbuwyg/p/16978264.html

def fun_1(self, nums: List[int]) -> List[int]:
classSolution:deffun_1(self,nums:List[int])->List[int]:pass其中deffun_1(self,nums:List[int])->List[int]:比较疑惑，查了查资料，发现这叫类......
注意力足矣（Attention Is All You Need）
文章目录TransformerTransformer架构位置编码编码器多头自注意力前馈网络解码器带掩码的多头自注意力......
Rust中super关键字和self关键字的使用
随笔：fnfunction(){println!("functionglobal");}pubmodmod1{pubfnfunction(){super::function();println!("functionmod1");}pubmo......
论文解读（PGNN）《Rumor detection based on propagation graph neural network with att
论文信息论文标题：Rumordetectionbasedonpropagationgraphneuralnetworkwithattentionmechanism论文作者：YunruiZhao,QianqianXu,YangbangyanJiang,Peison......
论文推荐：Rethinking Attention with Performers
重新思考的注意力机制，Performers是由谷歌，剑桥大学，DeepMind，和艾伦图灵研究所发布在2021ICLR的论文已经超过500次引用传统的Transformer的使用softmax注意力，具有二次空间......
Attention | Self-Attention
邱锡鹏NNDL学习笔记 ......
使用 OWIN Self-Host ASP.NET Web API 自宿主 Swagger Swashbuckle 在线文档
使用OWINSelf-HostASP.NETWebAPIhttps://learn.microsoft.com/zh-cn/aspnet/web-api/overview/hosting-aspnet-web-api/use-owin-to-self-host-web-apihttps://www.cn......
LeetCode: 315. Count of Smaller Numbers After Self
LeetCode:315.CountofSmallerNumbersAfterSelf题目描述Youaregivenanintegerarraynumsandyouhavetoreturnanewcountsarray.Thecountsarrayhast......
LeetCode: 238. Product of Array Except Self
LeetCode:238.ProductofArrayExceptSelf题目描述Givenanarraynumsofnintegerswheren>1,returnanarrayoutputsuchthatoutput[i]isequal......
【NeurIPS2022】Fast Vision Transformers with HiLo Attention
这个论文的核心贡献是提出了一种新的注意力机制HiLo（High/Lowfrequency）。如下图所示，在上面部分，分配了\(1-\alpha\)比例的head用于提取高频注意力，下面分配了\(\alp......

Self-Attention：Learning QKV step by step