09 什么是注意力机制（Attention ）

时间：2022-12-20 21:02:53浏览次数：69

标签：Attention 重要哪些 -- 09 cdots 相似注意力

博客配套视频链接: https://space.bilibili.com/383551518?spm_id_from=333.1007.0.0 b 站直接看

配套 github 链接：https://github.com/nickchen121/Pre-training-language-model

Attention（注意力机制）

你会注意什么？

大数据（什么数据都有，重要的，不重要的）

对于重要的数据，我们要使用

对于不重要的数据，我们不太想使用

但是，对于一个模型而言（CNN、LSTM），很难决定什么重要，什么不重要

由此，注意力机制诞生了（有人发现了如何去在深度学习的模型上做注意力）

红色的是科学家们发现，如果给你一张这个图，你眼睛的重点会聚焦在红色区域

人--》看脸

文章看标题

段落看开头

后面的落款

这些红色区域可能包含更多的信息，更重要的信息

注意力机制：我们会把我们的焦点聚焦在比较重要的事物上

怎么做注意力

我（查询对象 Q），这张图（被查询对象 V）

我看这张图，第一眼，我就会去判断哪些东西对我而言更重要，哪些对我而言又更不重要（去计算 Q 和 V 里的事物的重要度）

重要度计算，其实是不是就是相似度计算（更接近），点乘其实是求内积（不要关心为什么可以）

Q，$K =k_1,k_2,\cdots,k_n$

通过点乘的方法计算Q 和 K 里的每一个事物的相似度，就可以拿到 Q 和$k_1$的相似值$s_1$，Q 和$k_2$的相似值$s_2$，Q 和$k_n$的相似值 $s_n$

做一层 $softmax(s_1,s_2,\cdots,s_n)$ 就可以得到概率$(a_1,a_2,\cdots,a_n)$

进而就可以找出哪个对Q 而言更重要了

我们还得进行一个汇总，当你使用 Q 查询结束了后，Q 已经失去了它的使用价值了，我们最终还是要拿到这张图片的，只不过现在的这张图片，它多了一些信息（多了于我而言更重要，更不重要的信息在这里）

V = $(v_1,v_2,\cdots,v_n)$

$(a_1,a_2,\cdots,a_n)*+(v_1,v_2,\cdots,v_n)=(a_1*v_1+a_2*v_2+\cdots+a_n*v_n)$

这样的话，就得到了一个新的 V'，这个新的 V' 就包含了，哪些更重要，哪些不重要的信息在里面，然后用 V' 代替 V

一般 K=V，在 Transformer 里，K!=V 可不可以，可以的，但是 K 和 V 之间一定具有某种联系，这样的 QK 点乘才能指导 V 哪些重要，哪些不重要

51， 49---》 0.51，0.49

80/8，20/8 --》 0.9999999999， 0.0000000001

10 / 3 --> 0.9, 0.1

a1 和 a2 之间的差额越大，这个概率就越离谱

标签：Attention,重要,哪些,--,09,cdots,相似,注意力
From： https://blog.51cto.com/u_13804357/5956675

11 Self-Attention相比较 RNN和LSTM的优缺点
博客配套视频链接:https://space.bilibili.com/383551518?spm_id_from=333.1007.0.0b站直接看配套github链接：https://github.com/nickchen121/Pre-traini......
[LeetCode]009-回文数
>>>传送门题目给你一个整数x，如果x是一个回文整数，返回true；否则，返回false。回文数是指正序（从左向右）和倒序（从右向左）读都是一样的整数。例如，121是回文，而123不......
django 09 ajax
Ajax#ajax：异步提交，局部刷新Async异步//1.ajax有许多版本，此次学习的位jQuery版本(无关版本，本质相同)//2.基本语法$.ajax({url:'',......
HDU5091 Beam Cannon
$HDU5091$$Beam$$Cannon$一、题目大意有$n$个点($n<=10000$)，点的坐标绝对值不超过$20000$，然后问你用一个$w*h(1<=w,h<=40000)$的矩形，矩形的边平行于坐标......
S1 - Lesson 109 - 110
Words ideaagoodideaabadideaIhavenoidea alittle teaspoonfulteaspoon-fulateaspoonfulofsugartwoteaspoonfulsofmilk less afew......
#yyds干货盘点#【愚公系列】2022年09月微信小程序-WebGL画正方形
前言WebGL（全写WebGraphicsLibrary）是一种3D绘图协议，这种绘图技术标准允许把JavaScript和OpenGLES2.0结合在一起，通过增加OpenGLES2.0的一个JavaScript绑定，WebGL可以为......
209. 长度最小的子数组
209.长度最小的子数组力扣题目链接我的代码：错误的滑动窗口publicintminSubArrayLen(inttarget,int[]nums){intleft=0,right=0;int......
前端学习-CSS-09-浮动
学习时间：2022.11.14目录浮动结构伪类选择器伪元素浮动浮动的作用浮动的特点清除浮动浮动带来的影响清除浮动的方法方法1：给父母元素加一个高度方法2：额外标签法方法3：单伪元......
题解 CF1109D【Sasha and Interesting Fact from Graph Theory】
problem你尤其钟情$a,b$这两个数。对于一棵N个节点的树，已知所有边的长度都在$[1,m]$之间，如果节点$a$和$b$的距离恰好为$m$，那么你认为这棵树很好看......
200009 计算板的土方量和钢筋量已知集中标注
点击查看代码<?phpheader('Content-Type:text/html;charset=utf-8');define('ROOT',$_SERVER['DOCUMENT_ROOT']);includeROOT.'/assets/php/head.php';$tit='......

09 什么是注意力机制（Attention ）

Attention（注意力机制）

怎么做注意力

10 / 3 --> 0.9, 0.1

相关文章

赞助商

阅读排行