机器学习——注意力评分函数

时间：2023-11-16 12:11:39浏览次数：54

10.2节使用了高斯核来对查询和键之间的关系建模。 (10.2.6)中的高斯核指数部分可以视为注意力评分函数（attention scoring function），简称评分函数（scoring function），然后把这个函数的输出结果输入到softmax函数中进行运算。通过上述步骤，将得到与键对应的值的概率分布（即注意力权重）。最后，注意力汇聚的输出就是基于这些注意力权重的值的加权和。

从宏观来看，上述算法可以用来实现图10.1.3中的注意力机制框架。图10.3.1说明了如何将注意力汇聚的输出计算成为值的加权和，其中表示注意力评分函数。由于注意力权重是概率分布，因此加权和其本质上是加权平均值。

掩蔽softmax操作

正如上面提到的，softmax操作用于输出一个概率分布作为注意力权重。在某些情况下，并非所有的值都应该被纳入到注意力汇聚中。例如，为了在 9.5节中高效处理小批量数据集，某些文本序列被填充了没有意义的特殊词元。为了仅将有意义的词元作为值来获取注意力汇聚，可以指定一个有效序列长度（即词元的个数），以便在计算softmax时过滤掉超出指定范围的位置。下面的masked_softmax函数实现了这样的掩蔽softmax操作（masked softmax operation），其中任何超出有效长度的位置都被掩蔽并置为0。（被掩蔽的元素使用一个非常大的负值替换，从而其softmax输出为0）

加性注意力

缩放点积注意力

总结

将注意力汇聚的输出计算可以作为值的加权平均，选择不同的注意力评分函数会带来不同的注意力汇聚操作。
当查询和键是不同长度的矢量时，可以使用可加性注意力评分函数。当它们的长度相同时，使用缩放的“点－积”注意力评分函数的计算效率更高。

标签：输出,函数,评分,汇聚,softmax,注意力
From： https://www.cnblogs.com/yccy/p/17835954.html

机器学习——注意力汇聚：Nadaraya-Watson 核回归
上节介绍了框架下的注意力机制的主要成分图10.1.3：查询（自主提示）和键（非自主提示）之间的交互形成了注意力汇聚；注意力汇聚有选择地聚合了值（感官输入）以生成最终的输出。本节将介绍注意力汇聚的更多细节，以便从宏观上了解注意力机制在实践中的运作方式。具体来说，1964年提出的Nadara......
setTimeout可以将字符串当成代码执行，类比eval函数。当遇到setTimeout或者SetInterval,
请问以下JS代码的输出顺序是？letdate=newDate()setTimeout(()=>{console.log('1')},2000)setTimeout('console.log(2)',1000);setTimeout(function(){console.log('3')},1500);while((newDate()-date)<3000){}A报错B......
Function构造函数可以接受任意数量的参数，但最后一个参数始终被看成函数体，注意函数表达
下列关于js函数定义方式的描述正确的是Afunctionadd(a,b){returna+b;}函数表达式Bvaradd=newFunction(‘a’,’b’,’returna+b’)函数表达式Cfunctionadd(a,b){returna+b;}函数声明Dvaradd=function(a,b){returna+b;}函数声明Evaradd=newFunction(‘a’,......
在js中，定义了两个同名函数后，后面的函数会覆盖前面定义的函数。
运行以下程序<script>varm=1,j=k=0;functionadd(n){returnn=n+1;}y=add(m);functionadd(n){returnn=n+3;}z=add(m);</script>A2,4B4,4C2,2D报异常正确答案：Bjs里面没有函数重载的......
void 作为运算符后面接的是表达式，void expression。而void(0)也是被当做void 0。如果
void();上面表达式的结果是：AundefinedBTypeErrorCnullDSyntaxError正确答案：Dtypeof1;//'number'typeof(1);//'number'typeof();//SyntaxError语法错误void0;//undefinedvoid(0);//undefinedvoid();//SyntaxError语法错误也就是说错的不是void，而是......
1）属性先查自身，没有再查构造函数的原型。2）在全局下声明的变量，有var声明的不可以被delet
以下代码执行后，a.x和b.x的结果分别为（）functionA(x){this.x=x;}A.prototype.x=1;functionB(x){this.x=x;}B.prototype=newA();vara=newA(2),b=newB(3);deleteb.x;A2,3B2,1C2,undefinedD其他几项都不对正确答案：C对象a自身具有......
setTimeout 是浏览器环境提供的，JS 标准没有规定。不是JavaScript的全局函数，是浏览器（宿
下列哪些函数是JavaScript的全局函数？AencodeURIBparseFloatCsetTimeoutDeval正确答案：ABD答案：A、B、D个人记忆方法：6（编码相关）+2（数据处理）+4（数字相关）+1（特殊）编码相关：escape()、unescape()、encodeURI()、decodeURI()、encodeURIComponent()、decodeURIComponent......
当作为一个构造函数（带有运算符 new）调用时，Boolean() 将把它的参数转换成一个布尔值，并且
使用Boolean(value)方法可以强制转换任意值为boolean类型,除了以下六个值，其他都是自动转为true：undefinednull-0+0NaN‘’（空字符串）Boolean(undefined)//falseBoolean(null)//falseBoolean(0)//falseBoolean(NaN)//falseBoolean('')//false使用场景constarr......
a=100作为形参传入，此时全局定义了var a = 100；var x变量提升至函数内部最前，形参x和变量
请问以下JS代码输出的结果是什么？functionf(x){console.log(x);varx=200;console.log(x);}f(a=100);console.log(a);Aundefined、200、undefinedB100、200、undefinedC100、200、100Dundefined、200、100正确答案：CJS中的函数是非惰性求值，也就是说......
无涯教程-Dart - Using the List.replaceRange() 函数
dart:core库中的List类提供了replaceRange()函数来修改List元素，此函数替换指定范围内的元素的值。使用List.replaceRange()函数的语法如下所示-List.replaceRange(intstart_index,intend_index,Iterable<items>)Start_index -代表要开始替换的索引位置的整数。......

机器学习——注意力评分函数

加性注意力

相关文章

赞助商

阅读排行