Attention 2015-今

时间：2023-12-11 14:57:50浏览次数：38

标签：transformer attention Attention att 2015 alpha

现在attention的热度已经过去了，基本上所有的attention都是transformer的kqv形式的，甚至只要说道attention，默认就是transformer的attention。
为避免遗忘历史，我这里做一个小总结。繁杂的att我就不去了解了，只了解下经典的。

以下以\(h_i\)代表想要att聚合的各个向量，以\(s_0\)表示当前向量。

鼻祖Bahdanau Attention

2015，Bengio组。文章https://arxiv.org/pdf/1409.0473.pdf。

att的获得

\(\alpha_i=func(h_i,s_0)\).
\(alpha\)是att权重（加权平均的weight系数）。

att的使用

即加权平均：

\[h_{before} \]

\[h_{after}=\sum_{i\in N} \alpha_i*h_i \]

其中\(N\)为\(h\)的（包括自己的）邻域（邻居）。

func的形式

也就是att系数的获得方式。

形式1

\(\alpha\)的计算方式：
\(\alpha=V*tanh(W*(h_i||s_0))\)，其中\(V\)、\(W\)都是可学习参数.

然后对各个\(\alpha\) softamx即可。

形式2

\(k=W_K*h_i\)
\(q=W_Q*s_0\)
\(\alpha=k^Tq\)
然后softmax。
其中\(W_K\), \(W_Q\)是学习参数。

注：此Transformer模式本质上与此方式一致。
不同的是，Transformer直接把\(h_i\)和\(s_0\)直接变成了一个训练参数\(V\)，组成了\(K,Q,V\)三者。

参考

参考视频：https://www.bilibili.com/video/BV1YA411G7Ep

标签：transformer,attention,Attention,att,2015,alpha
From： https://www.cnblogs.com/yonggie/p/17894308.html

System 2 Attention：可以提高不同LLM问题的推理能力
推理正在成为大型语言模型(llm)关注的下一个主要领域。尽管llm拥有先进的能力，但大多数llm经常被简单的错误绊倒，显示出他们在推理方面的局限性。这些模型可能会被上下文中的不相关细节所误导，或者受到输入提示中的偏差的影响。而后一种倾向被称为谄媚，也就是说模型会更偏向与输入一致......
【洛谷 P2670】[NOIP2015 普及组] 扫雷游戏题解（模拟）
[NOIP2015普及组]扫雷游戏题目背景NOIP2015普及组T2题目描述扫雷游戏是一款十分经典的单机小游戏。在行列的雷区中有一些格子含有地雷（称之为地雷格），其他格子不含地雷（称之为非地雷格）。玩家翻开一个非地雷格时，该格将会出现一个数字——提示周围格子中有多少个是地雷格。游戏的......
Predicting gene expression from histone modifications with self-attention based
Predictinggeneexpressionfromhistonemodificationswithself-attentionbasedneuralnetworksandtransferlearningYuchiChen 1, MinzhuXie 1, JieWen 1Affiliations expandPMID: 36588793 PMCID: PMC9797047 DOI: 10.3389/fgene.2022.1081......
NOIP2015普及组金币
NOIP2015普及组金币题目数据（n<=10000)根据题目要求与我们原来学过的打印数字三角形图形很相似。数字三角形如下，数字可以对应成天数：12 34 5 67 8 9 10每天加的金币就是行坐标即可：12 23 3 34 4 4 4代码如何：#includ......
P8624 [蓝桥杯 2015 省 AB] 垒骰子
这道题的数据范围比较突出：1<=N<=1e9先写一个O(N)算法：#include<iostream>#include<stdio.h>#include<algorithm>#include<cstring>#defineintlonglongusingnamespacestd;constintmod=1e9+7;intn,m,g[8][8],f[8],op[8],bf[8];......
P8623 [蓝桥杯 2015 省 B] 移动距离
算出两个数字的坐标，然后返回曼哈顿距离。#include<iostream>#include<stdio.h>#include<algorithm>#include<cstring>#include<cmath>usingnamespacestd;intw,m,n,x_m,y_m,x_n,y_n;voidget(intp,int&x,int&y){x=(......
CVE-2015-5254
ActiveMQ反序列化漏洞（CVE-2015-5254）漏洞原理ApacheActiveMQ是美国阿帕奇（Apache）软件基金会所研发的一套开源的信息中间件，他支持Java消息服务、集群、SpringFramework等。ApacheActiveMQ5.13.0之前5.x版本中存在安全漏洞，该漏洞源于程序没有限制可在代理中序列化的类。远程攻......
论文：FEED-FORWARD NETWORKS WITH ATTENTION CAN SOLVE SOME LONG-TERM MEMORY PROBLEM
题目：FEED-FORWARDNETWORKSWITHATTENTIONCANSOLVESOMELONG-TERMMEMORYPROBLEMS”(Raffel和Ellis,2016,p.1)“带有注意力的前馈网络可以解决一些长期记忆问题”(Raffel和Ellis,2016,p.1)(pdf)这篇论文提出了一种适用于前馈神经网络的简化注意力模型，并展示了......
P1955 [NOI2015] 程序自动分析
P1955[NOI2015]程序自动分析基本思路考虑到了不等号的不可传递性，所以决定只开相等的并查集。然后突发奇想，觉得可以在找父亲的过程中判断是不是冲突。然而这样就不能路径压缩，显然超时。并且，根本没看清楚数据范围，实际上这题的数很大，裸开数组会爆炸。这是一开始的代码#inclu......
7 Mutilmodal Feature Extraction and Attention-based Fusion for Emotion Estimatio
摘要。人机交互技术的不断进步，使得情感的计算成为可能。在本文中，我们介绍了我们提交给CVPR2023竞赛的情感行为分析在野外(ABAW)。人机交互中的情感分析应尽可能从多维度入手，填补单个不完善的情感通道，最后通过拟合多个结果确定情感倾向。因此，我们利用了从比赛数据集中不同长度的视......

Attention 2015-今

鼻祖Bahdanau Attention

att的获得

att的使用

func的形式

形式1

形式2

参考

相关文章

赞助商

阅读排行