首页 > 其他分享 >Attention 2015-今

Attention 2015-今

时间:2023-12-11 14:57:50浏览次数:35  
标签:transformer attention Attention att 2015 alpha

现在attention的热度已经过去了,基本上所有的attention都是transformer的kqv形式的,甚至只要说道attention,默认就是transformer的attention。
为避免遗忘历史,我这里做一个小总结。繁杂的att我就不去了解了,只了解下经典的。

以下以\(h_i\)代表想要att聚合的各个向量,以\(s_0\)表示当前向量。

鼻祖Bahdanau Attention

2015,Bengio组。文章https://arxiv.org/pdf/1409.0473.pdf

att的获得

\(\alpha_i=func(h_i,s_0)\).
\(alpha\)是att权重(加权平均的weight系数)。

att的使用

即加权平均:

\[h_{before} \]

\[h_{after}=\sum_{i\in N} \alpha_i*h_i \]

其中\(N\)为\(h\)的(包括自己的)邻域(邻居)。

func的形式

也就是att系数的获得方式。

形式1

\(\alpha\)的计算方式:
\(\alpha=V*tanh(W*(h_i||s_0))\),其中\(V\)、\(W\)都是可学习参数.

然后对各个\(\alpha\) softamx即可。

形式2

\(k=W_K*h_i\)
\(q=W_Q*s_0\)
\(\alpha=k^Tq\)
然后softmax。
其中\(W_K\), \(W_Q\)是学习参数。

注:此Transformer模式本质上与此方式一致。
不同的是,Transformer直接把\(h_i\)和\(s_0\)直接变成了一个训练参数\(V\),组成了\(K,Q,V\)三者。

参考

参考视频:https://www.bilibili.com/video/BV1YA411G7Ep

标签:transformer,attention,Attention,att,2015,alpha
From: https://www.cnblogs.com/yonggie/p/17894308.html

相关文章

  • System 2 Attention:可以提高不同LLM问题的推理能力
    推理正在成为大型语言模型(llm)关注的下一个主要领域。尽管llm拥有先进的能力,但大多数llm经常被简单的错误绊倒,显示出他们在推理方面的局限性。这些模型可能会被上下文中的不相关细节所误导,或者受到输入提示中的偏差的影响。而后一种倾向被称为谄媚,也就是说模型会更偏向与输入一致......
  • 【洛谷 P2670】[NOIP2015 普及组] 扫雷游戏 题解(模拟)
    [NOIP2015普及组]扫雷游戏题目背景NOIP2015普及组T2题目描述扫雷游戏是一款十分经典的单机小游戏。在行列的雷区中有一些格子含有地雷(称之为地雷格),其他格子不含地雷(称之为非地雷格)。玩家翻开一个非地雷格时,该格将会出现一个数字——提示周围格子中有多少个是地雷格。游戏的......
  • Predicting gene expression from histone modifications with self-attention based
    Predictinggeneexpressionfromhistonemodificationswithself-attentionbasedneuralnetworksandtransferlearningYuchiChen 1, MinzhuXie 1, JieWen 1Affiliations expandPMID: 36588793 PMCID: PMC9797047 DOI: 10.3389/fgene.2022.1081......
  • NOIP2015普及组金币
    NOIP2015普及组金币题目数据(n<=10000)根据题目要求与我们原来学过的打印数字三角形图形很相似。数字三角形如下,数字可以对应成天数:12 34  5  67  8  9  10每天加的金币就是行坐标即可:12  23  3  34  4  4  4代码如何:#includ......
  • P8624 [蓝桥杯 2015 省 AB] 垒骰子
    这道题的数据范围比较突出:1<=N<=1e9先写一个O(N)算法:#include<iostream>#include<stdio.h>#include<algorithm>#include<cstring>#defineintlonglongusingnamespacestd;constintmod=1e9+7;intn,m,g[8][8],f[8],op[8],bf[8];......
  • P8623 [蓝桥杯 2015 省 B] 移动距离
    算出两个数字的坐标,然后返回曼哈顿距离。#include<iostream>#include<stdio.h>#include<algorithm>#include<cstring>#include<cmath>usingnamespacestd;intw,m,n,x_m,y_m,x_n,y_n;voidget(intp,int&x,int&y){x=(......
  • CVE-2015-5254
    ActiveMQ反序列化漏洞(CVE-2015-5254)漏洞原理ApacheActiveMQ是美国阿帕奇(Apache)软件基金会所研发的一套开源的信息中间件,他支持Java消息服务、集群、SpringFramework等。ApacheActiveMQ5.13.0之前5.x版本中存在安全漏洞,该漏洞源于程序没有限制可在代理中序列化的类。远程攻......
  • 论文:FEED-FORWARD NETWORKS WITH ATTENTION CAN SOLVE SOME LONG-TERM MEMORY PROBLEM
    题目:FEED-FORWARDNETWORKSWITHATTENTIONCANSOLVESOMELONG-TERMMEMORYPROBLEMS”(Raffel和Ellis,2016,p.1)“带有注意力的前馈网络可以解决一些长期记忆问题”(Raffel和Ellis,2016,p.1)(pdf)这篇论文提出了一种适用于前馈神经网络的简化注意力模型,并展示了......
  • P1955 [NOI2015] 程序自动分析
    P1955[NOI2015]程序自动分析基本思路考虑到了不等号的不可传递性,所以决定只开相等的并查集。然后突发奇想,觉得可以在找父亲的过程中判断是不是冲突。然而这样就不能路径压缩,显然超时。并且,根本没看清楚数据范围,实际上这题的数很大,裸开数组会爆炸。这是一开始的代码#inclu......
  • 7 Mutilmodal Feature Extraction and Attention-based Fusion for Emotion Estimatio
    摘要。人机交互技术的不断进步,使得情感的计算成为可能。在本文中,我们介绍了我们提交给CVPR2023竞赛的情感行为分析在野外(ABAW)。人机交互中的情感分析应尽可能从多维度入手,填补单个不完善的情感通道,最后通过拟合多个结果确定情感倾向。因此,我们利用了从比赛数据集中不同长度的视......