首页 > 其他分享 >多头自注意力机制计算举例

多头自注意力机制计算举例

时间:2024-08-06 19:49:38浏览次数:12  
标签:点积 2.83 缩放 0.5 举例 计算 多头 注意力

多头自注意力机制计算示例

多头自注意力机制计算示例

1. 输入序列和权重矩阵

假设输入序列 X 如下:

X
[1, 0, 1, 0]
[0, 1, 0, 1]
[1, 1, 1, 1]

我们有两个头,分别对应的权重矩阵如下:

头 1

WQ(1)WK(1)WV(1)
[1, 0] [1, 0] [1, 0]
[0, 1] [0, 1] [0, 1]
[1, 0] [1, 0] [1, 0]
[0, 1] [0, 1] [0, 1]

头 2

WQ(2)WK(2)WV(2)
[0, 1] [0, 1] [0, 1]
[1, 0] [1, 0] [1, 0]
[0, 1] [0, 1] [0, 1]
[1, 0] [1, 0] [1, 0]

2. 计算每个头的 Q、K、V

头 1

计算 Q1

Q1
[2, 0]
[0, 2]
[2, 2]

计算 K1

K1
[2, 0]
[0, 2]
[2, 2]

计算 V1

V1
[2, 0]
[0, 2]
[2, 2]

头 2

计算 Q2

Q2
[0, 1]
[1, 0]
[2, 2]

计算 K2

K2
[0, 1]
[1, 0]
[2, 2]

计算 V2

V2
[0, 1]
[1, 0]
[2, 2]

3. 计算每个头的自注意力

头 1

计算点积 Q1 K1T

Q1 K1T
[4, 0, 4]
[0, 4, 4]
[4, 4, 8]

缩放点积:

缩放点积
[2.83, 0, 2.83]
[0, 2.83, 2.83]
[2.83, 2.83, 5.66]

应用 softmax:

softmax
[0.5, 0, 0.5]
[0, 0.5, 0.5]
[0.25, 0.25, 0.5]

计算注意力输出:

注意力输出
[2, 1]
[1, 2]
[1.5, 2]

头 2

计算点积 Q2 K2T

Q2 K2T
[1, 0, 2]
[0, 1, 2]
[2, 2, 8]

缩放点积:

缩放点积
[0.71, 0, 1.41]
[0, 0.71, 1.41]
[1.41, 1.41, 5.66]

应用 softmax:

softmax
[0.41, 0.15, 0.44]
[0.15, 0.41, 0.44]
[0.25, 0.25, 0.5]

计算注意力输出:

注意力输出
[0.88, 1.29]
[1.29, 0.88]
[1.50, 1.50]

 

4. 合并头的输出

将所有头的输出连接起来:

Concat
[2, 1, 0.88, 1.29]
[1, 2, 1.29, 0.88]
[1.5, 2, 1.5, 1.5]

5. 最终线性变换

假设线性变换矩阵 WO 为:

WO
[0.5, 0.5, 0.5, 0.5]
[0.5, 0.5, 0.5, 0.5]

计算线性变换输出:

Output
2.585, 2.585
2.585, 2.585
3.25, 3.25

标签:点积,2.83,缩放,0.5,举例,计算,多头,注意力
From: https://www.cnblogs.com/chentiao/p/18345887

相关文章

  • 自注意力机制最简单的示例
    自注意力机制示例自注意力机制示例1.输入序列假设我们有一个简单的输入序列,包含三个词(向量表示),每个词的维度是4: x1x2x3x4词11010词20101词311112.查询(Q)、键(K)和值(V)矩阵我们定义查询、键和值的权重矩阵如下: QKV权重矩阵......
  • 思考|卷积、注意力
    参考链接:卷积:https://www.bilibili.com/video/BV1Vd4y1e7pj/?spm_id_from=333.999.0.0&vd_source=fa1d778abbb911d02be7ac36f2b2e32aTransformer:https://www.bilibili.com/video/BV1TZ421j7Ke/?spm_id_from=333.999.0.0&vd_source=fa1d778abbb911d02be7ac36f2b2e32ah......
  • 深入探索EPSA:提升卷积神经网络性能的新式注意力模块
     原论文地址:https://arxiv.org/abs/2105.14447摘要摘要部分提出了一种新的注意力模块——金字塔分割注意力(PSA)模块,该模块通过替代ResNet瓶颈块中的3x3卷积,显著提升了模型性能。PSA模块能够作为即插即用组件,增强网络的多尺度表征能力,使EPSANet在多个计算机视觉任务上超越了......
  • c语言位运算符和位运算,位运算举例,位段
    位运算符1.按位与运算符(&)按位与运算符对两个整数的每一位进行“与”操作,只有当两个位都是1时,结果才为1,否则为0。inta=5; //二进制:00000101intb=3; //二进制:00000011intresult=a&b; //结果:00000001(1)2.按位或运算符(|)按位或运算符对......
  • [Oracle]面试官:你举例几个内置函数,并且说说如何使用内置函数作正则匹配
    【版权声明】未经博主同意,谢绝转载!(请尊重原创,博主保留追究权)https://www.cnblogs.com/cnb-yuchen/p/18338279出自【进步*于辰的博客】目录先言1、单行函数1.1lpad/rpad(str1,n,str2)1.2instr(str1,str2[,pos][,n])2、非空判断函数3、日期函数4、正则表达式相关函数4.1......
  • OpenAI发布PVG:用小模型验证大模型输出解决“黑盒”难题,韩国团队拆分Transformer注意力
    OpenAI发布PVG:用小模型验证大模型输出解决“黑盒”难题,韩国团队拆分Transformer注意力让大模型解码提速20倍,微软、OpenAI、英特尔、谷歌、英伟达,成立开源大模型安全联盟。在今年的7月11日,全球著名开源大模型分享平台HuggingFace与专业数学大模型平台Numina合作,共同角逐AI......
  • 论文阅读:引入词集级注意力机制的中文命名实体识别方法
    WSA-CNER方法首先,将输入序列的每个字映射成一个字向量;然后,将外部词汇信息整合到每个字的最终表示中;最后,将字的最终表示输入到序列建模层和标签预测层中,得到最终的预测结果。输入表示层使用SoftLexicon方法将输入序列中每个字的词典匹配结果划分为4个词集(BMES)。输入序列......
  • 格式举例
    文章目录amarkdownunorderedlistwhichwillbereplacedwiththetoc,*号前面和后面需要有个空格。文本这是一个段落,我要把它设置为蓝色,只需在前面的标签上嵌入style属性即可,style用于内联css。toboldtext,use<strong>.toitalicizetext,use<em>.tohigh......
  • 通道注意力机制(CA)
    通道注意力机制(ChannelAttention,CA)是一种广泛应用于计算机视觉中的注意力机制。它主要用于提取图像特征中不同通道之间的相关性,以帮助网络更好地聚焦于重要的特征信息。在深度学习中,卷积神经网络(CNN)通常通过堆叠多个卷积层来提取图像的高级特征表示。然而,不同的通道可能对......
  • 经验分享:大数据多头借贷风险对自身的不利影响?
    在现代金融体系中,大数据技术的应用使得多头借贷成为一种普遍现象。多头借贷指的是个人或企业在短时间内同时或近期内申请多笔贷款或信用产品,这种行为可能带来一系列财务和信用风险。以下是大数据多头借贷风险对个人自身可能产生的不利影响:1.信用评分下降多头借......