首页 > 其他分享 >self-attention

self-attention

时间:2023-07-19 22:14:47浏览次数:58  
标签:输出 self attention 矩阵 a1 saw

Self attention考虑了整个sequence的资讯【transfermer中重要的架构是self-attention】

  解决sequence2sequence的问题,考虑前后文

 

I saw a saw 第一个saw对应输出动词  第二个输出名词

 

如何计算相关性【attention score】

输入的两个向量乘两个矩阵

Q=query    k=key

 

看a1,自己和自己也计算了关联性。【a1,1】

 

 

 只需要学习三个矩阵的参数

 

标签:输出,self,attention,矩阵,a1,saw
From: https://www.cnblogs.com/yankun1482/p/17566896.html

相关文章

  • 魔法方法之__iter__(self) && __next__(self)
    __iter____iter__(self)是一个特殊方法,用于返回一个迭代器对象,使得自定义的类可以支持迭代操作。最佳实践:在自定义类中实现 __iter__() 方法时,应该返回一个迭代器对象,通常是自身的实例。迭代器对象应该实现 __next__() 方法,用于返回容器中的下一个元素,并在没有更多元素......
  • [论文速览] A Closer Look at Self-supervised Lightweight Vision Transformers
    Pretitle:ACloserLookatSelf-supervisedLightweightVisionTransformersaccepted:ICML2023paper:https://arxiv.org/abs/2205.14443code:https://github.com/wangsr126/mae-literef:https://mp.weixin.qq.com/s/7FiDLYBZiAX-xkW-dZBU9Q关键词:lightweght,ViT......
  • Paper Reading: Self-paced Ensemble for Highly Imbalanced Massive Data Classifica
    目录研究动机文章贡献分类硬度分布分类硬度的定义分类硬度的优点分类硬度视角下的样本类型本文方法自定步速欠采样硬度协调自定步速因子算法定义实验结果合成数据集实验数据集和实验设置合成数据实验结果类重叠下的鲁棒性真实数据集实验数据集和实验设置真实数据实验结果和重采样......
  • 魔法方法之__getitem__(self, key)、__setitem__(self, key, value) 和 __delitem__(s
    1'''2__getitem__(self,key)、__setitem__(self,key,value)和__delitem__(self,key)是Python中的特殊方法,用于定义对对象进行索引操作时的行为。3它们分别用于获取、设置和删除对象中的元素41.__getitem__(self,key):该方法用于通过索引或键来获取对象中的......
  • LEA: Improving Sentence Similarity Robustness to Typos Using Lexical Attention B
    LEA:ImprovingSentenceSimilarityRobustnesstoTyposUsingLexicalAttentionBias论文阅读KDD2023原文地址Introduction文本噪声,如笔误(Typos),拼写错误(Misspelling)和缩写(abbreviations),会影响基于Transformer的模型.主要表现在两个方面:Transformer的架......
  • Multi-Modal Attention Network Learning for Semantic Source Code Retrieval 解读
    Multi-ModalAttentionNetworkLearningfor SemanticSourceCodeRetrieva Multi-ModalAttentionNetworkLearningfor SemanticSourceCodeRetrieval,题目意思是用于语义源代码检索的多模态注意网络学习,2019年发表于ASE的##研究什么东西Background:研究代码检索技......
  • 【论文阅读】CrossFormer: A Versatile Vision Transformer Based on Cross-scale Att
    来自CVPR2021论文地址:https://link.zhihu.com/?target=https%3A//arxiv.org/pdf/2108.00154.pdf代码地址:https://link.zhihu.com/?target=https%3A//github.com/cheerss/CrossFormer一、Motivation 主要还是ViT的历史遗留问题ViT在处理输入时,将图片划分为了相等大小的图像......
  • 4.1 Self-attention
    1.问题引入  我们在之前的课程里遇到的都是输入是一个向量,输出是类别或者标量.但如果输入是向量的集合且向量长度还会变化,又应该怎么处理呢?1.1应用实例1.1.1文字处理  文字处理问题就是一个典型的例子.如果将每一个词汇表示成一个向量,那么\(model\)的输入就会是一......
  • CNN GRU 注意力 时序预测 基于加注意力机制(CNN-GRU-Attention)的时间序列预测程序,预测
    CNNGRU注意力时序预测基于加注意力机制(CNN-GRU-Attention)的时间序列预测程序,预测精度很高。可用于做风电功率预测,电力负荷预测,交通预测,负荷预测,经济预测,排放预测等标记注释清楚,可直接换数据运行。代码实现训练与测试精度分析。原创文章,转载请说明出处,资料来源:http://imgcs.......
  • 什么是 Kernel Smoother ?它与 Self Attention 有什么关系?
    [1]带权滑动平均(WeightedMovingAverage,WMA)是标量场上的滑动窗口内的加权平均,数学上等价于卷积。[1][2]KernelSmoother是一种特殊的WMA方法,特殊在于权重是由核函数决定的,相互之间越接近的点具有越高的权重。[2][3]Transformer中的自注意力机制可以看作一种KernelS......