首页 > 其他分享 >Self-Attention相比较RNN和LSTM的优缺点

Self-Attention相比较RNN和LSTM的优缺点

时间:2024-03-13 21:48:38浏览次数:27  
标签:RNN Self Attention 单词 序列 LSTM

2024.3.13 Self-Attention

Self-Attention相比较RNN和LSTM的优缺点

RNN基本单元结构

无法做长序列,当一段话达到50个字,效果就很差 了复杂度为n的平方

$X_0$往后面越传播,信息越少(如你爷爷的爷爷的爷爷的名字)

LSTM基本结构

LSTM通过各种门,遗忘门,选择性的可以记忆之前的信息(200词)

Self-Attention和RNNs(RNN和LSTM)的区别

RNNs长序列依赖问题,无法做并行

而Self-Attention中计算每个单词之间的相似度,从而解决了长序列依赖问题。并且在计算每个单词之间的相似度问题时是独立进行的,因此可以做并行

Self-Attention得到的新的词向量具有句法特征和语义特征(词向量的表征更完善)

句法特征

语义特征

Self-Attention无论句子序列多长,都可以充分捕获近距离上往下问中的任何依赖关系,进而可以很好的提取句法特征还可以提取语义特征;而且对于一个句子而言,每个单词的计算是可以并行处理的

理论上 Self-Attention (Transformer 50 个左右的单词效果最好)解决了 RNN 模型的长序列依赖问题,但是由于文本长度增加时,训练时间也将会呈指数增长,因此在处理长文本任务时可能不一定比 LSTM(200 个左右的单词效果最好) 等传统的 RNN 模型的效果好。

上述所说的,则是为何 Self Attention 逐渐替代 RNN、LSTM 被广泛使用的原因所在。

标签:RNN,Self,Attention,单词,序列,LSTM
From: https://www.cnblogs.com/adam-yyds/p/18071587

相关文章

  • Be Your Own Teacher: Improve thePerformance of Convolutional Neural Networks via
    摘要本文中,提出了一种名为自蒸馏的通用训练框架,该框架通过缩小网络的规模而不是扩大网络的规模,而提高卷积神经网络的性能。传统的知识蒸馏是一种网络之间的知识转换方法,它迫使学生神经网络接近预先训练的教师神经网络的softmax层输出,与此不同,所提出的自蒸馏框架提取网络......
  • Self-Attention和Attentiond的区别
    2024.3.12Self-Attention和Attentiond的区别注意力机制是一个很宽泛(宏大)的一个概念,QKV相乘就是注意力,但是他没有规定QKV是怎么来的通过一个查询变量Q,去找到V里面比较重要的东西假设K==V,然后QK相乘求相似度A,然后AV相乘得到注意力值Z,这个Z就是V的另外一种形式的表示Q可以是任何......
  • Attention(注意力机制)
    2024.3.12Attention(注意力机制)##怎么做注意力我(查询对象Q),这张图(被查询对象V)如:我看这张图,第一眼,我就会去判断哪些东西对我而言更重要,哪些有更不重要(去计算Q和V里的事物的重要度)重要度计算,其实是不是就是相似度计算(更接近)Q,$K=k_1,k_2,\cdots,k_N$,(图中所有事物的一个列......
  • Augmentation-Free Self-Supervised Learning on Graphs论文阅读笔记
    Abstract我们认为,如果没有精心设计的增强技术,图上的扩充可能会任意的做出表现,因为图的底层语义会极大地变化。因此,现有的基于增强的方法的性能高度依赖于增强方案的选择,即与增强相关的超参数。在本文中,我们提出了一种新的无增强图自监督学习框架,即AFGRL。具体地说,我们发现通过与......
  • Self-attention
    输入n个向量,要输出相同个数的向量(比如,输入一个句子,输出句子中每个词的词性。每个单词转化为向量可以用one-hotvector或者wordembedding方法)如果将每个向量连一个FC(fullyconnectednetwork),会出现像Isawasaw这种情况,两个saw单词一样,所以两个FC输出结果也会一样这时,我们可以......
  • Bootstrap Your Own Latent A New Approach to Self-Supervised Learning论文阅读笔记
    BootstrapYourOwnLatentANewApproachtoSelf-SupervisedLearning论文阅读笔记Abstract​ 我们提出了BYOL,一种新的自监督图像表示学习的方法。BYOL依赖于两个神经网络,即在线网络和目标网络,它们相互作用和相互学习。从一个图像的增广视图出发,我们训练在线网络来预测同一图......
  • LLM 加速技巧:Muti Query Attention
    前言 MQA是19年提出的一种新的Attention机制,其能够在保证模型效果的同时加快decoder生成token的速度。在大语言模型时代被广泛使用,很多LLM都采用了MQA,如Falcon、PaLM、StarCoder等。本文转载自DeephubImba作者:FlorianJune仅用于学术分享,若侵权请联系删除欢迎关注......
  • LLM 加速技巧:Muti Query Attention
    MQA是19年提出的一种新的Attention机制,其能够在保证模型效果的同时加快decoder生成token的速度。在大语言模型时代被广泛使用,很多LLM都采用了MQA,如Falcon、PaLM、StarCoder等。在介绍MQA之前,我们先回顾一下传统的多头注意力Multi-HeadAttention(MHA)多头注意力是tra......
  • RNN又行了!DeepMind新发布的Griffin可以与同级别的LLM性能相当
    Hawk和Griffin是DeepMind推出的新型循环神经网络(RNNs),2月刚刚发布在arxiv上。Hawk通过使用门控线性递归(gatedlinearrecurrences)超越了Mamba的性能,而Griffin则是一种混合型模型,结合了门控线性递归和局部注意力(localattention),与Llama-2的性能相当,但使用的训练数据明显较少。Griffi......
  • 基于CNN-GRU-Attention的时间序列回归预测matlab仿真
    1.算法运行效果图预览 2.算法运行软件版本matlab2022a 3.算法理论概述        CNN-GRU-Attention模型结合了卷积神经网络(CNN)、门控循环单元(GRU)和注意力机制(Attention)来进行时间序列数据的回归预测。CNN用于提取时间序列的局部特征,GRU用于捕获时间序列的长期......