首页 > 其他分享 >attention机制、LSTM二者之间,是否存在attention一定优于LSTM的关系呢?

attention机制、LSTM二者之间,是否存在attention一定优于LSTM的关系呢?

时间:2024-06-10 20:22:37浏览次数:22  
标签:Transformer 优于 效果 二者之间 attention 数据量 LSTM

这里没有严格的论证,只是自己的一些理解。


attention机制下的Transformer确实是当前AI技术中最为火热的,基于其构建的大语言模型可以说是AI技术至今最强的技术之一了,但是attention是否真的的一定优于LSTM呢?


其实,attention的效果或者说Transformer的效果是和数据量的多少有关系的,如果是常见的数据量(传统文本任务、几万或者几十万数据量)那么attention的效果不会比LSTM强,甚至可能不如LSTM,但是如果数据量是大语言模型那种的用亿为单位的话,那么attention是一定优于LSTM的,这是有大量实验结果验证的。



其实,这里面是有一个很大问题的,那就是多大的数据量算大呢,或者说如何判断何时使用LSTM,何时使用Transformer呢,这个其实不是学术问题,而是技术问题,或者跑的实验多了自然也就有个大概的感觉了,不过可能的情况下,如果实在掂量不准那就两个都实现一下做做对比。



个人的经验:

其实是听实验室师弟说的,自己并未验证,师弟说他在做神经网络架构搜索的时候加进去attention,然后效果就有了明显的提升,因为这个神经网络架构搜索其实是计算量很大的实验,因此这里也是一种佐证。还有,就是Matching Network,《Matching Networks for One Shot Learning》论文中也有提到使用attention的神经网络结构只在大数据量的miniImagenet实验上有效果,而在Omniglot实验上并没有明显效果,这算是第二个间接佐证了。总之,attention机制、LSTM如何选择是要看具体的情况的,并不存在哪个一定优于哪个,不过在现在大数据量的研究背景下倒是确实是attention机制要更适合。



标签:Transformer,优于,效果,二者之间,attention,数据量,LSTM
From: https://www.cnblogs.com/devilmaycry812839668/p/18240974

相关文章

  • 【Pytorch】一文向您详细介绍 nn.MultiheadAttention() 的作用和用法
    【Pytorch】一文向您详细介绍nn.MultiheadAttention()的作用和用法 下滑查看解决方法......
  • GWO-LSTM多输入回归预测|灰狼算法-双向长短期神经网络|Matlab
    目录一、程序及算法内容介绍:基本内容:亮点与优势: 二、实际运行效果:三、算法介绍:四、完整程序下载:一、程序及算法内容介绍:基本内容:本代码基于Matlab平台编译,将GWO(灰狼群算法)与Bi-LSTM(双向长短期记忆神经网络)结合,进行多输入数据回归预测输入训练的数据包含7个特......
  • 算法金 | LSTM 原作者带队,一个强大的算法模型杀回来了
    大侠幸会,在下全网同名「算法金」0基础转AI上岸,多个算法赛Top「日更万日,让更多人享受智能乐趣」时间拉回2019年,有「计算机界诺贝尔奖」之称图灵奖获得者公布,深度学习三巨头:YoshuaBengio、GeoffreyHinton、YannLeCun众望所归。图灵奖为何不颁给LSTM之父Jürgen......
  • LSTM卷土重来之Vision-LSTM横空出世!!
    在Transformer诞生三年后,谷歌将这一自然语言处理的重要研究扩展到了视觉领域,也就是VisionTransformer。 论文链接:https://arxiv.org/abs/2406.04303项目链接: https://nx-ai.github.io/vision-lstm/GPT-4o深夜发布!Plus免费可用!https://www.zhihu.com/pin/1773......
  • 【YOLOv8改进】CPCA(Channel prior convolutional attention)中的通道注意力,增强特征
    YOLO目标检测创新改进与实战案例专栏专栏目录:YOLO有效改进系列及项目实战目录包含卷积,主干注意力,检测头等创新机制以及各种目标检测分割项目实战案例专栏链接:YOLO基础解析+创新改进+实战案例摘要医学图像通常展示出低对比度和显著的器官形状变化等特征。现有注意......
  • Matlab实现基于BiLSTM-Adaboost双向长短期记忆神经网络结合Adaboost集成学习时间序列
    %步骤1:准备数据%假设你已经准备好了股票价格的训练数据和测试数据%训练数据:train_data,包含n个训练样本,每个样本有m个时间步长的特征%训练标签:train_labels,包含n个训练样本的目标值(股票价格)%测试数据:test_data,包含k个测试样本,每个样本有m个时间步长的特征%测试标......
  • 关于CoPE与Deformable attention的思考
    最近我在刷知乎的时候关注到了Meta的一个新工作CoPE(ContextualPositionEncoding,上下文位置编码),在了解了其中的核心理念和实现后,我不自觉地联想到了Deformableattention,然后尝试将两者的相似点进行了一点整理。为什么需要CoPE?在处理文本序列时,理解每个词的位置至关重要。例如,......
  • 【YOLOv8改进】DAT(Deformable Attention):可变性注意力 (论文笔记+引入代码)
    YOLO目标检测创新改进与实战案例专栏专栏目录:YOLO有效改进系列及项目实战目录包含卷积,主干注意力,检测头等创新机制以及各种目标检测分割项目实战案例专栏链接:YOLO基础解析+创新改进+实战案例摘要Transformers最近在各种视觉任务中展现出了优越的性能。较大甚至是......
  • 基于CNN卷积神经网络的金融数据预测matlab仿真,带GUI界面,对比BP,RBF,LSTM
    1.程序功能描述基于CNN卷积神经网络的金融数据预测matlab仿真,带GUI界面,对比BP,RBF,LSTM. 2.测试软件版本以及运行结果展示MATLAB2022A版本运行   3.核心程序............................................................functioncnnnumgradcheck(net,x,y......
  • 【YOLOv8改进】D-LKA Attention:可变形大核注意力 (论文笔记+引入代码)
    YOLO目标检测创新改进与实战案例专栏专栏目录:YOLO有效改进系列及项目实战目录包含卷积,主干注意力,检测头等创新机制以及各种目标检测分割项目实战案例专栏链接:YOLO基础解析+创新改进+实战案例摘要医学图像分割在Transformer模型的应用下取得了显著进步,这些模型在捕......