首页 > 其他分享 >RNN又行了!DeepMind新发布的Griffin可以与同级别的LLM性能相当

RNN又行了!DeepMind新发布的Griffin可以与同级别的LLM性能相当

时间:2024-03-06 11:16:30浏览次数:25  
标签:Griffin RNN 性能 又行 LLM DeepMind 门控

Hawk和Griffin是DeepMind推出的新型循环神经网络(RNNs),2月刚刚发布在arxiv上。Hawk通过使用门控线性递归(gated linear recurrences)超越了Mamba的性能,而Griffin则是一种混合型模型,结合了门控线性递归和局部注意力(local attention),与Llama-2的性能相当,但使用的训练数据明显较少。Griffin在处理比训练时更长的序列时表现出色。这两种模型在硬件效率方面与Transformer相当,但在推理过程中具有更低的延迟和更高的吞吐量。Griffin的规模已扩展到了140亿个(14B)参数。

 

https://avoid.overfit.cn/post/7aa26536acf14c3b81d26b4dc0a6db49

标签:Griffin,RNN,性能,又行,LLM,DeepMind,门控
From: https://www.cnblogs.com/deephub/p/18056072

相关文章

  • Python用RNN循环神经网络:LSTM长期记忆、GRU门循环单元、回归和ARIMA对COVID
    原文链接:http://tecdat.cn/?p=27042原文出处:拓端数据部落公众号 该数据根据世界各国提供的新病例数据提供。  获取时间序列数据  df=pd.read_csv("C://global.csv")探索数据此表中的数据以累积的形式呈现,为了找出每天的新病例,我们需要减去这些值 ......
  • RNN循环神经网络&LSTM长短期记忆网络&GRU
    个人学习使用,内容来源于网络,侵权删1.基本原理传统网络的结构:RNN的结构:使用场景:语音识别,要按顺序处理每一帧的声音信息,有些结果需要根据上下文进行识别;自然语言处理,要依次读取各个单词,识别某段文字的语义这些场景都有一个特点,就是都与时间序列有关,且输入的序列数......
  • 双向RNN计算实现
    个人学习使用,内容来源于网络,侵权删双向RNN如下,做两遍计算:第一遍先正向计算隐状态h,保存成一个序列,顺序是t时刻从1到T。第二遍,将输入反转,计算隐状态h,保存为一个序列,这样顺序就是t时刻从T到1.最后在计算output,这样在计算output时,所有时刻的隐状态都是已经计算出来了。参考来源......
  • Mamba详细介绍和RNN、Transformer的架构可视化对比
    Transformer体系结构已经成为大型语言模型(llm)成功的主要组成部分。为了进一步改进llm,人们正在研发可能优于Transformer体系结构的新体系结构。其中一种方法是Mamba(一种状态空间模型)。Mamba:Linear-TimeSequenceModelingwithSelectiveStateSpaces一文中提出了Mamba,我们......
  • 【AutoML】AutoKeras 进行 RNN 循环神经网络训练
    由于最近这些天都在人工审查之前的哪些问答数据,所以迟迟都没有更新AutoKeras的训练结果。现在那部分数据都已经整理好了,20w+的数据最后能够使用的高质量数据只剩下2k+。这2k+的数据已经经过数据校验并且对部分问题的提问方式和答案内容进行了不改变原意的重构,相信用这部分数......
  • 李宏毅《机器学习》总结 - RNN & LSTM
    在slot-filling问题(如给一个句子,自己分析出时间、地点等)如果只连着不同的FC,那么会导致无法读出是arrive还是leave的情况,导致错误因此,需要NN来考虑到整个句子的信息,也就是需要有memory,这就是RNNRNN原理有了memory,就可以初步解决同一个信息由于句子不同导致的意......
  • 基于信号功率谱特征和GRNN广义回归神经网络的信号调制类型识别算法matlab仿真
    1.算法运行效果图预览 2.算法运行软件版本MATLAB2022a 3.算法理论概述       本课题,我们主要对MPSK和MFSK调制类型进行识别。在进行信号调制方式区分之前,首先需要对PSK和FSK进行区分,提出了一种基于信号功率谱的PSK和FSK调制方式的识别方法。信号的功率谱计算过程......
  • RNN的应用范围:从基础研究到实用技术
    1.背景介绍随着数据规模的不断增加,传统的机器学习模型已经无法满足需求。随着深度学习技术的发展,卷积神经网络(CNN)和循环神经网络(RNN)等模型逐渐成为主流。在图像处理、自然语言处理等领域取得了显著的成果。本文将从基础研究到实用技术的角度,探讨RNN的应用范围和挑战。1.1深度学习......
  • 基于代码一步一步教你深度学习中循环神经网络(RNN)的原理
    当谈到基于RNN(循环神经网络)的机器学习例子时,一个常见的任务是文本生成。RNN是一种能够处理序列数据的神经网络,它具有记忆能力。以下是一个基于RNN的文本生成例子,并给每一行添加了详细注释:1.importtorch2.importtorch.nnasnn3.importtorch.optimasoptim4.5.#定义......
  • 从RNN到Transformmer
    下面是整理的一个思维导图2010年Mikolov提出了RNN网络,RNN网络存在长距离依赖(梯度消失),计算效率(RNN难以并行)两个问题2017年Transformmer网络结构问世,Transformer网络架构架构由AshishVaswani等人在AttentionIsAllYouNeed一文中提出,并用于机器翻译任务,和以往网络架构......