首页 > 其他分享 >从RNN到Transformmer

从RNN到Transformmer

时间:2024-01-05 19:34:51浏览次数:31  
标签:编码器 架构 RNN Transformmer 网络 解码器

下面是整理的一个思维导图

2010年Mikolov提出了RNN网络,RNN网络存在长距离依赖(梯度消失),计算效率(RNN 难以并行)两个问题

2017年Transformmer网络结构问世,Transformer 网络架构架构由 Ashish Vaswani 等人在 Attention Is All You Need一文中提出,并用于机器翻译任务,和以往网络架构有所区别的是,该网络架构中,编码器和解码器没有采用 RNN 或 CNN 等网络架构,而是采用完全依赖于注意力机制的架构。网络架构如下所示:

Transformmer网络结构解决了传统编码器-解码器模型的挑战,避免信息损失和无法建模输入输出对齐的问题,自动学习注意力权重,捕捉编码器和解码器之间的相关性。在自然语言处理(NLP)、计算机视觉(Computer Vision)、跨模态任务和推荐系统等多个领域中,注意力机制已成为多项任务中的最 先进模型,取得了显著的性能提升。需要关注思维导图中多头注意力机制部分

标签:编码器,架构,RNN,Transformmer,网络,解码器
From: https://www.cnblogs.com/lodestar/p/17947915

相关文章

  • 【史上最本质】序列模型:RNN、双向 RNN、LSTM、GRU、Seq-to-Seq、束搜索、Transformer
    序列模型:RNN、双向RNN、LSTM、GRU、Seq-to-Seq、束搜索、Transformer、Bert序列模型是啥RNN结构双向RNN长短期记忆递归神经网络LSTM门控循环单元GRU编码器-解码器Seq-to-SeqBeamSearch束搜索:选择最佳翻译结果TransformerBert 序列模型是啥序列数据是,按照时间顺序或者某......
  • RNN 的 gates 机制:LSTM 和 GRU 的发展
    1.背景介绍深度学习技术的发展与进步,主要体现在神经网络的结构和算法上。随着数据规模的增加,传统的神经网络在处理复杂任务时遇到了挑战。特别是在处理长序列数据时,传统的RNN(RecurrentNeuralNetwork)存在的问题,如梯状误差和长期依赖性,限制了其表现。为了解决这些问题,研究人员提出......
  • 基于代码一步一步教你深度学习中循环神经网络(RNN)的原理
    当谈到基于RNN(循环神经网络)的机器学习例子时,一个常见的任务是文本生成。RNN是一种能够处理序列数据的神经网络,它具有记忆能力。以下是一个基于RNN的文本生成例子,并给每一行添加了详细注释:1.importtorch2.importtorch.nnasnn3.importtorch.optimasoptim4.5.#定义......
  • RNN语言模型的最新进展与未来趋势
    1.背景介绍自从2010年的深度学习革命以来,深度学习技术已经成为人工智能领域的核心技术之一,其中自然语言处理(NLP)也是其中的一个重要应用领域。在NLP中,语言模型是一个非常重要的组件,它用于预测给定上下文的下一个词。传统的语言模型如N-gram模型和条件随机场(CRF)模型已经被深度学习中......
  • RNN vs. CNN vs. 深度神经网络:比较与应用
    1.背景介绍深度学习是人工智能领域的一个热门话题,其中之一最为重要的技术就是神经网络。在过去的几年里,我们已经看到了许多不同类型的神经网络,如卷积神经网络(CNN)、循环神经网络(RNN)和深度神经网络(DNN)等。在这篇文章中,我们将讨论这三种神经网络的区别以及它们在不同应用中的优势。首......
  • 测试开发 | 循环神经网络(RNN):时序数据的魔法笔
    循环神经网络(RecurrentNeuralNetwork,简称RNN)是深度学习领域中一种专门用于处理时序数据的神经网络结构。相较于传统神经网络,RNN在处理序列数据时具有独特的优势,使其在自然语言处理、语音识别、股票预测等领域取得了显著的成功。本文将深入探讨循环神经网络的原理、结构和应用,揭示......
  • rnn完成帖子分类
    数据​ 使用的数据来自某高校的论坛,使用爬虫爬取两个模块​ 爬虫使用requests库发送HTTPS请求,爬取上述两个板块各80页数据,包含3000个帖子,再使用BeautifulSoup解析HTML内容,得到帖子标题importrequestsfrombs4importBeautifulSoupimporttimefromtqdmimporttqdmimpor......
  • 《Visual Analytics for RNN-Based Deep Reinforcement Learning》
    摘要准备开题报告,整理一篇2022年TOP论文。论文介绍该论文是一篇2022年,有关可视化分析基于RNN的深度强化学习训练过程的文章。一作是JunpengWang,作者主要研究领域就是:visualization,visualanalytics,explainableAI。作者主页:https://junpengw.github.io/#/主要工......
  • 基于HOG特征提取和GRNN神经网络的人脸表情识别算法matlab仿真,测试使用JAFFE表情数据
    1.算法运行效果图预览 2.算法运行软件版本matlab2022a 3.算法理论概述        该算法主要由两个部分组成:HOG特征提取和GRNN神经网络。下面将详细介绍这两个部分的原理和数学公式。 1.HOG特征提取      HOG(HistogramofOrientedGradients)是......
  • 理解文本识别网络CRNN
    转自:https://zhuanlan.zhihu.com/p/71506131端到端不定长文字识别CRNN算法详解一文读懂CRNN+CTC文字识别 CRNN的论文是不得不看的,下面是论文和其中文翻译版:论文,中文翻译该网络模型的具体细节看上面几篇文章就可以了,我这里记录下我的一些理解,重点是CTC损失函数......