首页 > 其他分享 >与传统RNN相比,AI模型当红大神Transformer有什么新魔法呢?

与传统RNN相比,AI模型当红大神Transformer有什么新魔法呢?

时间:2024-07-03 21:30:52浏览次数:25  
标签:Transformer RNN AI 西湖 处理 注意力 向量

      在上一篇文章“AI模型大宗师Transformer的Encoder工具”里面提到“自注意力机制”,有些伙伴可能不太理解,今天我再用个例子细说一下。

      下面,我们用一个实际的文本处理例子来看看传统的循环神经网络(RNN)和引入自注意力机制的Transformer模型在处理长距离依赖关系上的差异。

      假设我们有以下句子:“去年我去了西湖,那里的风景美丽极了。我决定明年再回去。”

      传统循环神经网络(RNN)在处理这个句子时,会按顺序逐个处理单词。RNN将努力记忆“去年我去了西湖”这一信息,以便在处理后续的“我决定明年再回去”时能够关联起来。然而,由于RNN在处理序列时是一步一步进行的,它可能会遇到短距离信息的覆盖问题,即所谓的“遗忘”问题。当句子很长或者有多个嵌套的句子结构时,RNN可能难以捕捉到“西湖”和“再回去”之间的长距离依赖关系。

      引入自注意力机制的Transformer模型在处理这个句子时,会使用自注意力机制来同时考虑句中的所有单词。在处理“我决定明年再回去”这一小部分时,自注意力机制允许模型直接关联到“去年我去了西湖”中的“西湖”,从而建立了一个直接的联系。这是因为在计算注意力分数时,每个单词的表示(查询)会与所有其他单词的表示(键)进行比较,从而直接捕捉到它们之间的相关性,无论它们在文本中的距离如何。


      当Transformer处理“再回去”这个词组时:

1. 查询、键、值向量:每个词被转换为查询(Query)、键(Key)、值(Value)向量。

2. 计算注意力分数:对于“再回去”的查询向量,模型计算与句中每个词的键向量(包括“西湖”的键向量)的点积,得到分数。

3. 应用Softmax函数:这些分数经过Softmax处理,转换为概率分布,表示对“再回去”而言,句中每个词的相关重要性。

4. 加权求和:根据上述概率分布,对应的值向量进行加权求和,形成“再回去”的新表示。

5. 输出:这个新表示捕捉到了“再回去”与“西湖”之间的关联,使得后续的模型部分能够正确解释这两个词之间的关系,即使它们在文本中相隔较远。

      Transformer模型通过自注意力机制能够更有效地捕捉长距离依赖关系,因为它能够在处理每个单词时考虑到整个句子的上下文。这使得Transformer特别适合处理包含复杂结构和长距离依赖的文本数据。

标签:Transformer,RNN,AI,西湖,处理,注意力,向量
From: https://blog.csdn.net/jstar1823/article/details/140158207

相关文章

  • SimMTM: 用于掩码时间序列建模的简单预训练框架《SimMTM: A Simple Pre-Training Fram
    今天是2024年7月3日10:15,写一篇1月7日就看过的论文,哈哈哈哈哈哈哈哈哈,突然想到这篇论文了。论文:SimMTM:ASimplePre-TrainingFrameworkforMaskedTime-SeriesModeling或者是:SimMTM:ASimplePre-TrainingFrameworkforMaskedTime-SeriesModelingGitHub:https://githu......
  • 点云分割网络---Point Transformer V2
    PDF:《PointTransformerV2:GroupedVectorAttentionandPartition-basedPooling》CODE:https://github.com/Gofinge/PointTransformerV2一、大体内容前面一篇文章介绍了PointTransformer,这一篇在其基础上进行改进,提出了强大且高效的PointTransformerV2模型,考虑到原......
  • 从GPT-1看Transformer的崛起
    要深入理解大语言模型(LLM)的内部工作机制,不妨先从GPT-1模型开始。一、发展历程2017年,Google推出了Transformer模型,这一架构因其在性能上的显著优势迅速吸引了OpenAI团队的注意。《AttentionIsAllYouNeed》https://arxiv.org/abs/1706.03762OpenAI随后将研发重点转移到Tra......
  • Java 中的主方法( main 方法)签名是什么?为什么主方法必须是静态的?
    在Java中,主方法(main方法)是每个应用程序的起点,是Java虚拟机(JVM)调用的第一个方法。它的签名是固定的,必须符合以下格式:1publicstaticvoidmain(String[]args)这个签名包含了几个关键的部分:public:表明这个方法是公开的,可以从任何地方被调用。static:表示这是一个静态方法,意味......
  • Transformer模型:RNN长期依赖问题的革命性解决方案
    ......
  • Transformer问答系统:对话式AI的新纪元
    Transformer问答系统:对话式AI的新纪元Transformer模型自从由Vaswani等人在2017年提出以来,已经在自然语言处理(NLP)领域引起了革命性的变化。特别是在问答系统(QuestionAnswering,QA)中,Transformer模型以其卓越的性能和灵活性,成为了构建高效对话式AI的关键技术。本文将深入探......
  • AIGC应用案例
    AIGC(人工智能生成内容)技术在多个领域有着广泛的应用,以下我将详细介绍几个具体的AIGC应用案例,并尝试提供一个具有参考价值的代码示例。1.案例一:个性化财务助手(BankofAmerica的Erica)1.1内容介绍BankofAmerica推出的AI助手Erica是一个典型的AIGC技术应用案例。Erica通过自......
  • Go标准库:container/list
    Go标准库:container/list原创 孟斯特 孟斯特 2024-07-0316:03 北京 听全文在Go语言的标准库中,container/list包提供了一个双向链表的实现,这对于需要频繁插入和删除操作的场景非常有用。双向链表是一种线性数据结构,它由一系列节点组成,每个节点包含数据和两个指针,分别......
  • 数据万象盲水印 - AIGC的“保护伞”
    导语近期AIGC的爆火让人们觉得AI似乎无所不能,打工人们已然将AI发展成了工作的一大助手,但同样也伴随着很多AI的受害者。一些专家、画家、学者们发现自己的“作品风格”正在被AI“抄袭剽窃”。传统水印的痛点在当今的数字时代,图片被广泛应用于各种场景,包括广告、社交媒体、电......
  • 足球预测软件,AI技术的又一大应用
    一、引言足球,这毫无疑问是备受全球喜爱的运动项目之一。围绕这一运动,世界人们陆续举办了世界杯、欧洲杯、欧冠等风靡全球的盛大赛事。随着欧洲杯等赛事的开幕,预测比赛胜负也成为了广大球迷的爱好,但足球赛事一直以胜负难料著称,不过,随着AI人工智能技术不断发展,足球的不可预测性......