与传统RNN相比，AI模型当红大神Transformer有什么新魔法呢？

时间：2024-07-03 21:30:52浏览次数：25

在上一篇文章“AI模型大宗师Transformer的Encoder工具”里面提到“自注意力机制”，有些伙伴可能不太理解，今天我再用个例子细说一下。

下面，我们用一个实际的文本处理例子来看看传统的循环神经网络（RNN）和引入自注意力机制的Transformer模型在处理长距离依赖关系上的差异。

假设我们有以下句子：“去年我去了西湖，那里的风景美丽极了。我决定明年再回去。”

传统循环神经网络（RNN）在处理这个句子时，会按顺序逐个处理单词。RNN将努力记忆“去年我去了西湖”这一信息，以便在处理后续的“我决定明年再回去”时能够关联起来。然而，由于RNN在处理序列时是一步一步进行的，它可能会遇到短距离信息的覆盖问题，即所谓的“遗忘”问题。当句子很长或者有多个嵌套的句子结构时，RNN可能难以捕捉到“西湖”和“再回去”之间的长距离依赖关系。

引入自注意力机制的Transformer模型在处理这个句子时，会使用自注意力机制来同时考虑句中的所有单词。在处理“我决定明年再回去”这一小部分时，自注意力机制允许模型直接关联到“去年我去了西湖”中的“西湖”，从而建立了一个直接的联系。这是因为在计算注意力分数时，每个单词的表示（查询）会与所有其他单词的表示（键）进行比较，从而直接捕捉到它们之间的相关性，无论它们在文本中的距离如何。

当Transformer处理“再回去”这个词组时：

1. 查询、键、值向量：每个词被转换为查询（Query）、键（Key）、值（Value）向量。

2. 计算注意力分数：对于“再回去”的查询向量，模型计算与句中每个词的键向量（包括“西湖”的键向量）的点积，得到分数。

3. 应用Softmax函数：这些分数经过Softmax处理，转换为概率分布，表示对“再回去”而言，句中每个词的相关重要性。

4. 加权求和：根据上述概率分布，对应的值向量进行加权求和，形成“再回去”的新表示。

5. 输出：这个新表示捕捉到了“再回去”与“西湖”之间的关联，使得后续的模型部分能够正确解释这两个词之间的关系，即使它们在文本中相隔较远。

Transformer模型通过自注意力机制能够更有效地捕捉长距离依赖关系，因为它能够在处理每个单词时考虑到整个句子的上下文。这使得Transformer特别适合处理包含复杂结构和长距离依赖的文本数据。

标签：Transformer,RNN,AI,西湖,处理,注意力,向量
From： https://blog.csdn.net/jstar1823/article/details/140158207

SimMTM: 用于掩码时间序列建模的简单预训练框架《SimMTM: A Simple Pre-Training Fram
今天是2024年7月3日10:15，写一篇1月7日就看过的论文，哈哈哈哈哈哈哈哈哈，突然想到这篇论文了。论文：SimMTM:ASimplePre-TrainingFrameworkforMaskedTime-SeriesModeling或者是：SimMTM:ASimplePre-TrainingFrameworkforMaskedTime-SeriesModelingGitHub：https://githu......
点云分割网络---Point Transformer V2
PDF:《PointTransformerV2:GroupedVectorAttentionandPartition-basedPooling》CODE:https://github.com/Gofinge/PointTransformerV2一、大体内容前面一篇文章介绍了PointTransformer，这一篇在其基础上进行改进，提出了强大且高效的PointTransformerV2模型，考虑到原......
从GPT-1看Transformer的崛起
要深入理解大语言模型（LLM）的内部工作机制，不妨先从GPT-1模型开始。一、发展历程2017年，Google推出了Transformer模型，这一架构因其在性能上的显著优势迅速吸引了OpenAI团队的注意。《AttentionIsAllYouNeed》https://arxiv.org/abs/1706.03762OpenAI随后将研发重点转移到Tra......
Java 中的主方法（ main 方法）签名是什么？为什么主方法必须是静态的？
在Java中，主方法（main方法）是每个应用程序的起点，是Java虚拟机（JVM）调用的第一个方法。它的签名是固定的，必须符合以下格式：1publicstaticvoidmain(String[]args)这个签名包含了几个关键的部分：public：表明这个方法是公开的，可以从任何地方被调用。static：表示这是一个静态方法，意味......
Transformer模型：RNN长期依赖问题的革命性解决方案
......
Transformer问答系统：对话式AI的新纪元
Transformer问答系统：对话式AI的新纪元Transformer模型自从由Vaswani等人在2017年提出以来，已经在自然语言处理（NLP）领域引起了革命性的变化。特别是在问答系统（QuestionAnswering,QA）中，Transformer模型以其卓越的性能和灵活性，成为了构建高效对话式AI的关键技术。本文将深入探......
AIGC应用案例
AIGC（人工智能生成内容）技术在多个领域有着广泛的应用，以下我将详细介绍几个具体的AIGC应用案例，并尝试提供一个具有参考价值的代码示例。1.案例一：个性化财务助手（BankofAmerica的Erica）1.1内容介绍BankofAmerica推出的AI助手Erica是一个典型的AIGC技术应用案例。Erica通过自......
Go标准库：container/list
Go标准库：container/list原创孟斯特孟斯特 2024-07-0316:03 北京听全文在Go语言的标准库中，container/list包提供了一个双向链表的实现，这对于需要频繁插入和删除操作的场景非常有用。双向链表是一种线性数据结构，它由一系列节点组成，每个节点包含数据和两个指针，分别......
数据万象盲水印 - AIGC的“保护伞”
导语近期AIGC的爆火让人们觉得AI似乎无所不能，打工人们已然将AI发展成了工作的一大助手，但同样也伴随着很多AI的受害者。一些专家、画家、学者们发现自己的“作品风格”正在被AI“抄袭剽窃”。传统水印的痛点在当今的数字时代，图片被广泛应用于各种场景，包括广告、社交媒体、电......
足球预测软件，AI技术的又一大应用
一、引言足球，这毫无疑问是备受全球喜爱的运动项目之一。围绕这一运动，世界人们陆续举办了世界杯、欧洲杯、欧冠等风靡全球的盛大赛事。随着欧洲杯等赛事的开幕，预测比赛胜负也成为了广大球迷的爱好，但足球赛事一直以胜负难料著称，不过，随着AI人工智能技术不断发展，足球的不可预测性......

与传统RNN相比，AI模型当红大神Transformer有什么新魔法呢？

相关文章

赞助商

阅读排行