首页 > 其他分享 >用于自然语言处理的循环神经网络RNN

用于自然语言处理的循环神经网络RNN

时间:2024-11-25 12:32:55浏览次数:8  
标签:上下文 架构 RNN 神经网络 循环 LSTM 自然语言

前一篇:《人工智能模型学习到的知识是怎样的一种存在?》

序言:在人工智能领域,卷积神经网络(CNN)备受瞩目,但神经网络的种类远不止于此。实际上,不同类型的神经网络各有其独特的应用场景。在接下来的几节中,我将带大家走近循环神经网络(RNN),深入了解其原理及其在处理人类自然语言中的改进与应用。

需要注意的是,目前自然语言处理领域主流的技术框架是基于 Transformer 架构的模型(如ChatGPT)。Transformer 克服了 RNN 在长序列上下文捕捉中的局限性,并以更高的训练效率和性能成为行业标准。我们在前面已经详细介绍过 Transformer 的相关内容。

本节对 RNN 的介绍,旨在帮助大家理解人工智能技术在序列建模领域的历史演进,以及它是如何一步步发展到今天的状态的。

在前面的几章节中,我们了解了如何对文本进行分词和序列化,将句子转换为数字张量,然后将其输入神经网络。接着,在上一章节中,我们进一步学习了嵌入方法,这是一种让具有相似意义的单词聚集在一起以便于计算情感的方式。这种方法效果非常好,正如你在构建讽刺分类器时所看到的那样。然而,这种方法也有一个局限性,那就是句子并不仅仅是单词的集合——通常,单词出现的顺序会决定句子的整体意义。形容词可以增强或改变它们所修饰名词的意义。例如,“蓝色”(blue)这个词从情感角度可能毫无意义,“天空”(sky)这个词亦然,但当你把它们组合成“蓝天”(blue sky)时,就传达出了一种通常是积极的情感。而有些名词也可能限定其他名词,比如“雨云”(rain cloud)、“书桌”(writing desk)、“咖啡杯”(coffee mug)。

为了考虑到像这样的序列信息,我们需要一种额外的方法,那就是将循环性融入到模型架构中。在接下来的几节中,我们将了解实现这一点的不同方法。我们将探讨如何学习序列信息,以及如何利用这些信息来构建一种更能理解文本的模型:循环神经网络(RNN)。

循环的基础

为了理解循环是如何工作的,首先让我们回顾一下本书迄今为止所使用模型的局限性。本质上,创建模型的过程有点像图 7-1 所示。你提供数据和标签,定义一个模型架构,模型学习将数据与标签匹配的规则。这些规则随后变成了一个 API,能够为未来的数据返回预测标签。


图 7-1. 模型创建的高层视图

不过,你可以看到,数据是被整体塞进去的。没有涉及到任何细节,也没有努力去理解数据出现的顺序。这意味着,像“blue”(蓝色)和“sky”(天空)这样的词,在“今天我很沮丧,因为天空是灰色的”(today I am blue, because the sky is gray)和“今天我很开心,有美丽的蓝天”(today I am happy, and there’s a beautiful blue sky)这样的句子中,它们的意义没有任何区别。对于我们来说,这些词的用法区别是显而易见的,但对于一个像这里所示架构的模型来说,真的没有区别。

那么我们该怎么解决这个问题呢?首先,让我们探讨一下循环的本质,从这里你就能了解基本的 RNN 是如何工作的。

考虑一下著名的斐波那契数列。如果你不熟悉它,我在图 7-2中列出了一些数字。


图 7-2. 斐波那契数列的前几个数字

这个数列的理念是,每个数字都是它前面两个数字的和。所以如果我们从 1 和 2 开始,下一个数字就是 1 + 2,等于 3。再下一个是 2 + 3,等于 5,然后是 3 + 5,等于 8,以此类推。

我们可以把这个过程放到一个计算图中,得到图 7-3。


图 7-3. 斐波那契数列的计算图表示

在这里你可以看到,我们将 1 和 2 输入到函数中,得到输出 3。我们把第二个参数(2)带到下一步,并与前一步的输出(3)一起输入函数。这次的输出是 5,然后它与前一步的第二个参数(3)一起输入函数,产生输出 8。这个过程无限继续,每一步的操作都依赖于之前的结果。左上角的 1 可以说是“存活”在整个过程中。它是被输入到第二次运算的 3 的一部分,也是被输入到第三次运算的 5 的一部分,等等。因此,1 的某种本质贯穿于整个序列,虽然它对整体数值的影响逐渐减小。

这类似于循环神经元的架构。你可以在图 7-4中看到循环神经元的典型表示。


图 7-4. 一个循环神经元

在一个时间步长中,一个值 x 被输入到函数 F,因此通常标记为 xt。这会在该时间步产生一个输出 y,通常标记为 yt。它还产生一个值,被前馈到下一步,这由从 F 指向它自己的箭头表示。

如果你看看循环神经元在不同时间步中如何彼此协作,这会更清晰一些,你可以在图 7-5中看到。


图 7-5. 时间步中的循环神经元

在这里,x₀ 被操作得到 y₀ 和一个传递到下一步的值。下一步获取那个值和 x₁,产生 y₁ 和一个传递到下一步的值。再下一步获取那个值和 x₂,产生 y₂ 和一个传递到下一步的值,就这样一直下去。这和我们在斐波那契数列中看到的类似,我总觉得这是记住 RNN 工作原理的一个好记忆方法。

将循环扩展到语言

在上一节中,你看到了一个在多个时间步上运行的循环神经网络如何帮助在序列中保持上下文。实际上,RNN 将在本书后面用于序列建模。但是,当涉及到语言时,使用像图 7-4 和图 7-5 中那样的简单 RNN,可能会错过一些细微之处。就像之前提到的斐波那契数列例子,被传递的上下文量会随着时间的推移而减小。第 1 步神经元的输出在第 2 步的影响很大,在第 3 步更小,在第 4 步更小,依此类推。

所以,如果我们有一句像“今天有一片美丽的蓝色<…>”这样的句子,“蓝色”这个词对下一个词有很大的影响;我们可以猜测它很可能是“天空”。但是,如果上下文来自句子更前面的地方呢?例如,考虑这句话:“我住在爱尔兰,所以在高中我不得不学习如何说和写<…>。”

那个 <…> 是盖尔语,但真正给我们上下文的词是“爱尔兰”,它在句子中更靠前的位置。因此,为了能够识别 <…> 应该是什么,我们需要一种方法来在更长的距离上保持上下文。RNN 的短期记忆需要变得更长,为此,发明了一种对架构的增强,称为长短期记忆(LSTM)。

虽然我不会详细介绍 LSTM 的底层架构是如何工作的,但如图 7-6 所示的高层图解传达了主要观点。要了解更多关于内部操作的内容,可以查看 Christopher Olah 关于该主题的优秀博文。

LSTM 架构通过添加一个“细胞状态”来增强基本的 RNN,这使得上下文不仅可以从一步到下一步保持,还可以在整个步骤序列中保持。记住这些是神经元,以神经元的方式学习,你可以看到这确保了重要的上下文会随着时间被学习。


图 7-6. LSTM 架构的高级视图

LSTM 的一个重要部分是它可以是双向的——时间步既向前又向后迭代,因此可以在两个方向上学习上下文。请参见图 7-7 获取其高级视图。


图 7-7. LSTM 双向架构的高级视图

这样,既进行了从 0 到 number_of_steps 的评估,也进行了从 number_of_steps 到 0 的评估。在每个步骤中,y 的结果是“前向”传递和“后向”传递的聚合。你可以在图 7-8 中看到这一点。


图 7-8. 双向 LSTM

将每个时间步的每个神经元视为 F₀、F₁、F₂ 等。时间步的方向已显示,所以在前向方向上对 F₁ 的计算是 F₁(→),在反向方向上是 (←)F₁。这些值被聚合以给出该时间步的 y 值。此外,细胞状态也是双向的。这对于管理句子中的上下文非常有用。再次考虑这句话:“我住在爱尔兰,所以在高中我不得不学习如何说和写<某物>”,你可以看到 <某物> 被“爱尔兰”这个上下文词限定了。但如果反过来呢:“我住在<这个国家>,所以在高中我不得不学习如何说和写盖尔语”?你可以看到,通过逆向遍历句子,我们可以了解 <这个国家> 应该是什么。因此,使用双向 LSTM 对于理解文本中的情感非常强大(正如你将在第 8 章中看到的,它们对于生成文本也非常强大!)。

当然,LSTM,特别是双向的,有很多复杂的过程,所以训练会很慢。这时候,值得投资一个 GPU,或者至少在可能的情况下使用 Google Colab 的托管 GPU。

总结:本节我们介绍了循环神经网络(RNN),并探讨了如何通过改进使其更好地应用于人类语言处理。下一节中,我们将深入讨论 RNN 在自然语言处理中的具体应用及实现方法。

标签:上下文,架构,RNN,神经网络,循环,LSTM,自然语言
From: https://www.cnblogs.com/jellyai/p/18567322

相关文章

  • 2024 CCF BDCI 小样本条件下的自然语言至图查询语言翻译大模型微调|Google T5预训练语
    代码详见https://gitee.com/wang-qiangsy/bdci目录一.赛题介绍1.赛题背景2.赛题任务二.关于GoogleT5预训练语言模型1.T5模型主要特点2.T5模型与赛题任务的适配性分析3.模型的优化三.解题思路1.数据准备2.数据处理3.模型训练4.模型评估四.代码实现1.配置类(Config)2.数据集类(Cyp......
  • 自然语言处理:第六十三章 阿里Qwen2 & 2.5系列
    本人项目地址大全:Victor94-king/NLP__ManVictor:CSDNofManVictor项目地址:QwenLM/Qwen2.5:Qwen2.5isthelargelanguagemodelseriesdevelopedbyQwenteam,AlibabaCloud.官网地址:你好,Qwen2|Qwen&Qwen2.5:基础模型大派对!|Qwen写在前面:笔者更新不......
  • 【淘汰9成NLP面试者的高频面题】RNN是如何基于时间进行参数学习(BPTT)的?
    【淘汰9成NLP面试者的高频面题】RNN是如何基于时间进行参数学习(BPTT)的?重要性:★★本题主要考察面试者有有以下几点:①理解RNN循环的概念,认识到截断的BPTT的必要性②理解深度学习框架在处理反向传播时需要在保存各个时刻的中间(前向计算)数据,会消耗大量的显存这是我常用......
  • RNN模型文本预处理--基本处理方法
    文本处理的基本方法在自然语言处理(NLP)领域,文本处理是一项基础且重要的任务。它涉及将原始文本转换为计算机可处理的形式,以便执行诸如情感分析、文本分类、信息检索等多种应用。本文将介绍文本处理的几个基本方法:分词、词性标注和命名实体识别,并提供相应的Python代码示例。......
  • 【淘汰9成NLP面试者的高频面题】RNN是如何基于时间进行参数学习(BPTT)的?
    【淘汰9成NLP面试者的高频面题】RNN是如何基于时间进行参数学习(BPTT)的?重要性:★★本问题主要考察面试者有有以下几点:①理解RNN循环的概念,认识到截断的BPTT的必要性②理解深度学习框架在处理反向传播时需要在保存各个时刻的中间(前向计算)数据,会消耗大量的显存这是我常用......
  • 图神经网络在欺诈检测与蛋白质功能预测中的应用概述
    金融交易网络和蛋白质结构存在共同特征:它们在欧几里得(x,y)空间中难以建模,需要通过复杂、大规模且异构的图结构进行精确编码和表征。图是表示关系数据的自然结构范式,特别是在金融网络和蛋白质结构等领域。这类图能够捕捉实体间的复杂关系和交互模式,例如金融系统中的账户间交易或......
  • PyTorch框架——基于深度学习YOLOv3神经网络目标检测x光安检违禁品检查系统
    基于深度学习神经网络YOLOv3目标检测的x光安检违禁品检查系统,其能识别的违禁品有5种(刀、枪、扳手、钳子、剪刀),见如下:第一步:YOLOv3介绍yoloV3以V1,V2为基础进行的改进,主要有:利用多尺度特征进行目标检测;先验框更丰富;调整了网络结构;对象分类使用logistic代替了softmax,更适用于......
  • 搞清楚这个老六的真面目!逐层‘剥开’人工智能中的卷积神经网络(CNN)
    第三章:超越基础——图像中的特征检测上一篇《揭开计算机视觉的神秘面纱,原来机器是这样“看图”的!》本篇序言:上一篇我们实现并训练了一个神经网络,成功让计算机“看懂”了图像。可以说,我们已经一只脚跨进了AI研发的大门。不过,虽然我们迈入了AI这个神秘的领域,实际上,我们还只是......
  • LSTM-ANN基于长短期记忆神经网络结合人工神经网络的多变量回归预测Matlab
    LSTM-ANN基于长短期记忆神经网络结合人工神经网络的多变量回归预测Matlab目录LSTM-ANN基于长短期记忆神经网络结合人工神经网络的多变量回归预测Matlab预测结果评价指标基本介绍程序设计参考资料预测结果评价指标训练集数据的R2为:0.99805测试集数据的R2为:0.9......
  • AI模型架构如(CNN)、(RNN)(LSTM、GRU)、(如BERT、GPT等)在不同领域中的具体应用
    AI模型架构如卷积神经网络(CNN)、循环神经网络(RNN)及其变体(如LSTM、GRU)、以及基于Transformer架构的模型(如BERT、GPT等)在现实生活中有广泛的应用。以下是这些模型在不同领域中的具体应用和形态表现:一、卷积神经网络(CNN)1.图像分类应用案例:手机中的人脸识别、社交媒体中的自......