首页 > 其他分享 >机器学习——循环神经网络的实现

机器学习——循环神经网络的实现

时间:2023-11-12 14:12:46浏览次数:36  
标签:vocab 机器 梯度 state num 神经网络 循环 params device

独热编码

回想一下,在train_iter中,每个词元都表示为一个数字索引, 将这些索引直接输入神经网络可能会使学习变得困难。 我们通常将每个词元表示为更具表现力的特征向量。 最简单的表示称为独热编码(one-hot encoding), 它在 3.4.1节中介绍过。

简言之,将每个索引映射为相互不同的单位向量: 假设词表中不同词元的数目为N(len(vocab))词元索引的范围为0到N-1。如果词元的索引是整数i ,那么我们将创建一个长度为N的全0向量, 并将第i处的元素设置为1。 此向量是原始词元的一个独热向量。 索引为0和2独热向量如下所示:<br class="Apple-interchange-newline">

F.one_hot(torch.tensor([0, 2]), len(vocab))
tensor([[1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
         0, 0, 0, 0],
        [0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
         0, 0, 0, 0]])

我们每次采样的小批量数据形状是二维张量: (批量大小,时间步数)。 one_hot函数将这样一个小批量数据转换成三维张量, 张量的最后一个维度等于词表大小(len(vocab))。 我们经常转换输入的维度,以便获得形状为 (时间步数,批量大小,词表大小)的输出。 这将使我们能够更方便地通过最外层的维度, 一步一步地更新小批量数据的隐状态。

X = torch.arange(10).reshape((2, 5))
F.one_hot(X.T, 28).shape
torch.Size([5, 2, 28])

 

初始化模型参数

接下来,我们初始化循环神经网络模型的模型参数。 隐藏单元数num_hiddens是一个可调的超参数。 当训练语言模型时,输入和输出来自相同的词表。 因此,它们具有相同的维度,即词表的大小。

 

def get_params(vocab_size, num_hiddens, device):
    num_inputs = num_outputs = vocab_size

    def normal(shape):
        return torch.randn(size=shape, device=device) * 0.01

    # 隐藏层参数
    W_xh = normal((num_inputs, num_hiddens))
    W_hh = normal((num_hiddens, num_hiddens))
    b_h = torch.zeros(num_hiddens, device=device)
    # 输出层参数
    W_hq = normal((num_hiddens, num_outputs))
    b_q = torch.zeros(num_outputs, device=device)
    # 附加梯度
    params = [W_xh, W_hh, b_h, W_hq, b_q]
    for param in params:
        param.requires_grad_(True)
    return params

 

 

循环神经网络模型

 

 定义了所有需要的函数之后,接下来我们创建一个类来包装这些函数, 并存储从零开始实现的循环神经网络模型的参数。

class RNNModelScratch: #@save
    """从零开始实现的循环神经网络模型"""
    def __init__(self, vocab_size, num_hiddens, device,
                 get_params, init_state, forward_fn):
        self.vocab_size, self.num_hiddens = vocab_size, num_hiddens
        self.params = get_params(vocab_size, num_hiddens, device)
        self.init_state, self.forward_fn = init_state, forward_fn

    def __call__(self, X, state):
        X = F.one_hot(X.T, self.vocab_size).type(torch.float32)
        return self.forward_fn(X, state, self.params)

    def begin_state(self, batch_size, device):
        return self.init_state(batch_size, self.num_hiddens, device)

 让我们检查输出是否具有正确的形状。 例如,隐状态的维数是否保持不变。

num_hiddens = 512
net = RNNModelScratch(len(vocab), num_hiddens, d2l.try_gpu(), get_params,
                      init_rnn_state, rnn)
state = net.begin_state(X.shape[0], d2l.try_gpu())
Y, new_state = net(X.to(d2l.try_gpu()), state)
Y.shape, len(new_state), new_state[0].shape 
(torch.Size([10, 28]), 1, torch.Size([2, 512]))

 

预测

让我们首先定义预测函数来生成prefix之后的新字符, 其中的prefix是一个用户提供的包含多个字符的字符串。 在循环遍历prefix中的开始字符时, 我们不断地将隐状态传递到下一个时间步,但是不生成任何输出。 这被称为预热(warm-up)期, 因为在此期间模型会自我更新(例如,更新隐状态), 但不会进行预测。 预热期结束后,隐状态的值通常比刚开始的初始值更适合预测, 从而预测字符并输出它们。(虽然在理论上可以在预测时同时顺便进行状态更新,但在实际应用中,预热器可以提前进行状态更新,以便在预测时更快地生成结果。)

 

def predict_ch8(prefix, num_preds, net, vocab, device):  #@save
    """在prefix后面生成新字符"""
    state = net.begin_state(batch_size=1, device=device)
    outputs = [vocab[prefix[0]]]
    get_input = lambda: torch.tensor([outputs[-1]], device=device).reshape((1, 1))
    for y in prefix[1:]:  # 预热期
        _, state = net(get_input(), state)
        outputs.append(vocab[y])
    for _ in range(num_preds):  # 预测num_preds步
        y, state = net(get_input(), state)
        outputs.append(int(y.argmax(dim=1).reshape(1)))
    return ''.join([vocab.idx_to_token[i] for i in outputs])

 

 现在我们可以测试predict_ch8函数。 我们将前缀指定为time traveller, 并基于这个前缀生成10个后续字符。 鉴于我们还没有训练网络,它会生成荒谬的预测结果。

predict_ch8('time traveller ', 10, net, vocab, d2l.try_gpu())、
'time traveller aaaaaaaaaa'

 

 

梯度裁剪

裁剪梯度是优化算法中一种常用的技术,用于控制梯度的大小,以避免梯度爆炸(梯度过大)或梯度消失(梯度过小)的问题。其中,将梯度投影回给定半径的球是一种流行的替代方案,下面我来详细解释一下:

  1. 裁剪梯度的概念: 在深度学习中,参数更新通常是通过反向传播计算得到的梯度,梯度表示了损失函数关于参数的变化率。然而,有时梯度可能会非常大,导致参数更新过大,这可能会使模型不稳定甚至无法收敛。相反,梯度过小可能会导致训练过慢,或者陷入局部最优解。为了避免这些问题,我们可以对梯度进行裁剪,即限制梯度的范数。

  2. 将梯度投影回给定半径的球: 这种方法的思想是,当梯度的范数(或长度)超过了一个指定的阈值(例如,给定半径),我们可以按比例缩放梯度向量,使其重新落在以原点为圆心、给定半径为半径的球面上。这样做可以保证梯度的范数不会超过给定的阈值,同时保持了梯度的方向。具体来说,如果梯度的范数超过了给定的阈值,我们可以按如下方式进行操作:

    • 计算当前梯度的范数。
    • 如果梯度的范数超过了给定阈值,我们将梯度向量缩放至与给定半径相切。

这种方法的好处在于,它可以有效地控制梯度的大小,从而提高训练的稳定性,同时避免出现梯度爆炸或梯度消失的问题。在实际的深度学习训练中,对于一些梯度范围较大的情况,采用梯度裁剪的技术能够帮助模型更好地学习并取得更好的性能。

def grad_clipping(net, theta):  #@save
    """裁剪梯度"""
    if isinstance(net, nn.Module):
        params = [p for p in net.parameters() if p.requires_grad]
    else:
        params = net.params
    norm = torch.sqrt(sum(torch.sum((p.grad ** 2)) for p in params))
    if norm > theta:
        for param in params:
            param.grad[:] *= theta / norm

 

训练

 

在训练模型之前,让我们定义一个函数在一个迭代周期内训练模型。 它与我们训练 3.6节模型的方式有三个不同之处。

 

  1. 序列数据的不同采样方法(随机采样和顺序分区)将导致隐状态初始化的差异。

  2. 我们在更新模型参数之前裁剪梯度。 这样的操作的目的是,即使训练过程中某个点上发生了梯度爆炸,也能保证模型不会发散。

  3. 我们用困惑度来评价模型。如 8.4.4节所述, 这样的度量确保了不同长度的序列具有可比性。

 

具体来说,当使用顺序分区时, 我们只在每个迭代周期的开始位置初始化隐状态。 由于下一个小批量数据中的第个子序列样本 与当前第个子序列样本相邻, 因此当前小批量数据最后一个样本的隐状态, 将用于初始化下一个小批量数据第一个样本的隐状态。 这样,存储在隐状态中的序列的历史信息 可以在一个迭代周期内流经相邻的子序列。 然而,在任何一点隐状态的计算, 都依赖于同一迭代周期中前面所有的小批量数据, 这使得梯度计算变得复杂(类似于多层的神经网络模型,存梯度爆炸和梯度衰减的风险)。 为了降低计算量,在处理任何一个小批量数据之前, 我们先分离梯度,使得隐状态的梯度计算总是限制在一个小批量数据的时间步内。

 

当使用随机抽样时,因为每个样本都是在一个随机位置抽样的, 因此需要为每个迭代周期重新初始化隐状态。 与 3.6节中的 train_epoch_ch3函数相同,updater是更新模型参数的常用函数。 它既可以是从头开始实现的d2l.sgd函数, 也可以是深度学习框架中内置的优化函数。

 

总结

 

  • 我们可以训练一个基于循环神经网络的字符级语言模型,根据用户提供的文本的前缀生成后续文本。

  • 一个简单的循环神经网络语言模型包括输入编码、循环神经网络模型和输出生成。

  • 循环神经网络模型在训练以前需要初始化状态,不过随机抽样和顺序划分使用初始化方法不同。

  • 当使用顺序划分时,我们需要分离梯度以减少计算量。

  • 在进行任何预测之前,模型通过预热期进行自我更新(例如,获得比初始值更好的隐状态)。

  • 梯度裁剪可以防止梯度爆炸,但不能应对梯度消失。

 

标签:vocab,机器,梯度,state,num,神经网络,循环,params,device
From: https://www.cnblogs.com/yccy/p/17827116.html

相关文章

  • 机器学习——循环神经网络
    隐状态 无隐状态的神经网络 有隐状态的循环神经网络循环神经网络(recurrentneuralnetworks,RNNs)是具有隐状态的神经网络。   基于循环神经网络的字符级语言模型 回想一下 8.3节中的语言模型,我们的目标是根据过去的和当前的词元预测下一个词元,因此我们将原始......
  • 【洛谷 P2669】[NOIP2015 普及组] 金币 题解(循环)
    [NOIP2015普及组]金币题目背景NOIP2015普及组T1题目描述国王将金币作为工资,发放给忠诚的骑士。第一天,骑士收到一枚金币;之后两天(第二天和第三天),每天收到两枚金币;之后三天(第四、五、六天),每天收到三枚金币;之后四天(第七、八、九、十天),每天收到四枚金币……;这种工资发放模式会一直这......
  • R语言机器学习方法分析二手车价格影响因素
    原文链接:https://tecdat.cn/?p=34238原文出处:拓端数据部落公众号分析师:SimingYan比较多种机器学习方法优劣性,分析二手车价格影响因素,训练模型预测二手车价格。任务 / 目标根据印度二手车交易市场1996-2019年数据,进行清洗,建模,预测。数据源准备7253笔交易数据包括汽车属......
  • 使用ResponseSelector实现校园招聘FAQ机器人
      本文主要介绍使用ResponseSelector实现校园招聘FAQ机器人,回答面试流程和面试结果查询的FAQ问题。FAQ机器人功能分为业务无关的功能和业务相关的功能2类。一.data/nlu.yml文件  与普通意图相比,ResponseSelector训练数据中的意图采用group/intent格式(检索意图)。比如,普通意图......
  • 【深度学习笔记】第3章-神经网络基础
    参考书籍:邓立国等《python深度学习原理、算法与案例》清华大学出版社3.3感知机3.3.1感知机模型感知机,又称阈值逻辑单元(ThresholdLogicUnit,TLU)/线性阈值单元(LinearThresholdUnit,LTU)经典数据集:IrisDataSet(鸢尾属植物数据集)但是这个数据集有些复杂,没什么必要用,自己写......
  • 【6.0】Go语言基础之循环语句
    【一】判断语句if~elsepackagemainimport"fmt"//if~else的使用//[1]语法//语法if条件{条件符合,执行代码}//语法elseif条件{条件符合,执行代码}//语法else{条件符合,执行代码}//[2]执行代码的左侧{必须跟关键字在同一行funcmain(){ score:......
  • 深度学习模型---卷积神经网络
    深度学习深度学习模型是一种机器学习方法,它模仿人脑神经网络的结构和功能,通过多层次的神经网络进行学习和推断。深度学习模型在计算机视觉、自然语言处理、语音识别等领域取得了显著的成果。深度学习模型的基本单元是神经网络,它由大量的人工神经元组成,每个神经元都与其他神经元......
  • wechaty撸一个属于自己的微信机器人(Python版接入文心一言)
    前言说明:机器人的框架找了很久,由于很多框架都不能使用了或者封号率极高,最后选择了wewechaty,wechaty是可以使用ipad协议,主要是以node写的,因为打算机器人接入爬虫项目,所以特意用了python版本,对于python版网上教程太少且模糊且时间过于久远,所做以此文为采坑记录。前期准备:tok......
  • 用循环嵌套输出菱形
    row=eval(input('请输入菱形的行数:'))#定义输入行数while的第一步:初始化变量whilerow%2==0:#当为奇数是继续执行,偶数时错误,重新输入while的第二步:条件判断print('请重新输入菱形的行数')#while的第三步:语句块row=eval(in......
  • 安装本地化docker registry,使其他机器能够发布容器
    sudodockerpullregistry:latestdockerrun-d-p5000:5000--nameregistryregistry:latest http://localhost:5000/v2/_catalog, 检查运行成功此时在子机3号上访问:http://192.168.170.130:5000/v2/_catalog,  ......