首页 > 其他分享 >LSTM——长短期记忆神经网络

LSTM——长短期记忆神经网络

时间:2024-10-28 11:18:15浏览次数:9  
标签:layers self 长短期 神经网络 num LSTM hidden size

目录

1.LSTM 工作原理

2.LSTM的代码实现

3.代码详解


        LSTM(Long Short-Term Memory)是一种特殊的循环神经网络(RNN),用于解决长序列中的长期依赖问题。它通过引入门机制,控制信息的流入、保留和输出,从而在避免梯度消失或爆炸的情况下捕获较长序列的依赖关系。以下是LSTM的工作原理和代码实现


1.LSTM 工作原理

        LSTM 通过引入 细胞状态(Cell State)门控单元(Gates) 来控制信息流动,具体包含以下几个部分:

  1. 遗忘门(Forget Gate)
    遗忘门决定了上一个时间步的细胞状态是否需要保留或遗忘。遗忘门通过一个 sigmoid 激活函数(输出在 0 和 1 之间)来控制。输入为当前输入 x_t 和上一个隐藏状态 h_{t-1}​:

    f_t = \sigma(W_f \cdot [h_{t-1}, x_t] + b_f)
  2. 输入门(Input Gate)
    输入门决定当前时间步的新信息是否要更新到细胞状态中。它包含两个部分:

    • i_t:用于选择要添加的新信息。
    • \tilde{C}_t:候选细胞状态,通过 tanh 函数生成可能的新状态信息。
    i_t = \sigma(W_i \cdot [h_{t-1}, x_t] + b_i)                          \tilde{C}_t = \tanh(W_C \cdot [h_{t-1}, x_t] + b_C)
  3. 细胞状态更新
    细胞状态结合了遗忘门和输入门的输出来更新:

    C_t = f_t \ast C_{t-1} + i_t \ast \tilde{C}_t
  4. 输出门(Output Gate)
    输出门控制 LSTM 的最终输出,即新的隐藏状态 h_t。它将新的细胞状态 C_t​ 调整后输出:

    o_t = \sigma(W_o \cdot [h_{t-1}, x_t] + b_o)                                      h_t = o_t \ast \tanh(C_t)

2.LSTM的代码实现

        以下是使用 PyTorch 实现 LSTM 的代码示例:

import torch
import torch.nn as nn
import torch.optim as optim

# 定义 LSTM 模型
class LSTMModel(nn.Module):
    def __init__(self, input_size, hidden_size, output_size, num_layers=1):
        super(LSTMModel, self).__init__()
        self.hidden_size = hidden_size
        self.num_layers = num_layers
        self.lstm = nn.LSTM(input_size, hidden_size, num_layers, batch_first=True)
        self.fc = nn.Linear(hidden_size, output_size)

    def forward(self, x):
        # 初始化隐藏状态和细胞状态
        h0 = torch.zeros(self.num_layers, x.size(0), self.hidden_size).to(x.device)
        c0 = torch.zeros(self.num_layers, x.size(0), self.hidden_size).to(x.device)
        
        # 通过 LSTM 层
        out, _ = self.lstm(x, (h0, c0))
        
        # 获取最后一个时间步的输出
        out = self.fc(out[:, -1, :])
        return out

# 定义模型参数
input_size = 10    # 输入维度
hidden_size = 20   # 隐藏层维度
output_size = 1    # 输出维度
num_layers = 2     # LSTM 层数

# 初始化模型
model = LSTMModel(input_size, hidden_size, output_size, num_layers)

# 定义损失函数和优化器
criterion = nn.MSELoss()
optimizer = optim.Adam(model.parameters(), lr=0.001)

# 训练模型
num_epochs = 100
for epoch in range(num_epochs):
    # 假设输入数据 x 和标签 y
    x = torch.randn(32, 5, input_size)  # (batch_size, sequence_length, input_size)
    y = torch.randn(32, output_size)
    
    # 前向传播
    outputs = model(x)
    loss = criterion(outputs, y)
    
    # 反向传播和优化
    optimizer.zero_grad()
    loss.backward()
    optimizer.step()

    if (epoch+1) % 10 == 0:
        print(f'Epoch [{epoch+1}/{num_epochs}], Loss: {loss.item():.4f}')

3.代码详解

  • 输入数据:这里的 x 是一个三维张量,形状为 (批次大小, 序列长度, 输入维度),其中 序列长度 是 LSTM 模型需要捕获依赖的时间步。
  • 隐藏层和输出层:LSTM 输出的最后一个时间步的隐藏状态传递给全连接层 fc,用于输出预测结果。
  • 初始化状态:LSTM 层需要初始化隐藏状态 h0 和细胞状态 c0,这通常在每个新序列的起点进行。
  • 损失函数和优化器:使用均方误差损失函数(MSELoss)和 Adam 优化器来优化模型。

        通过调整输入、隐藏和输出维度,这种结构可以适用于各种时间序列预测、自然语言处理等任务。

标签:layers,self,长短期,神经网络,num,LSTM,hidden,size
From: https://blog.csdn.net/qq_56683019/article/details/143260548

相关文章

  • 改进的鲸鱼算法(IWOA)优化BP神经网络原理及Matlab代码复现
    目录0引言1数学模型2模型性能提升3Maltab代码3.1伪代码3.3IWOA-BP0引言为了缓解WOAQ易陷入局部最优和收敛精度低的问题,武泽权等人提出一种改进的鲸鱼优化算法(IWOA)。该算法通过准反向学习方法来初始化种群,提高种群的多样性;然后将线性收敛因子修改为非线性收......
  • 如何使用卷积神经网络(CNN)进行图像识别
    卷积神经网络(CNN)是一种强大的深度学习技术,用于图像识别任务。如何使用CNN来进行图像识别,包括:1、数据准备;2、网络架构设计;3、训练过程和应用实例。在使用CNN进行图像识别之前,首先需要准备好训练数据。这包括收集并整理具有标签的图像数据集。一、数据准备在使用CNN进行图像识别......
  • 神经网络中的偏置(bias)究竟有什么用
    神经网络中的偏置(bias)起着至关重要的作用,主要体现在以下几个方面:一、提高模型的表达力;二、增加模型的灵活性;三、保证激活函数工作在非线性区域;四、防止模型过拟合。神经网络的偏置参数可以增加模型的表达力。简单地说,偏置可以看作是一个模型可以调整的“阈值”。一、提高模型......
  • fbprophet时序模型和LSTM有什么优劣么
    fbprophet时序模型优点:1、易用性;2、灵活性;3、内置节假日效应等。fbProphet缺点:1、简单性;2、依赖性。LSTM的优势:1、学习复杂模式;2、适用于各自数据;3、模型调整。LSTM的劣势:1、计算复杂;2、难以理解;3、过拟合风险。LSTM模型通常需要更多的计算资源和时间来训练。一、fbprophet优......
  • 什么是循环神经网络(RNN)
    循环神经网络(RecurrentNeuralNetwork,RNN)是一种深度学习模型,专门设计用于处理序列数据和时间序列问题。它具有一种独特的结构,允许信息在网络内部进行循环传递,以处理前后相关性和时序性。RNN的关键特性是它具有内部循环结构,可以接受来自上一个时间步的输出作为当前时间步的输入。......
  • 人工智能_神经网络103_感知机_感知机工作原理_感知机具备学习能力_在学习过程中自我调
    由于之前一直对神经网络不是特别清楚,尤其是对神经网络中的一些具体的概念,包括循环,神经网络卷积神经网络以及他们具体的作用,都是应用于什么方向不是特别清楚,所以现在我们来做教程来具体明确一下。当然在机器学习之后还有深度学习,然后在深度学习中对各种神经网络的探讨就会比较......
  • 【机器学习】任务九:卷积神经网络(基于 Cifar-10 数据集的彩色图像识别分类、基于 CNN
    1.卷积神经网络        卷积神经网络(ConvolutionalNeuralNetwork,CNN)是一种专门用于处理数据网格结构(如图像、视频等)的深度学习模型,在计算机视觉任务中被广泛应用,如图像分类、目标检测、图像分割等。以下是卷积神经网络的详细介绍:1.1 卷积神经网络(CNN)结构及......
  • Python实现ARIMA的神经网络模型
    以下是一个使用Python实现ARIMA(自回归移动平均模型)的简单示例代码。在运行代码之前,请确保已经安装了pandas、numpy和statsmodels库。importnumpyasnpimportpandasaspdfromstatsmodels.tsa.arima.modelimportARIMAimportmatplotlib.pyplotasplt#生成一些......
  • 基于RBF神经网络的双参数自适应光储VSG构网逆变器MATLAB仿真模型
    “电气仔推送”获得资料(专享优惠)模型简介此模型源侧部分采用光伏发电系统与混合储能系统(蓄电池+超级电容),并网逆变器采用虚拟同步发电机(VSG)控制,为系统提供惯量阻尼支撑。同时对VSG控制部分进行了改进,采用RBF径向基神经网络对虚拟惯量及虚拟阻尼进行自适应控制,自适应方法完全复......
  • 神经网络学习记录(一):前向传播过程与损失计算
    本文记录了我在学习BP神经网络过程中的一些认识。在逐步学习的过程中,难免会对某些内容产生理解偏差,如有不当之处,恳请指正,感谢。前向传播过程(Forward_Propagation)前向传播(ForwardPropagation)是神经网络的核心计算过程,它的主要目的是计算神经网络的输出,即给定输入后经......