首页 > 其他分享 >《深度学习》—— 神经网络模型对手写数字的识别

《深度学习》—— 神经网络模型对手写数字的识别

时间:2024-09-21 22:49:32浏览次数:3  
标签:loss 对手 训练 模型 神经网络 model 识别 data self

文章目录

一、数据集介绍

  • 此模型训练的数据集是 torchvision 库中 datasets 数据包中的 MNIST 数据集

  • MNIST 数据集中含有 70000 张由不同的人手写数字图像,其中6000张训练集,1000张是测试集

  • 每张图片都是灰度的,大小为28x28像素,且每张图片中的数字都是剧中的,以减少预处理和加块模型训练

  • 导入此数据包,提取出训练集和测试集,并展示出部分手写图片,代码如下:

    from torchvision import datasets 
    
    """ 下载训练数据集 (包含训练数据+标签)"""
    training_data = datasets.MNIST(
        root='data',
        train=True,
        download=True,
        transform=ToTensor()  # 张量,图片是不能直接传入神经网络模型
    )  # 对于pytorch库能够识别的数据一般是tensor张量.
    # NumPy 数组只能在CPU上运行。Tensor可以在GPU上运行,这在深度学习应用中可以显著提高计算速度。
    
    """ 下载测试数据集(包含训练图片+标签)"""
    test_data = datasets.MNIST(
        root='data',
        train=False,
        download=True,
        transform=ToTensor()
    )
    print(len(training_data))
    
    """ 展示手写字图片 """
    # tensor --> numpy 矩阵类型的数据
    from matplotlib import pyplot as plt
    
    figure = plt.figure()
    for i in range(9):
        img, label = training_data[i + 59000]  # 提取第59000张图片
    
        figure.add_subplot(3, 3, i + 1)  # 图像窗口中创建多个小窗口,小窗口用于显示图片
        plt.title(label)
        plt.axis("off")  # 关闭坐标
        plt.imshow(img.squeeze(), cmap="gray")
        a = img.squeeze()  # img.squeeze()从张量img中去掉维度为1的(降维)
    plt.show()
    
  • 展示的手写数字图片如下:
    在这里插入图片描述

  • 下面链接是此数据集的官方解释(纯英文,可在浏览器中翻译成中文):

二、神经网络模型对手写数字识别步骤和完整代码

  • 步骤:

    • 1.下载训练集和测试集,并展示部分手写数字图片
    • 2.运用 DataLoader 数据包管理工具,在训练集和测试集数据中,将每64张图片打包成一个数据包
    • 3.构建一个神经网络模型类
    • 4.定义训练模型的函数
    • 5.定义测试模型的函数
    • 6.创建交叉熵损失函数对象,并创建一个优化器,用于更行模型中的权重参数,达到优化模型的效果
    • 7.定义模型训练轮数,进行模型训练,并打印出每一轮训练后的损失值,便于观察模型的优化效果
    • 8.传入训练数据,进行模型测试
  • 完整代码如下:

    import torch
    from torch import nn  # 导入神经网络模块
    from torch.utils.data import DataLoader  # 数据包管理工具,打包数据,
    from torchvision import datasets  # 封装了很多与图像相关的模型,数据集
    from torchvision.transforms import ToTensor  # 数据转换,张量,将其他类型的数据转换为tensor张量
    
    """
    MNIST包含70,000张手写数字图像:60,000张用于训练,10,000张用于测试。
    图像是灰度的,28x28像素的,并且居中的,以减少预处理和加快运行。
    """
    """ 下载训练数据集 (包含训练数据+标签)"""
    training_data = datasets.MNIST(
        root='data',
        train=True,
        download=True,
        transform=ToTensor()  # 张量,图片是不能直接传入神经网络模型
    )  # 对于pytorch库能够识别的数据一般是tensor张量.
    # NumPy 数组只能在CPU上运行。Tensor可以在GPU上运行,这在深度学习应用中可以显著提高计算速度。
    
    """ 下载测试数据集(包含训练图片+标签)"""
    test_data = datasets.MNIST(
        root='data',
        train=False,
        download=True,
        transform=ToTensor()
    )
    print("训练数据集数量为:{}".format(len(training_data)))
    print("测试数据集数量为:{}".format(len(test_data)))
    
    """ 展示手写字图片 """
    # tensor --> numpy 矩阵类型的数据
    from matplotlib import pyplot as plt
    
    figure = plt.figure()
    for i in range(9):
        img, label = training_data[i + 59000]  # 提取第59000张图片
    
        figure.add_subplot(3, 3, i + 1)  # 图像窗口中创建多个小窗口,小窗口用于显示图片
        plt.title(label)
        plt.axis("off")  # 关闭坐标
        plt.imshow(img.squeeze(), cmap="gray")
        a = img.squeeze()  # img.squeeze()从张量img中去掉维度为1的(降维)
    plt.show()
    
    training_dataloader = DataLoader(training_data, batch_size=64)  # 64张图片为一个包
    test_dataloader = DataLoader(test_data, batch_size=64)
    for X, y in test_dataloader:  # X 表示打包好的每一个数据包
        print(f"Shape of X [N, C, H, W]: {X.shape}")
        print(f"Shape of y: {y.shape} {y.dtype}")
        break
    
    """ 判断当前设备是否支持GPU,其中mps是苹果m系列芯片的GPU """
    device = "cuda" if torch.cuda.is_available() else "mps" if torch.backends.mps.is_available() else "cpu"
    print(f"Using {device} device")
    
    
    class NeuralNetwork(nn.Module):  # 通过调用类的形式来使用神经网络,神经网络的模型->nn.module
        def __init__(self):
            super().__init__()  # 继承的父类初始化
            self.flatten = nn.Flatten()  # 展开,创建一个展开对象flatten
            self.hidden1 = nn.Linear(28 * 28, 256)  # 第1个参数:有多少个神经元传入进来,第2个参数:有多少个数据传出去前一层神经元的个数,当前本层神经元个数
            self.hidden2 = nn.Linear(256, 128)  # 输出必需和标签的类别相同,输入必须是上一层的神经元个数
            self.hidden3 = nn.Linear(128, 256)
            self.hidden4 = nn.Linear(256, 128)
            self.out = nn.Linear(128, 10)
    
        #
        def forward(self, x):  # 前向传播,你得告诉它,数据的流向。是神经网络层连接起来,函数名称不能改。当你调用forward函数的时候,传入进来的图像数据
            x = self.flatten(x)
            x = self.hidden1(x)
            x = torch.sigmoid(x)  # 激活函数
            x = self.hidden2(x)
            x = torch.sigmoid(x)
            x = self.hidden3(x)
            x = torch.sigmoid(x)
            x = self.hidden4(x)
            x = torch.sigmoid(x)
            x = self.out(x)
            return x
    
    
    model = NeuralNetwork().to(device)  # 把刚刚创建的模型传入到gpu或cpu
    print(model)
    
    
    # 定义训练模型的函数
    def train(dataloader, model, loss_fn, optimizer):
        model.train()  # 告诉模型,开始训练,模型中w进行随机化操作,已经更新w。在训练过程中,w会被修改的
        # pytorch提供2种方式来切换训练和测试的模式,分别是:model.train()和 model.eval()。
        # 一般用法是:在训练开始之前写上model.trian(),在测试时写上model.eval()。
        batch_size_num = 1
        for X, y in dataloader:
            X, y = X.to(device), y.to(device)  # 把训练数据集和标签传入cpu或GPU
            pred = model.forward(X)  # .forward可以被省略,父类中已经对次功能进行了设置。自动初始化w权值
            loss = loss_fn(pred, y)  # 通过交叉熵损失函数计算损失值loss
    
            optimizer.zero_grad()  # 梯度值清零
            loss.backward()  # 反向传播计算得到每个参数的梯度值w
            optimizer.step()  # 根据梯度更新网络w参数
    
            loss_value = loss.item()  # 从tensor数据中提取数据出来,tensor获取损失值
            if batch_size_num % 200 == 0:
                print(f"loss: {loss_value:>7f} [number:{batch_size_num}]")
            batch_size_num += 1
    
    
    # 定义测试模型的函数
    def test(dataloader, model, loss_fn):
        size = len(dataloader.dataset)
        num_batches = len(dataloader)
        model.eval()  # 测试,w就不能再更新。
        test_loss, correct = 0, 0
        with torch.no_grad():  # 一个上下文管理器,关闭梯度计算。当你确认不会调用Tensor.backward()的时候
            for X, y in dataloader:
                X, y = X.to(device), y.to(device)
                pred = model.forward(X)
                test_loss += loss_fn(pred, y).item()  # test loss是会自动累加每一个批次的损失值
                correct += (pred.argmax(1) == y).type(torch.float).sum().item()
                a = (pred.argmax(1) == y)  # dim=1表示每一行中的最大值对应的索引号,dim=0表示每一列中的最大值对应的索引号
                b = (pred.argmax(1) == y).type(torch.float)
        test_loss /= num_batches  # 衡量模型测试的好坏。
        correct /= size  # 平均的正确率
        print(f"Test result: \n Accuracy: {(100 * correct)}%, Avg loss: {test_loss}")
    
    
    loss_fn = nn.CrossEntropyLoss()  # 创建交叉熵损失函数对象,因为手写字识别中一共有10个数字,输出会有10个结果
    
    optimizer = torch.optim.Adam(model.parameters(), lr=0.01)  # 创建一个优化器
    
    # 设置训练轮数
    epochs = 10
    for e in range(epochs):
        print(f"Epoch {e + 1}\n")
        train(training_dataloader, model, loss_fn, optimizer)
    print("Done!")
    # 测试模型
    test(test_dataloader, model, loss_fn)
    
    
  • 模型结构如下:
    在这里插入图片描述

  • 训练结果如下:

  • 共有10轮训练
    在这里插入图片描述

  • 测试结果如下:
    在这里插入图片描述

标签:loss,对手,训练,模型,神经网络,model,识别,data,self
From: https://blog.csdn.net/weixin_73504499/article/details/142370335

相关文章

  • Python基于TensorFlow实现时间序列循环神经网络回归模型(LSTM时间序列回归算法)项目实
    说明:这是一个机器学习实战项目(附带数据+代码+文档+视频讲解),如需数据+代码+文档+视频讲解可以直接到文章最后获取。1.项目背景随着信息技术的发展和传感器设备的广泛应用,时间序列数据的产生量急剧增加。无论是股市价格的波动、电力消耗的趋势还是环境监测的数据变化,准确地预......
  • 第155期 中药材图像识别:中医与深度学习的融合(目标检测)
    亲爱的读者们,您是否在寻找某个特定的数据集,用于研究或项目实践?欢迎您在评论区留言,或者通过公众号私信告诉我,您想要的数据集的类型主题。小编会竭尽全力为您寻找,并在找到后第一时间与您分享。一、引言中医药作为中华文明的瑰宝,历经千年传承,依然在现代医学中发挥着不可替代的作用......
  • [神经网络与深度学习笔记]PCA降维
    PCA降维PCA是一种无监督降维算法,它是最常用的降维算法之一,可以很好的解决因变量太多而复杂性,计算量增大的弊端。本质上讲,PCA就是将高维的数据通过线性变换投影的方式映射到低维空间上去,并且保证在投影的维度上,原数据的信息量最大(损失最小)。PCA的具体步骤1.特征中心化。每一维......
  • [神经网络与深度学习笔记]LDA降维
    LDA降维LinearDiscriminantAnalysis线性判别分析,是一种有监督的线性降维算法。与PCA保持数据信息不同,LDA的目标是将原始数据投影到低维空间,尽量使同一类的数据聚集,不同类的数据尽可能分散步骤:计算类内散度矩阵\(S_b\)计算类间散度矩阵\(S_w\)计算矩阵\(S_w^{-1}S_b\)对矩......
  • 人群异常聚集识别监测系统
    人群异常聚集识别监测系统基于视频ai智能分析,对监控区域内的人员异常聚集行为进行识别,一旦人群异常聚集识别监测系统发现监控画面中出现人群大量聚集,能够以最快和最佳的方式发出报警并提供有用信息,从而能够更加有效的协助安全人员处理危机。随着大家生活水平的不断提高,综合性商......
  • 化工厂液体泄漏识别预警系统
    化工厂液体泄漏识别预警系统基于人工智能分析技术,化工厂液体泄漏识别预警系统自动识别监控视频中机械管道是否存在液体泄漏行为。如检测到液体泄漏,立即反馈给后台人员及时处理。化工厂液体泄漏识别预警系统对工厂机械管道液体泄漏情况自动识别,如检测有漏液情况,立即反馈给后台人员,......
  • 渣土车识别检测系统
    渣土车识别检测系统是基于卡口图片的视觉图像分析,渣土车识别检测系统对前端卡口相机抓拍上传图像至系统服务器的图片进行实时检测,实时分析。当监控图片中有渣土车时,渣土车识别检测系统自动抓拍图片和报警,及时分析渣土车违规行驶等情况,提高监控效率降低管理成本。随着城市建设的......
  • 河道采砂识别监测系统
    河道采砂识别监测系统借助深度视觉边缘分析技术,自动对监控区域违法采砂进行实时监测。如果河道采砂识别监测系统监测到有人违法采砂时,立即抓拍存档预警,将违规采砂截图发给后台管理中心,提醒后台人员及时处理。河道采砂识别监测系统可根据时间段违规记录、视频进行查找,方便进行事后......
  • 河道水文标尺识别系统
    河道水文标尺识别系统对河流和湖泊水位实时检测,当河道水文标尺识别系统识别到水位到达警戒水位时,立即抓拍预警上传给后台,通知相关人员及时处理。河道水文标尺识别系统并把水尺截屏和视频存档生成表格,推送到有关人员。河道水文标尺识别系统7*24h全天候实时分析监测水位刻度尺,它不受......
  • 占道经营识别检测系统
    占道经营识别检测系统对市政道路实时检测,当检测到有人违规摆地摊、占道经营时,马上报警。占道经营识别检测系统将违规截屏和视频同步推送到有关人员。与此同时占道经营识别检测系统也可以根据时间范围对报警记录和违规截屏、违规视频查询播放,占道经营识别检测系统可以提升监控区域......