Mnist数据集分类任务试用

标签：10 torch nn 分类 train 试用 model valid Mnist

学习方法

边用边学，torch只是个工具，用起来，查的过程才是学习的过程
直接上案例来学习，先跑起来，遇到问题就地解决

使用jupiter的方式，来实现

查看torch版本

import torch
print(torch.__version__)

1、拿到数据集

from pathlib import Path
import requests

DATA_PATH = Path("data")
PATH = DATA_PATH / "mnist"

PATH.mkdir(parents=True, exist_ok=True)

URL = "http://deeplearning.net/data/mnist/"
FILENAME = "mnist.pkl.gz"

if not (PATH / FILENAME).exists():
        content = requests.get(URL + FILENAME).content
        (PATH / FILENAME).open("wb").write(content)

import pickle
import gzip

with gzip.open((PATH / FILENAME).as_posix(), "rb") as f:
        ((x_train, y_train), (x_valid, y_valid), _) = pickle.load(f, encoding="latin-1")

1.1查看数据样例

y_train[:10] # 打印前10个样本案例
array([5, 0, 4, 1, 9, 2, 1, 3, 1, 4], dtype=int64)

x_train.shape # 这里是一个矩阵，行是样本的个数，有5万个样本，每个样本有784个像素点（28*28）
(50000, 784)

x_train[0]# 选择其中的一个样本，都是0，是因为周围都是黑色的，没有特征，中间白色的的数据，表示数据是一个一维数组

x_train[0].shape # 是784个点

from matplotlib import pyplot
import numpy as np
# 数据展示，多打印数据
# reshape 将 784个点转换成 28*28的矩阵
pyplot.imshow(x_train[0].reshape((28, 28)), cmap="gray")
#print(x_train.shape)

torch 在 GPU 中运行 tensor（张量，矩阵）
numpy 在 CPU 中运行数组 ndarray
数组的形式在torch中用不了

import torch
x_train_test, y_train_test, x_valid_test, y_valid_test = map( # map是一个映射 将数组的形式，转换成 tensor 的格式，
    torch.tensor, (x_train, y_train, x_valid, y_valid)
)

查看数据

y_train_test[:10] # 看下 y_train_test的前10个数据，是一个tensor的格式
y_valid_test[0]
x_valid_test[10] # 都是tensor的格式的数据

2、将数据读入到内存中，并转成tensor

import torch

x_train, y_train, x_valid, y_valid = map( # map是一个映射 将数组的形式，转换成 tensor 的格式，
    torch.tensor, (x_train, y_train, x_valid, y_valid)
)
n, c = x_train.shape # n是样本的个数，像素点或者是特征的个数
x_train, x_train.shape, y_train.min(), y_train.max()
print(x_train, y_train)
print(x_train.shape)
print(y_train.min(), y_train.max())
# 转换成tensor的格式
tensor([[0., 0., 0.,  ..., 0., 0., 0.],
        [0., 0., 0.,  ..., 0., 0., 0.],
        [0., 0., 0.,  ..., 0., 0., 0.],
        ...,
        [0., 0., 0.,  ..., 0., 0., 0.],
        [0., 0., 0.,  ..., 0., 0., 0.],
        [0., 0., 0.,  ..., 0., 0., 0.]]) tensor([5, 0, 4,  ..., 8, 4, 8])
torch.Size([50000, 784])
tensor(0) tensor(9)

torch.nn.functional 很多层和函数在这里都会见到

torch.nn.functional中有很多功能，后续会常用的。那什么时候使用nn.Module，什么时候使用nn.functional呢？一般情况下，如果模型有可学习的参数，最好用nn.Module，其他情况nn.functional相对更简单一些
import torch.nn.functional as F # nn.functional是测试使用，不适合做实际代码的训练，后续调用其他的模块

需要传两个值，一个预测值，一个标签

import torch.nn.functional as F # nn.functional是测试使用，不适合做实际代码的训练，后续调用其他的模块
# 需要传两个值，一个预测值，一个标签

loss_func = F.cross_entropy # 现成的交叉熵损失函数 即分类损失函数

def model(xb): # 输入数据
    return xb.mm(weights) + bias

bs = 64 # 指定 batchsize 64 一次要训练多少样本
xb = x_train[0:bs]  # a mini-batch from x ，训练集取前64个
yb = y_train[0:bs] # 标签也是取前64个
# WX+B
# 权重参数都是随机初始化出来的
# 如果是 784 个特征做10分类的情况下：W1：784*10  B：10
# X 为 64 * 784
weights = torch.randn([784, 10], dtype = torch.float,  requires_grad = True) # w需要更新，需要梯度
bs = 64
bias = torch.zeros(10, requires_grad=True) # 偏置，b对结果的影响比较小

print(loss_func(model(xb), yb))

打印其中的随机函数
torch.randn([784, 10], dtype = torch.float, requires_grad = True) # 每次的结果不一样，随机的初始化

3、创建一个model来更简化代码（python类的形式来实现）

全连接的网络结构，
FC=WX+B 每一层都是这样
输入batch * 784
W=784* 128 ；b=128
第一层： 128个特征
w2=128*10 b=10
输出 10
并不是一个特定的值，属于各个类别的概率，各个值都有的，取类别概率最大的

必须继承nn.Module且在其构造函数中需调用nn.Module的构造函数
无需写反向传播函数，nn.Module能够利用autograd自动实现反向传播
Module中的可学习参数可以通过named_parameters()或者parameters()返回迭代器

from torch import nn # nn是神经网络的包

class Mnist_NN(nn.Module):#定义一个类，类的名字可以改，继承是不可以改的括号里面的东西
    def __init__(self): # 构造函数，需要提前定义好，现在比较简单，后续会比较复杂
        super().__init__()
        self.hidden1 = nn.Linear(784, 128) # 第一个隐层，wx+b，指定好输入784个像素点和输出128个特征
        self.hidden2 = nn.Linear(128, 256) # 第二个隐层，输入128个特征（就是第一个隐层的输出），和输出256个特征
        self.out  = nn.Linear(256, 10)# 全连接层：输入256个特征（就是第二个隐层的输出），和输出10个特征
        # drop out 为了过拟合的问题，只使用部分特征点，神经元个数过多，只使用部分神经元，随机杀死部分神经元，
        self.dropout = nn.Dropout(0.5) # 50%是比较常见的

    def forward(self, x):# 前向传播 需要自己定义，反向传播是自动的，输入是x，batch数据 64*784
        # 64*784 -h1、dropout->64*128-h2、dropout->64*256->256*10
        x = F.relu(self.hidden1(x))
        x = self.dropout(x)
        x = F.relu(self.hidden2(x))
        x = self.dropout(x)
        x = self.out(x)
        return x # 返回输出结果
        # 上面已经把权重参数设置好了

查看网络结构的情况

net = Mnist_NN()
print(net)

Mnist_NN(
  (hidden1): Linear(in_features=784, out_features=128, bias=True)
  (hidden2): Linear(in_features=128, out_features=256, bias=True)
  (out): Linear(in_features=256, out_features=10, bias=True)
  (dropout): Dropout(p=0.5, inplace=False)
)

可以打印我们定义好名字里的权重和偏置项

for name, parameter in net.named_parameters():# named_parameters 打印相关的信息
    print(name, parameter,parameter.size())# name 是哪一层，权重参数值，权重参数矩阵的大小

使用TensorDataset和DataLoader来简化

测试、了解tensor

from torch.utils.data import TensorDataset
from torch.utils.data import DataLoader
# minst 数据集中这样使用，其他的数据集中不会这样用，了解即可，后续搞自定义dataloader
# data 处理数据集，为进入GPU做准备，打好batch数据集

train_ds = TensorDataset(x_train, y_train)
train_dl = DataLoader(train_ds, batch_size=bs, shuffle=True) # shuffle为了打乱顺序，
# train 训练数据集 需要打乱数据
# val 验证集：测试数据集 不需要打乱数据

valid_ds = TensorDataset(x_valid, y_valid)
valid_dl = DataLoader(valid_ds, batch_size=bs * 2)

转成tensor

def get_data(train_ds, valid_ds, bs):
    return (
        DataLoader(train_ds, batch_size=bs, shuffle=True),
        DataLoader(valid_ds, batch_size=bs * 2),
    )

一般在训练模型时加上model.train()，这样会正常使用Batch Normalization和 Dropout
测试的时候一般选择model.eval()，这样就不会使用Batch Normalization和 Dropout

import numpy as np

def fit(steps, model, loss_func, opt, train_dl, valid_dl):
    # steps 数据集迭代多少次 ，model 构造一个model，loss_func，opt优化器，train_dl，valid_dl
    for step in range(steps):# epoch的概念，例子：10000数据，epoch有100iter（迭代），一个batch有100个数据，
        model.train()# 训练模式，更新每一层的权重和偏置w和b
        for xb, yb in train_dl: # 这是一个dataloader，一个一个的返回，里面是一个batch
            loss_batch(model, loss_func, xb, yb, opt)

        model.eval()# 验证模式，不更新w和b，只需要得到一个结果
        with torch.no_grad():# 不更新参数
            losses, nums = zip( # 将返回结果的k v解开，k为损失，v为样本数量
                *[loss_batch(model, loss_func, xb, yb) for xb, yb in valid_dl]
            )
        val_loss = np.sum(np.multiply(losses, nums)) / np.sum(nums) # 前面是一个总的损失 / 后面是样本数量 = 平均损失
        print('当前step:'+str(step), '验证集损失：'+str(val_loss))

优化器代码

from torch import optim
def get_model():# 优化器
    model = Mnist_NN()
    return model, optim.Adam(model.parameters(), lr=0.001) # SGD与Adam，Adam的效果更好一点儿
# 第一个参数位置，要更新哪些参数，所有参数都要更新，
# 第二个参数，学习率，小一点儿，迭代次数多一点儿

损失函数代码

# 计算损失
# 更新参数 w 和 b
def loss_batch(model, loss_func, xb, yb, opt=None):
    loss = loss_func(model(xb), yb)# 预测值与标签值比较

    if opt is not None:
        loss.backward() # 反向传播 每一组的权重参数就都算出来了，算梯度
        opt.step() # 更新权重参数
        opt.zero_grad() # 模型迭代多次，每次迭代之间有关系吗？没有，每次迭代都是独立的
        # torch 会对每次迭代的值进行记录，并累加 第一次 -0.1 第二次 0.3，会记录0.3-0.1=0.2，这样是不对的，需要把之前的梯度清空

    return loss.item(), len(xb) # len表示训练样本有多少个，

将代码合并到一起

train_dl, valid_dl = get_data(train_ds, valid_ds, bs)# 返回dataloader
model, opt = get_model()
fit(25, model, loss_func, opt, train_dl, valid_dl)# 需要迭代多少个epoch

模型正确率代码

correct = 0
total = 0
for xb, yb in valid_dl: # 去验证集去出数据
    outputs = model(xb)
    _, predicted = torch.max(outputs.data, 1) # 最大的值和索引
    # 沿着哪个维度去做计算，对每个样本有10个类别的预测的概率值，想看每一个样本他在10个类别当中，哪个值预测的最大，就沿着哪个维度，沿着1这个维度，
    #要计算每个样本，要算概率值哪个大，而不是这10000个样本，对每个样本对应的概率值，每个样本概率值的维度，0是比较不同样本之间的东西
    total += yb.size(0)
    correct += (predicted == yb).sum().item()
print('Accuracy of the network on the 10000 test images: %d %%' %(
100*correct/total
))

优化器对比

20次SGD 87%
20次Adam 97%

zip用法就是把数据打包配对到一起

a = [1,2,3]
b = [4,5,6]
zipped = zip(a,b)
print(list(zipped))
a2,b2 = zip(*zip(a, b))
print(a2)
print(b2)

标签：10,torch,nn,分类,train,试用,model,valid,Mnist
From： https://www.cnblogs.com/youchi/p/17644375.html

Mnist数据集分类任务试用

学习方法

使用jupiter的方式，来实现

查看torch版本

1、拿到数据集

1.1查看数据样例

2、将数据读入到内存中，并转成tensor

torch.nn.functional 很多层和函数在这里都会见到

3、创建一个model来更简化代码（python类的形式来实现）

使用TensorDataset和DataLoader来简化

优化器对比

zip用法就是把数据打包配对到一起

相关文章

赞助商

阅读排行

Mnist数据集分类任务试用

学习方法

使用jupiter的方式，来实现

查看torch版本

1、拿到数据集

1.1查看数据样例

2、将数据读入到内存中，并转成tensor

torch.nn.functional 很多层和函数在这里都会见到

3、创建一个model来更简化代码（python类的形式来实现）

使用TensorDataset和DataLoader来简化

优化器对比

zip用法 就是把数据打包配对到一起

相关文章

赞助商

阅读排行

zip用法就是把数据打包配对到一起