深度学习第二周：CIFAR10彩色图片识别

标签：acc loss CIFAR10 Train 彩色图片第二周 train Test test

一、前期准备

1. 设置GPU

import torch
import torch.nn as nn
import matplotlib.pyplot as plt
import torchvision

# 设置硬件设备，如果有GPU则使用，没有则使用cpu
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

Output：

device(type='cuda')  #代表使用的是GPU

2. 设置随机种子

为了保证实验可以复现，我们通过随机种子控制随机数的生成。

import random
import numpy as np

def setup_seed(seed1,seed2,seed3,seed4):
     torch.manual_seed(seed1)
     torch.cuda.manual_seed_all(seed2)
     np.random.seed(seed3)
     random.seed(seed4)
     torch.backends.cudnn.deterministic = True
# 设置随机数种子
setup_seed(1,2,3,4)

3. 导入数据

首先，通过内置包，下载数据集：

train_ds = torchvision.datasets.CIFAR10('data', 
                                      train=True, 
                                      transform=torchvision.transforms.ToTensor(), # 将数据类型转化为Tensor
                                      download=True)

test_ds  = torchvision.datasets.CIFAR10('data', 
                                      train=False, 
                                      transform=torchvision.transforms.ToTensor(), # 将数据类型转化为Tensor
                                      download=True)

通过 torch.utils.data.DataLoader 设置 Loader，

batch_size = 32

train_dl = torch.utils.data.DataLoader(train_ds, 
                                       batch_size=batch_size, 
                                       shuffle=True)

test_dl  = torch.utils.data.DataLoader(test_ds, 
                                       batch_size=batch_size)

shuffle=True 代表每个epoch提取数据的顺序都是随机打乱，且元素不重复出现。

imgs, labels = next(iter(train_dl))
imgs.shape #样本数 通道数 长 宽

Output：

torch.Size([32, 3, 32, 32])

iter(train_dl) 将数据加载器转换为一个迭代器（iterator），使得我们可以使用 Python 的 next() 函数来逐个访问数据加载器中的元素。
next() 函数用于获取迭代器中的下一个元素。在这里，它被用来获取 train_dl 中的下一个批量数据。

观察一下对应的 shape，分别对应的是：单个batch 的样本数通道数图像的长图像的宽 。CIFAR10数据集是彩色图像，因此本身包含RGB（红、绿、蓝）三通道，因此初始通道数为3。

torch.Size([32, 3, 32, 32])

4. 数据可视化

# 指定图片大小，图像大小为20宽、5高的绘图(单位为英寸inch)
plt.figure(figsize=(20, 5)) 
for i, imgs in enumerate(imgs[:20]): # enumerate输出（序号，图片）
    # 维度缩减
    npimg = np.squeeze(imgs.numpy())
    # 将整个figure分成2行10列，绘制第i+1个子图。
    plt.subplot(2, 10, i+1)
    plt.imshow(npimg)
    plt.axis('off')

enumerate(imgs[:20]) 输出（序号，图片），例如（1，图像1），因此i对应的是序号，imgs对应的是图像数据。

在这里插入图片描述

二、构建网络

首先，搭建网络结构，

import torch.nn.functional as F

num_classes = 10  # 图片的类别数

class Model(nn.Module):
     def __init__(self):
        super().__init__()
         # 特征提取网络
        self.conv1 = nn.Conv2d(3, 64, kernel_size=3)   # 第一层卷积,卷积核大小为3*3*3
        self.pool1 = nn.MaxPool2d(kernel_size=2)       # 设置池化层，池化核大小为2*2
        self.conv2 = nn.Conv2d(64, 64, kernel_size=3)  # 第二层卷积,卷积核大小为3*3*64 
        self.pool2 = nn.MaxPool2d(kernel_size=2) 
        self.conv3 = nn.Conv2d(64, 128, kernel_size=3) # 第二层卷积,卷积核大小为3*3*64 
        self.pool3 = nn.MaxPool2d(kernel_size=2) 
                                      
        # 分类网络
        self.fc1 = nn.Linear(512, 256) # 全连接层          
        self.fc2 = nn.Linear(256, num_classes)
     # 前向传播
     def forward(self, x):
        x = self.pool1(F.relu(self.conv1(x)))     
        x = self.pool2(F.relu(self.conv2(x)))
        x = self.pool3(F.relu(self.conv3(x)))
        
        x = torch.flatten(x, start_dim=1)

        x = F.relu(self.fc1(x))
        x = self.fc2(x)
       
        return x

nn.Conv2d(input_channel, output_channel, kernel_size) CNN理论核心——卷积层，设置kernel / filter 大小和个数，用于提取数据特征。
nn.MaxPool2d(2) 下采样（池化），降低数据维数，表示抽象概念，传入参数为池化核大小。
nn.ReLU激活函数，赋予模型拟合非线性关系的能力。
nn.Linear(input_dimension, output_dimension)全连接层，相当于给数据乘以权重矩阵W，W的size由input_dimension, output_dimension和确定。
卷积核的size为：kernel_size × kernel_size × 上一层channel，因此，卷积核维数 = 数据维数 + 1。

查看网络参数：

from torchinfo import summary
# 将模型转移到GPU中（我们模型运行均在GPU中进行）
model = Model().to(device)

summary(model)

=================================================================
Layer (type:depth-idx)                   Param #
=================================================================
Model                                    --
├─Conv2d: 1-1                            1,792
├─MaxPool2d: 1-2                         --
├─Conv2d: 1-3                            36,928
├─MaxPool2d: 1-4                         --
├─Conv2d: 1-5                            73,856
├─MaxPool2d: 1-6                         --
├─Linear: 1-7                            131,328
├─Linear: 1-8                            2,570
=================================================================
Total params: 246,474
Trainable params: 246,474
Non-trainable params: 0
=================================================================

三、训练模型

1. 设置超参数

loss_fn    = nn.CrossEntropyLoss() # 创建损失函数
learn_rate = 1e-2 # 学习率
opt        = torch.optim.SGD(model.parameters(),lr=learn_rate)

2. 训练函数

# 训练循环
def train(dataloader, model, loss_fn, optimizer):
    size = len(dataloader.dataset)  # 训练集的大小，一共60000张图片
    num_batches = len(dataloader)   # 批次数目，1875（60000/32）

    train_loss, train_acc = 0, 0  # 初始化训练损失和正确率
    
    for X, y in dataloader:  # 获取图片及其标签
        X, y = X.to(device), y.to(device) # 读取数据时的tensor变量copy一份到device所指定的GPU上
        
        # 计算预测误差
        pred = model(X)          # 网络输出
        loss = loss_fn(pred, y)  # 计算网络输出和真实值之间的差距，y为真实值，计算二者差值即为损失
        
        # 反向传播
        optimizer.zero_grad()  # grad属性归零
        loss.backward()        # 反向传播
        optimizer.step()       # 每一步自动更新
        
        # 记录acc与loss
        train_acc  += (pred.argmax(1) == y).type(torch.float).sum().item()
        train_loss += loss.item()
            
    train_acc  /= size
    train_loss /= num_batches

    return train_acc, train_loss

optimizer.zero_grad()清空上一次的累计梯度
loss.backward()根据tensor进行过的数学运算来自动计算其对应的梯度。具体来说，torch.tensor是autograd包的基础类，如果你设置tensor的requires_grads为True，就会开始跟踪这个tensor上面的所有运算，如果你做完运算后使用tensor.backward()，所有的梯度就会自动运算，tensor的梯度将会累加到它的.grad属性里面去。
optimizer.step() step()函数的作用是执行一次反向传播，通过梯度下降法来更新参数的值。optimizer只负责通过梯度下降进行优化，而不负责产生梯度

3.测试函数

测试函数和训练函数大致相同，但是由于不进行梯度下降对网络权重进行更新，所以不需要传入优化器。

def test (dataloader, model, loss_fn):
    size        = len(dataloader.dataset)  # 测试集的大小，一共10000张图片
    num_batches = len(dataloader)          # 批次数目，313（10000/32=312.5，向上取整）
    test_loss, test_acc = 0, 0
    
    # 当不进行训练时，停止梯度更新，节省计算内存消耗
    with torch.no_grad():
        for imgs, target in dataloader:
            imgs, target = imgs.to(device), target.to(device)
            
            # 计算loss
            target_pred = model(imgs)
            loss        = loss_fn(target_pred, target)
            
            test_loss += loss.item() #累计loss
            test_acc  += (target_pred.argmax(1) == target).type(torch.float).sum().item() # 累计正确个数

    test_acc  /= size
    test_loss /= num_batches

    return test_acc, test_loss

4. 正式训练

epochs     = 10
train_loss = []
train_acc  = []
test_loss  = []
test_acc   = []

import time

for epoch in range(epochs):
    
    since_train = time.time()
    model.train()
    epoch_train_acc, epoch_train_loss = train(train_dl, model, loss_fn, opt)
    time_train = time.time() - since_train
    
    since_test = time.time()
    model.eval()
    epoch_test_acc, epoch_test_loss = test(test_dl, model, loss_fn)
    time_test = time.time() - since_test
    
    train_acc.append(epoch_train_acc)
    train_loss.append(epoch_train_loss)
    test_acc.append(epoch_test_acc)
    test_loss.append(epoch_test_loss)
    
    template = ('Epoch:{:2d}, Train_acc:{:.1f}%, Train_loss:{:.3f}, Test_acc:{:.1f}%，Test_loss:{:.3f}，Train_Time:{:.3f}，Test_Time:{:.3f}')
    print(template.format(epoch+1, epoch_train_acc*100, epoch_train_loss, epoch_test_acc*100, epoch_test_loss, time_train, time_test))
print('Done')

model.train()的作用是启用 Batch Normalization 和 Dropout。
model.eval()的作用是关闭 Batch Normalization 和 Dropout。Normalization部分是调用training set中的方差和均值进行。Dropout部分不需要，Dropout部分只是帮助模型训练，防止过拟合。因此我们直接调用模型训练好的参数即可，

Epoch: 1, Train_acc:13.8%, Train_loss:2.264, Test_acc:22.2%，Test_loss:2.097，Train_Time:20.149，Test_Time:2.029
Epoch:10, Train_acc:58.2%, Train_loss:1.180, Test_acc:55.9%，Test_loss:1.228，Train_Time:16.168，Test_Time:2.221
Epoch:20, Train_acc:72.6%, Train_loss:0.790, Test_acc:67.7%，Test_loss:0.947，Train_Time:16.135，Test_Time:2.168
Epoch:30, Train_acc:82.2%, Train_loss:0.516, Test_acc:68.1%，Test_loss:1.014，Train_Time:15.942，Test_Time:2.062
Epoch:40, Train_acc:90.3%, Train_loss:0.284, Test_acc:69.9%，Test_loss:1.105，Train_Time:16.329，Test_Time:2.054
Epoch:50, Train_acc:96.2%, Train_loss:0.116, Test_acc:68.6%，Test_loss:1.615，Train_Time:16.402，Test_Time:2.088
Epoch:60, Train_acc:100.0%, Train_loss:0.009, Test_acc:70.5%，Test_loss:2.018，Train_Time:16.292，Test_Time:2.006
Epoch:70, Train_acc:100.0%, Train_loss:0.002, Test_acc:70.7%，Test_loss:2.302，Train_Time:16.182，Test_Time:2.074
Done

四、结果可视化

import matplotlib.pyplot as plt
#隐藏警告
import warnings
warnings.filterwarnings("ignore")               #忽略警告信息
plt.rcParams['font.sans-serif']    = ['SimHei'] # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False      # 用来正常显示负号
plt.rcParams['figure.dpi']         = 100        #分辨率

epochs_range = range(epochs)

plt.figure(figsize=(12, 3))
plt.subplot(1, 2, 1)

plt.plot(epochs_range, train_acc, label='Training Accuracy')
plt.plot(epochs_range, test_acc, label='Test Accuracy')
plt.legend(loc='lower right')
plt.title('Training and Validation Accuracy')

plt.subplot(1, 2, 2)
plt.plot(epochs_range, train_loss, label='Training Loss')
plt.plot(epochs_range, test_loss, label='Test Loss')
plt.legend(loc='upper right')
plt.title('Training and Validation Loss')
plt.show()

在这里插入图片描述

训练准确率（蓝色线）随着训练周期的增加而稳步提高，测试准确率（橙色线）在训练早期迅速提高。
训练损失（蓝色线）持续下降，测试损失（橙色线）下降后开始上升。

基于这些观察结果，我们可以得出结论，模型在CIFAR-10数据集上存在过拟合的问题。

应用数据增强（Data Augmentation）来增加训练集的多样性。
引入正则化方法，如L1或L2正则化，或者使用Dropout。
调整网络架构，可能是通过减少网络的复杂度来减少模型的容量。
使用早停法（Early Stopping）来避免过度训练。

仔细观察可以发现，在第20个epoch之后，测试损失持续上升，但是测试准确率却维持在70%左右，这是因为模型的拟合能力最多只能拟合出测试集中70%的样本。对于剩下30%的样本，该模型无法拟合，原因可能是训练集中相似个体较少/模型过拟合，模型没有学到代表性特征，反而越学习会使模型中这30%的loss增加，但70%的样本的loss趋于稳定，从而出现测试准确率稳定，但测试loss增大的情况。

个人总结

对于彩色图像，我们只需要把初始channel调成3即可：self.conv1 = nn.Conv2d(3, 64, kernel_size=3)
对于acc和loss折线图，多总结，分析原因。

标签：acc,loss,CIFAR10,Train,彩色图片,第二周,train,Test,test
From： https://blog.csdn.net/qq1273882425/article/details/137073633

深度学习第二周：CIFAR10彩色图片识别

一、前期准备

1. 设置GPU

2. 设置随机种子

3. 导入数据

4. 数据可视化

二、构建网络

三、训练模型

1. 设置超参数

2. 训练函数

3.测试函数

4. 正式训练

四、结果可视化

个人总结

相关文章

赞助商

阅读排行

深度学习第二周：CIFAR10彩色图片识别

一、 前期准备

1. 设置GPU

2. 设置随机种子

3. 导入数据

4. 数据可视化

二、构建网络

三、 训练模型

1. 设置超参数

2. 训练函数

3.测试函数

4. 正式训练

四、 结果可视化

个人总结

相关文章

赞助商

阅读排行

一、前期准备

三、训练模型

四、结果可视化