2、导入各种需要用到的包
import torch //用于导入名为"torch"的模块。torch
是一个广泛使用的库,用于构建和训练神经网络。它提供了丰富的功能和工具,包括张量操作、自动求导、优化算法等,使得深度学习任务更加简单和高效。可以使用torch.Tensor
类来创建张量,使用torch.nn.Module
类来定义神经网络模型,使用torch.optim
模块来选择优化算法等等。
import torchvision //通过导入 torchvision
模块,你可以使用其中的类、函数和数据集来处理图像数据、加载预训练模型、进行数据增强等等。例如,你可以使用 torchvision.transforms
模块来定义图像的转换操作,使用 torchvision.models
模块来加载预训练的神经网络模型,使用 torchvision.datasets
模块来加载标准的计算机视觉数据集等等
from torchvision import datasets, transforms//通过从torchvision
模块中导入datasets
和transforms
类实现了对这两个类的引用。
-
datasets
类提供了许多常见的计算机视觉数据集,如MNIST、CIFAR-10等。你可以使用datasets
类加载这些数据集,并在深度学习模型中使用它们进行训练和评估。
-
transforms
类提供了一系列的图像变换操作,用于在加载图像数据时进行预处理。你可以使用transforms
类中的方法对图像进行常见的变换,如缩放、裁剪、翻转、归一化等。
import torch.utils.data//torch.utils.data
模块是PyTorch中用于处理数据加载和预处理的工具包。它提供了一系列的类和函数,用于构建数据加载器(DataLoader),定义数据集(Dataset),以及进行数据的批处理、采样、转换等操作。
import matplotlib.pyplot as plt//matplotlib.pyplot
是一个用于绘制图表和可视化数据的模块。它是Matplotlib库的一个子模块,提供了简单而强大的绘图功能,可以绘制各种类型的图形,如折线图、散点图、柱状图、饼图等。
from torch.utils.data import TensorDataset,DataLoader,Dataset//从torch.utils.data
模块中导入三个类:TensorDataset
、DataLoader
和Dataset
。
-
TensorDataset
是一个用于包装张量数据的数据集类。它将一个或多个张量作为输入,并将它们打包在一起,可以用于在训练过程中提供数据和标签。 -
-
DataLoader
是一个数据加载器类,用于批处理和并行加载数据。它可以从一个数据集(如TensorDataset
)中加载数据,并按照指定的批次大小进行批处理。DataLoader
还可用于设置数据加载的参数,如并行加载、数据打乱等。Dataset
是一个抽象基类,用于自定义数据集。如果你想创建自己的数据集类,可以继承Dataset
类并实现__len__
和__getitem__
方法,以定义数据集的长度和访问方式。
-
from torch.utils.tensorboard import SummaryWriter//SummaryWriter
是PyTorch中用于将训练过程中的数据传输到TensorBoard进行可视化的类。TensorBoard是一个用于可视化和监控深度学习模型的工具,可以显示训练过程中的损失曲线、参数分布、图像、计算图等。
import torch.nn.functional as F
from torch import nn
import numpy as np
import os
import shutil
from PIL import Image
import warnings
warnings.filterwarnings("ignore")
3、分割数据集
# 分割数据集,将全部数据分成0.9的Train和0.1的Test
source_path = r"./kagglecatsanddogs_5340/PetImages/" //定义了一个名为source_path
的变量,并给它赋值为"./kagglecatsanddogs_5340/PetImages/"
。路径字符串前面带有r
前缀,表示这是一个原始字符串(raw string),这意味着字符串中的反斜杠\
将被视为普通字符,而不是转义字符。这在表示文件路径时非常方便,因为在Windows系统中,文件路径常常包含反斜杠。
# 如果不存在文件夹要新建一个
if not os.path.exists(os.path.join(source_path, "train")): //
os.path.join(source_path, "train")
代码将"train"
加入到source_path
路径中,可以得到表示"train"文件夹的完整路径。
然后,os.path.exists()
函数用于检查给定路径是否存在。如果路径存在,返回True
;如果路径不存在,返回False
。
os.mkdir(os.path.join(source_path, "train")) //
将source_path
和"train"进行路径拼接,得到的是指向"train"文件夹的完整路径。
然后,os.mkdir()
函数将这个完整路径作为参数传递进去,创建了一个名为"train"的文件夹。
train_dir = os.path.join(source_path, "train") //os.path.join()
函数将source_path
和"train"组合起来形成一个新的路径,并将其赋值给变量train_dir
。
if not os.path.exists(os.path.join(source_path, "test")): //使用了os.path
模块来检查指定路径下的"test"文件夹是否存在。
os.mkdir(os.path.join(source_path, "test")) //这段代码使用了os.mkdir()
函数来创建一个名为"test"的文件夹,路径是由source_path
和"test"组合而成。
test_dir = os.path.join(source_path,"test")
## 将Cat和Dog文件夹全部移到train目录下,然后再从train目录下移动10%到test目录下
for category_dir in os.listdir(source_path):
if category_dir not in ["train", "test"]:
shutil.move(os.path.join(source_path,category_dir), os.path.join(source_path,"train"))
## 开始移动,移动前先剔除不能正常打开的图片
for dir in os.listdir(train_dir):
category_dir_path = os.path.join(train_dir, dir)
image_file_list = os.listdir(category_dir_path) # 取出全部图片文件
for file in image_file_list:
try:
Image.open(os.path.join(category_dir_path, file))
except:
os.remove(os.path.join(category_dir_path, file))
image_file_list.remove(file)
np.random.shuffle(image_file_list)
test_num = int(0.1*len(image_file_list))
#移动10%文件到对应目录
if not os.path.exists(os.path.join(test_dir,dir)):
os.mkdir(os.path.join(test_dir,dir))
if len(os.listdir(os.path.join(test_dir,dir))) < test_num: # 只有未移动过才需要移动,否则每运行一次都会移动一下
for i in range(test_num):
shutil.move(os.path.join(category_dir_path,image_file_list[i]), os.path.join(test_dir,dir,image_file_list[i]))
4、将数据转成pytorch标准的DataLoader输入格式
1、先对数据集进行预处理,包括resize成224*224的尺寸,因为vgg_net模型需要的输入尺寸为[N, 224, 224, 3];随机翻转,随机旋转等,另外对数据集做Normalize标准化,其中的mean=[0.485, 0.456, 0.406],std=[0.229, 0.224, 0.2]是从ImageNet数据集上的百万张图片中随机抽样计算得到的,以上这些内容主要是数据增强,增强模型的泛化性,有更好的预测效果。
2、然后将预处理好的数据转成pytorch标准的DataLoader输入格式,。
# 数据预处理
transform = transforms.Compose([
transforms.RandomResizedCrop(224),# 对图像进行随机的crop以后再resize成固定大小
transforms.ToTensor(),
transforms.Normalize(mean=[0.485, 0.456, 0.406],std=[0.229, 0.224, 0.2]), # ImageNet全部图片的平均值和标准差
transforms.RandomRotation(20), # 随机旋转角度
transforms.RandomHorizontalFlip(p=0.5), # 随机水平翻转
])
# 读取数据
root = source_path
train_dataset = datasets.ImageFolder(root + '/train', transform)
test_dataset = datasets.ImageFolder(root + '/test', transform)
# 导入数据
train_loader = torch.utils.data.DataLoader(train_dataset, batch_size=16, shuffle=True)
test_loader = torch.utils.data.DataLoader(test_dataset, batch_size=16, shuffle=False)
5、导入预训练模型,并修改分类层
1、定义device,如果有GPU模型训练会自动用GPU训练,否则会使用CPU;使用GPU训练,只需在模型、数据、损失函数上使用cuda()就行。
2、这边默认对分类图像算法都熟悉,可以自己构建vgg16的完整网络,在猫狗数据集上重新训练。也可以下载预训练模型,由于原网络的分类输出是1000类别的,但是我们的图片只有两类,所以需要修改分类层,让模型能够适配我们的训练数据集。
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
vgg16 = torchvision.models.vgg16(pretrained=True).to(device)
print(vgg16)
inputs = torch.rand(1, 3, 224, 224) # 拿一个随机tensor测试一下网络的输出是否满足预期
output = vgg16(inputs.to(device))
print("原始VGG网络的输出:",output.size())
# 构建新的全连接层
vgg16.classifier = torch.nn.Sequential(torch.nn.Linear(25088, 100),
torch.nn.ReLU(),
torch.nn.Dropout(p=0.5),
torch.nn.Linear(100, 2)).to(device)
inputs = torch.rand(1, 3, 224, 224)
output = vgg16(inputs.to(device))
print("新构建的VGG网络的输出:",output.size())
6、开始模型训练
开始模型训练,我们这里只训练全连接分类层,将特征层的梯度requires_grad设置为False,特征层的参数将不参与训练。
训练过程中保存效果最好的网络模型,以防掉线,可以从断点开始继续训练,同时也可以用来做预测。
训练完成后,保存训练好的网络和参数,后面可以加载模型做预测。
writer = SummaryWriter("./logs/model")
loss_func = nn.CrossEntropyLoss().to(device)
learning_rate = 0.0001
#如果我们想只训练模型的全连接层
for param in vgg16.features.parameters():
param.requires_grad = False
optimizer = torch.optim.Adam(vgg16.parameters(),lr=learning_rate)
## 断点续训开始
resume = False
if resume:
# 恢复上次的训练状态
print("Resume from checkpoint...")
checkpoint = torch.load("./models/checkpoint/ckpt_best.pth")
vgg16.load_state_dict(checkpoint['net'])
optimizer.load_state_dict(checkpoint['optimizer'])
epoch_ = checkpoint['epoch'] + 1
#从上次记录的损失和正确率接着记录
loss = checkpoint['loss']
total_test_loss = checkpoint["total_test_loss"]
total_acc = checkpoint["total_acc"]
else:
total_acc = 0.0
epoch_ = 0
##训练开始
total_train_step = 0
total_test_step = 0
min_acc = 0.0
for epoch in range(epoch_ , 10):
print("-----------train epoch {} start---------------".format(epoch))
vgg16.train()
for data in train_loader:
optimizer.zero_grad()
img, label = data
output = vgg16(img.to(device))
loss = loss_func(output, label.to(device))
loss.backward()
optimizer.step()
total_train_step += 1
if total_train_step % 10 == 0:
print("steps: {}, train_loss: {}".format(total_train_step, loss.item()))
writer.add_scalar("train_loss", loss.item(), total_train_step)
## 测试开始,看训练效果是否满足预期
total_test_loss = 0
vgg16.eval()
with torch.no_grad():
for data in test_loader:
optimizer.zero_grad()
img, label = data
output = vgg16(img.to(device))
loss = loss_func(output, label.to(device))
total_test_loss += loss
accuary = torch.sum(output.argmax(1) == label.to(device))
total_acc += accuary
total_test_step += 1
val_acc = total_acc.item() / len(test_dataset)
total_acc = 0.0
## 保存Acc最小的模型
if val_acc > min_acc:
min_acc = val_acc
torch.save(vgg16.state_dict(), "./models/2classes_vgg16_weight.pth")
print("测试Acc: {} \n 模型保存成功!".format(min_acc))
# 保存模型和训练参数的全相关信息,方便断点续训
checkpoint = {
"net": vgg16.state_dict(),
'optimizer':optimizer.state_dict(),
"loss": loss,
"epoch": epoch,
"total_test_loss": total_test_loss,
"total_acc": total_acc
}
if not os.path.exists("./models/checkpoint"):
os.mkdir("./models/checkpoint")
torch.save(checkpoint, './models/checkpoint/ckpt_best.pth')
print("测试loss: {}".format(total_test_loss.item()))
print("测试Acc: {}".format(val_acc))
writer.add_scalar("test_loss", total_test_loss.item(), total_test_step)
writer.add_scalar("test_Acc", val_acc, total_test_step)
torch.save(vgg16.state_dict(), "./models/2classes_vgg16_latest_{}.pth".format(val_acc))
7、利用训好的模型做预测
拿出一张图片做预测,首先导入预训练模型,同样改掉分类层,然后导入预训练权重,预测图片类别,输出标签值和预测类别。
import matplotlib.pyplot as plt
img_path = r"./kagglecatsanddogs_5340/PetImages/test/Cat/1381.jpg" # 拿出要预测的图片
image = Image.open(img_path).convert("RGB")
image.show()
vgg16_pred = torchvision.models.vgg16(pretrained=True)
vgg16_pred.classifier = torch.nn.Sequential(torch.nn.Linear(25088, 100),
torch.nn.ReLU(),
torch.nn.Dropout(p=0.5),
torch.nn.Linear(100, 2))
transform = torchvision.transforms.Compose([
torchvision.transforms.Resize((224,224), interpolation=2),
torchvision.transforms.ToTensor()
])
vgg16_pred.load_state_dict(torch.load("./models/2classes_vgg16_weight_15_0.9467513434294089.pth", map_location=torch.device('cpu')))
print(vgg16_pred)
image = transform(image)
print(image.size())
image = torch.reshape(image, [1,3,224,224])
vgg16_pred.eval()
with torch.no_grad():
output = vgg16_pred(image)
# print("预测值为:",output)
print("预测标签为:",output.argmax(1).item())
print("预测动物为:",train_dataset.classes[output.argmax(1)])
标签:定义数据,vgg16,流程,torch,Pytorch,train,test,path,os From: https://www.cnblogs.com/dq0618/p/17561514.html