一、简介
pytorch自带的数据集由两个上层api提供,分别是torchvision和torchtext,其中:
1、torchvision提供了对图片数据处理相关的api和数据
数据位置:torchvision.datasets,例如:torchvision.datasets.MNIST(手写数字图片数据)
2、torchtext提供了对文本数据处理相关的api和数据
数据位置:torchtext.datasets,例如:torchtext.datasets.IMDB(电影评论文本数据)
也Mnist手写数据为例,看pytorch如何加载自带数据集
1、准备好Dataset实例
2、把dataset交给dataloader打乱顺序,组成batch
二、torchvieriosn.datasets
torchversion.datasets中的数据集类(比如torchvision.datasets.MNIST),都是继承自Dataset,意味首:直接对torchvision.datasets.MNIST进行实例化就可以得到Dataset的实例,但是MNIST API中的参数需要注意一下:
torchvision.datasets.MNIST(root='./data',train=True,download=True,transform=)
1、root参数表示数据存放的位置、
2、trani:bool类型,表示是使用训练集的数据还是测试集的数据
3、download:bool类型,表示是否需要下载数据到root目录
4、transform:实现对图片的处理函数
三、MNIST数据集的介绍
MNIST是由Yann LeCun等人提供的免费的图像识别数据集,其中包括60000个训练样本和10000个测试样本,其中图片尺寸已经进行标准化处理,都是黑白的图像,大小为28*28,,
执行以下代码,可以下载数据集
import torchvision from torchvision.datasets import MNIST #pytorch自带手写数字数据集 mnist = MNIST(root='./data',train=True,download=True) #print(mnist) print(mnist[0]) img = mnist[0][0] img.show()
标签:datasets,torchvision,pytorch,自带,数据,MNIST From: https://www.cnblogs.com/handsomeziff/p/18005926