MNIST 数据集

机器学习的入门就是MNIST。

MNIST 数据集来自美国国家标准与技术研究所，是NIST（National Institute of Standards and Technology）的缩小版，训练集（training set）由来自 250 个不同人手写的数字构成，其中 50% 是高中学生，50% 来自人口普查局（the Census Bureau）的工作人员，测试集（test set）也是同样比例的手写数字数据。

获取MNIST
MNIST 数据集可在http://yann.lecun.com/exdb/mnist/获取，图片是以字节的形式进行存储，它包含了四个部分：

Training set images: train-images-idx3-ubyte.gz (9.9 MB, 解压后 47 MB, 包含 60,000 个样本)
Training set labels: train-labels-idx1-ubyte.gz (29 KB, 解压后 60 KB, 包含 60,000 个标签)
Test set images: t10k-images-idx3-ubyte.gz (1.6 MB, 解压后 7.8 MB, 包含 10,000 个样本)
Test set labels: t10k-labels-idx1-ubyte.gz (5KB, 解压后 10 KB, 包含 10,000 个标签)

此数据集中，训练样本：共60000个，其中55000个用于训练，另外5000个用于验证。测试样本：共10000个，验证数据比例相同。

from torchvision.datasets import MNIST
mnist_train = MNIST(root='./MNIST_data', train=True, download=True, transform=transforms.PILToTensor())

数据加载

from torch.utils.data import DataLoader
from torchvision.utils import make_grid
dataloader = DataLoader(dataset=mnist_train, batch_size=2, shuffle=True, num_workers=2)
for (images, labels) in dataloader:
    print(labels)
    image = make_grid(images).permute(1, 2, 0).numpy()
    plt.imshow(image)
    plt.show()
    exit()

其中参数含义：

dataset：提前定义的dataset的实例
batch_size:传入数据的batch的大小，常用128,256等等
shuffle：bool类型，表示是否在每次获取数据的时候提前打乱数据
num_workers:加载数据的线程数

transforms

由于 DataLoader 这个加载器只能加载 tensors, numpy arrays, numbers, dicts or lists

但是 found <class 'PIL.Image.Image'>，所以就很尴尬，我们需要将图片转换一下

transforms 用于图形变换，在使用时我们还可以使用 transforms.Compose将一系列的transforms操作链接起来。

torchvision.transforms.Compose([ ts,ts,ts... ])ts为transforms操作

transform = transforms.Compose(
    [transforms.ToTensor(),
     transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))])

大多数情况下我们不会只transforms 一下，所以可以用如下方案

from torchvision import transforms
transforms.Compose(
    [  #文档  https://pytorch.org/vision/stable/transforms.html
        transforms.ToPILImage(),  # 转成PIL图片
        # transforms.Resize(size),  # 缩放
        transforms.ToTensor(),  # 变张量
        transforms.Normalize(mean=(0.1307, ), std=(0.3081, )) ]
)

介绍一个概念：

transforms 处理过后，会把通道移到最前边。比如 MNIST h*w*c 为：28281

tensor处理完，通道数会提前，并且做了轴交换，变为了 c*h*w 为：12828

至于为什么要这么设计？听传言是做矩阵加减乘除以及卷积等运算是需要调用cuda和cudnn的函数的，而这些接口都设成成 chw 格式了

标签：set,labels,transforms,images,数据,MNIST,加载
From： https://www.cnblogs.com/kai-/p/16973742.html

【MySQL】【数据库】sql的null不能用等号
LeetCode584.寻找用户推荐人直达给定表customer，里面保存了所有客户信息和他们的推荐人。idnamereferee_id1WillNULL2JaneNULL3Alex24Bil......
静态文件配置、静态文件相关配置、form表单、request对象、pycharm连接数据库、django
目录静态文件配置静态文件相关配置form表单request对象pycharm连接数据库django连接数据库ORM简介ORM基本操作ORM基本语句静态文件配置编写一个用户登录页面静态文......
Web电子表格插件、在线Excel插件、在线Spreadsheet插件、大量数据行-百万数据行插件、
实现在线表格的方式有：1、以HTML的Table元素实现，主要靠虚拟渲染优化性能，体验较差，插件却很多。2、以HTML的Canvas绘图实现，得益于Canvas的高性能，体验可以优化到极致，但绘图相......
mysql数据库和表的基础操作
MySQL数据模型关系型数据库是建立在关系模型基础上的数据库，简单说，关系型数据库是由多张能互相连接的二维表组成的数据库关系型数据库的优点：都是使用表结构，格式一致......
【mySQL】【数据库】union与or的区别--为什么建议用union代替or?
LeetCode595.大的国家点击直达如果一个国家满足下述两个条件之一，则认为该国是大国：面积至少为300万平方公里（即，3000000km2），或者人口至少为2500万（即25000000）编写......
海量训练数据
MongoDB实现查询、分页和排序操作以及游标的使用https://www.jb51.net/article/254753.htmMongoDB按照时间段查询某个物理机的CPU使用率，按照时间倒序排序，取出最新的5条......
Python爬虫实战，requests+xlwt模块，爬取螺蛳粉商品数据（附源码）
前言今天给大家介绍的是Python爬取螺蛳粉商品数据，在这里给需要的小伙伴们代码，并且给出一点小心得。首先是爬取之前应该尽可能伪装成浏览器而不被识别出来是爬虫，基本的是......
中国各地级市数字经济指数数据（2000-2021）
中国各地级市数字经济指数数据（2000-2021）中国各地级市数字经济指数数据（2000-2021）中国各地级市数字经济指数数据（2000-2021）最新版数据已整理为Excel格式，数据的时间区间......
拓端tecdat|R语言编程指导用关联规则和聚类模型挖掘处方数据探索药物配伍中的规律
R语言用关联规则和聚类模型挖掘处方数据探索药物配伍中的规律概要方剂药效与剂量的关系中药不传之秘在于剂量中药配伍规律。拓端数据使用数据挖......
拓端tecdat|R语言编程指导使用二元回归将序数数据建模为多元GLM
R语言使用二元回归将序数数据建模为多元GLM 用于分析序数数据的最常见模型是逻辑模型。本质上，您将结果视为连续潜在变量的分类表现。此结果的预......

MNIST 数据集、数据加载

MNIST 数据集

数据加载

transforms

相关文章

赞助商

阅读排行