《昇思25天学习打卡营第3天 | 数据集 Dataset》

时间：2024-06-30 17:30:52浏览次数：24

标签：__ 25 定义数据迭代 dataset 打卡 Dataset 数据加载

学习内容：MindSpores数据集相关处理方法

MindSpores提供基于Pipeline的数据引擎，通过数据集（Dataset）和数据变换（Transforms）实现高效的数据预处理。其中Dataset是Pipeline的起始，用于加载原始数据。mindspore.dataset提供了内置的文本、图像、音频等数据集加载接口，并提供了自定义数据集加载接口。

此外MindSpore的领域开发库也提供了大量的预加载数据集，可以使用API一键下载使用。本教程将分别对不同的数据集加载方式、数据集常见操作和自定义数据集方法进行详细阐述。

1.数据集加载

mindspore.dataset提供的接口仅支持解压后的数据文件，因此我们使用download库下载数据集并解压。

Download data from open datasets

from download import download
url = "https://mindspore-website.obs.cn-north-4.myhuaweicloud.com/" \
          "notebook/datasets/MNIST_Data.zip"
path = download(url, "./", kind="zip", replace=True)

2.数据集迭代

数据集加载后，一般以迭代方式获取数据，然后送入神经网络中进行训练。我们可以用create_tuple_iterator或create_dict_iterator接口创建数据迭代器，迭代访问数据。

访问的数据类型默认为Tensor；若设置output_numpy=True，访问的数据类型为Numpy。

def visualize(dataset):
figure = plt.figure(figsize=(4, 4))
cols, rows = 3, 3

plt.subplots_adjust(wspace=0.5, hspace=0.5)

for idx, (image, label) in enumerate(dataset.create_tuple_iterator()):
    figure.add_subplot(rows, cols, idx + 1)
    plt.title(int(label))
    plt.axis("off")
    plt.imshow(image.asnumpy().squeeze(), cmap="gray")
    if idx == cols * rows - 1:
        break
plt.show()

在这里插入图片描述

3.数据集常用操作

Pipeline的设计理念使得数据集的常用操作采用dataset = dataset.operation()的异步执行方式，执行操作返回新的Dataset，此时不执行具体操作，而是在Pipeline中加入节点，最终进行迭代时，并行执行整个Pipeline。

下面分别介绍几种常见的数据集操作。

shuffle：数据集随机shuffle可以消除数据排列造成的分布不均问题。mindspore.dataset提供的数据集在加载时可配置shuffle=True，或使用如下操作：

train_dataset = train_dataset.shuffle(buffer_size=64)
visualize(train_dataset)

map：操作是数据预处理的关键操作，可以针对数据集指定列（column）添加数据变换（Transforms），将数据变换应用于该列数据的每个元素，并返回包含变换后元素的新数据集。
batch：将数据集打包为固定大小的batch是在有限硬件资源下使用梯度下降进行模型优化的折中方法，可以保证梯度下降的随机性和优化计算量。

自定义数据集

mindspore.dataset模块提供了一些常用的公开数据集和标准格式数据集的加载API。

对于MindSpore暂不支持直接加载的数据集，可以构造自定义数据加载类或自定义数据集生成函数的方式来生成数据集，然后通过GeneratorDataset接口实现自定义方式的数据集加载。

GeneratorDataset支持通过可随机访问数据集对象、可迭代数据集对象和生成器(generator)构造自定义数据集，下面分别对其进行介绍。

可随机访问数据集：可随机访问数据集是实现了__getitem__和__len__方法的数据集，表示可以通过索引/键直接访问对应位置的数据样本。
可迭代数据集：可迭代的数据集是实现了__iter__和__next__方法的数据集，表示可以通过迭代的方式逐步获取数据样本。这种类型的数据集特别适用于随机访问成本太高或者不可行的情况。
生成器：生成器也属于可迭代的数据集类型，其直接依赖Python的生成器类型generator返回数据，直至生成器抛出StopIteration异常

心得体会

一步一个脚印认真打好基础。

标签：__,25,定义数据,迭代,dataset,打卡,Dataset,数据,加载
From： https://blog.csdn.net/jc_56/article/details/140000392

《昇思25天学习打卡营第4天 | 数据变换 Transforms》
学习内容:MindSpore提供不同种类的数据变换通常情况下，直接加载的原始数据并不能直接送入神经网络进行训练，此时我们需要对其进行数据预处理。MindSpore提供不同种类的数据变换（Transforms），配合数据处理Pipeline来实现数据预处理。所有的Transforms均可通过map方法传入，实现对指......
某大型建设集团有限公司信息化技术方案（250页WORD）
方案介绍：本信息化技术方案旨在构建一个集成度高、功能全面、操作简便的信息化系统，涵盖公司管理、业务运营、项目监控、数据分析等多个方面。通过引入云计算、大数据、物联网、人工智能等先进技术，实现资源的优化配置、流程的高效协同和数据的智能分析，从而提升公司的整体竞争力。......
炸锅！张宇25强化咋样？听说书厚到爆炸？
网上已经炸锅了！都说学不完了。但是，网上的几个主流观点，不完全对。观点1:基础30讲没变。强化36讲换汤不换药。知能行AI教练认为，不完全对。基础30讲书没变，但课变了。课时比24多出2倍。这是因为，强化的知识点移到了30讲里。这也导致，25版36讲更侧重解题和二级结论。观点2:......
'MMDetection3D'+'waymo-open-dataset-tf-2-6-0'+'pytorc2.3.1+cu121'安装
安装pytorc2.3.1+cu121步骤1.创建并激活一个conda环境condacreate-nmmdpython=3.8-ycondaactivatemmd步骤2.基于PyTorch官方说明安装PyTorch，例如：pip3installtorchtorchvisiontorchaudio--index-urlhttps://download.pytorch.org/whl/cu121步骤3.验......
基于java+springboot+vue实现的游戏交易系统（文末源码+Lw）256
摘要在如今社会上，关于信息上面的处理，没有任何一个企业或者个人会忽视，如何让信息急速传递，并且归档储存查询，采用之前的纸张记录模式已经不符合当前使用要求了。所以，对游戏交易信息管理的提升，也为了对游戏交易信息进行更好的维护，游戏交易系统的出现就变得水到渠成不可缺少。......
Leetcode 225. 用队列实现栈 && 232.用栈实现队列（jvav）
225.用队列实现栈题目：请你仅使用两个队列实现一个后入先出（LIFO）的栈，并支持普通栈的全部四种操作（push、top、pop 和 empty）。本题可采用一个队列或两个队列完成，这里我使用一个队列实现栈，更加简洁，理解起来也不难。栈的特点是先进后出，队......
贪心推公式——AcWing 125. 耍杂技的牛
贪心推公式定义贪心算法是一种在每一步选择中都采取在当前状态下最优的选择，希望通过局部的最优选择来得到全局最优解的算法策略。运用情况问题具有最优子结构，即一个问题的最优解包含其子问题的最优解。可以通过局部最优决策逐步推导到全局最优。问题的选择策略相对明确且易......
Kimichat使用案例025：用于学习教育场景的7种高级方法
文章目录一、AI作为导师二、AI作为教练三、AI作为指导员四、AI作为团队成员五、AI作为模拟器六、AI作为学生七、AI作为工具一、AI作为导师你是一个乐观、鼓励学生的导师，通过解释观点和问学生问题来帮助学生理解概念。下面每一步只一步步的执行，不要全部执行。......
【MindSpore学习打卡】初学教程-06网络构建-使用MindSpore构建神经网络模型
在深度学习的世界中，构建和训练神经网络模型是核心任务之一。MindSpore作为一款开源的深度学习框架，提供了丰富的API和工具，使得构建神经网络模型变得更加简洁和高效。在这篇博客中，我们将以Mnist数据集分类为例，逐步讲解如何使用MindSpore定义模型、构建网络层并进行预测。通过......
image-classification-dataset
importtorchtextfromtorchvisionimporttransformsfromtorch.utilsimportdatafromd2limporttorchasd2limporttorchvisiontrans=transforms.ToTensor()fashion_mnist_train=torchvision.datasets.FashionMNIST("../data",......