首页 > 其他分享 >(机器之心解读)英伟达DALI加速技巧:让数据预处理速度比原生PyTorch快4倍

(机器之心解读)英伟达DALI加速技巧:让数据预处理速度比原生PyTorch快4倍

时间:2022-09-07 10:12:49浏览次数:98  
标签:伟达 pipeline DALI CPU PyTorch GPU 预处理

你的数据处理影响整个训练速度,如果加上英伟达 DALI 库,处理速度比原生 PyTorch 也能快上四倍。

选自towardsdatascience,作者:Pieterluitjens,机器之心编译,参与:一鸣、嘉明、思。

 


深度学习的加速上,除了对训练和推理过程的加速之外,还有对数据加载和预处理阶段的加速。这一阶段也尤为关键,因为数据处理 pipeline 的处理速度也影响着整体的流程效率。

近日,有开发者介绍了如何使用 NVIDIA Data Loading Library(DALI),以及使用这个库进行数据预处理加速的方法。DALI 和 TensorFlow 自带的 DataLoader 类似,是一个专门用于加速数据预处理过程的库。

在一篇博客中,开发者表示,该库不仅可以进行 GPU 加速,也可以在 CPU 上构建一个完整的数据预处理流程。如果在 Tesla V100 上做测试,PyTorch+DALI 的处理速度能达到 4000 images/s,比原版 PyTorch 要快近 4 倍。

支持多个框架,针对预处理

英伟达数据加载库 DALI 是一个便捷式开源库,用于图像或视频的解码及增强,从而加速深度学习应用。通过并行训练和预处理过程,减少了延迟及训练时间,并为当下流行的深度学习框架中的内置数据加载器及数据迭代器提供了一个嵌入式替代器,便于集成或重定向至不同框架。

开发人员可以在 GPU 上运行他们的数据处理通道,从而减少训练神经网络的时间。而 DALI 实现了数据处理 pipeline 可移植,因为可以轻松地重定向至 TensorFlow,PyTorch 和 MXNet。

 


DALI 设计之初就是用来帮助用户突破数据预处理的瓶颈,使得模型的训练和推理能够达到最高的效率。其主要设计是用于在 GPU 上的预处理,但大多数操作也可在 CPU 上实现。

主要特征

  • 易于使用的 Python API
  • 在多个 GPU 之间显式地缩放
  • 加快图像分类(ResNet-50)和目标检测分类(SSD)工作流
  • 灵活的计算图使得开发人员可创建自定义的数据处理 pipeline
  • 支持多种格式 - LMDB、RecordIO、TFRecord、COCO、JPEG、H.264 以及 HEVC
  • 开发人员可添加自定义的图像或视频处理 operator

 

DALI 在 MXNet 上训练 ResNet50 的性能表现。

使用 DALI 重构数据预处理 pipeline

内存占用大是 DALI 在加速数据预处理中面对的一个重要问题。随着批大小的上升,DALI 的内存占用会变得更大。这一问题现在还没有得到修复。

 

DALI 的内存占用问题。

而和其他的数据预处理工具相比,DALI 能够最大处理的批大小相比 TorchVision 少了一半。

 


因此,使用 DALI 加速数据预处理需要重新构建整个 pipeline。在教程中,作者分别介绍了构建 CPU pipeline 和 GPU pipeline 的方法。

构建 CPU pipepline

使用 CPU 进行数据预处理的时候,常用的做法是让 CPU 处理解码和 resize 的工作,而 CropMirrorNormalize 这样的工作放到 GPU 上。由于使用 DALI 将输出传入 GPU 中就会占用很大的内存,因此作者构建了一个完全基于 CPU 的 pipeline。

首先,重新加载并导入 DALI。



然后构建基于 CPU 的 pipeline。

 

在这里设置一下哪些操作应当由 CPU 运行。



然后开始相应的操作。如解码:



以及 resize:



CropMirrorNormalize 的操作由 GPU 进行。

 

当然,还需要从 CPU 到 GPU 的转移过程,这一过程使用 PyTorch 进行,作者在教程中也给出了相应的代码。

构建基于 GPU 的 pipeline

当模型较大(如使用 ResNet50)的时候,基于 CPU 的 pipepline 效果较好,而在类似于 AlexNet 或 ResNet18 这样的小模型上,CPU 的处理还是跟不上 GPU 的数据处理速度。其主要原因在于,GPU pipeline 会降低近一半的批大小。

为了解决这个问题,作者建议将验证 pipepline 从 GPU 中关掉,直到每个 epoch 的最后需要的时候再开启。

效果评价

以下是作者在 ResNet18 中使用的最大批量大小:



因此通过合理应用这一系列修改,DALI 可以使得最大批量大小在 CPU 或 GPU 模式下提升 50%

而在 Shufflenet V2 0.5 上,如果批大小为 512,则 DALI GPU 和 CPU 能够处理的批大小如下:

可以看到,即使是 CPU,其处理速度也达到了每秒 1800 张图像,速度超过了 TorchVision。

所有的测试都在 Google Cloud V100 实例下运行:包含 12 个 vCPU(6 个物理内核),78GB 内存,以及使用 ApexFP16 进行训练。

因此,通过 DALI,一个 Tesla V100 GPU 就可以达到将近每秒 4000 张图像。接近英伟达有 8 个 V100 GPU 的 DGX-1 的性能,尽管使用的是小模型。

参考链接:https://towardsdatascience.com/nvidia-dali-speeding-up-pytorch-876c80182440

标签:伟达,pipeline,DALI,CPU,PyTorch,GPU,预处理
From: https://www.cnblogs.com/chentiao/p/16664296.html

相关文章

  • (英文原文版)英伟达DALI加速技巧:让数据预处理速度比原生PyTorch快4倍
    NVIDIADALI:SpeedingupPyTorchSometechniquestoimproveDALIresourceusage&createacompletelyCPU-basedpipeline.Upto4xfasterPyTorchtraining......
  • PyTorch 安装
    本机环境打开设备管理器,找到相应的显卡,查看本机是否支持GPU,如下图所示,这可以确定需要安装PyTorch是GPU还是CPU版本Anaconda安装Anaconda官网地址:https://www.a......
  • pytorch-is_leaf-叶子张量
    1概念介绍        在pytorch的tensor类中,有个is_leaf的属性,表示这个tensor是否是叶子节点:is_leaf 为False的时候,则不是叶子节点, is_leaf为True的时候为叶......
  • CloudAlibaba
    Nacosnacos基本配置Docker部署Nacosnacos手册:https://nacos.io/zh-cn/docs/what-is-nacos.html依赖:<!--添加nacos客户端--><dependency><groupId>com.alibaba.c......
  • pytorch相关知识点
    1.super的作用super()函数可以隐式的将子类里的method和父类里的method进行关联,这样就不需要再子类里显式的重新创建父类method里的属性说人话就是继承父类需要对用到的......
  • SpringCloudAlibaba
    SpringCloudAlibaba基础复习微服务模块建module改POM写YML主启动业务类使用restTemplet发送http请求packagecom.yhd.config;importorg.springframework.con......
  • 【防忘笔记】一个例子理解Pytorch中一维卷积nn.Conv1d
    一维卷积层的各项参数如下torch.nn.Conv1d(in_channels,out_channels,kernel_size,stride=1,padding=0,dilation=1,groups=1,bias=True,padding_mode='zeros',de......
  • 【MindSpore易点通】如何将PyTorch源码转成MindSpore低阶APIP,并在Ascend芯片上实现单
    文章来源:华为云论坛_云计算论坛_开发者论坛_技术论坛-华为云1 概述本文将介绍如何将PyTorch源码转换成MindSpore低阶API代码,并在Ascend芯片上实现单机单卡训练。下图展......
  • Pytorch 数据增强
    在进行深度学习训练时,如果图片过大或者训练数据匮乏时可以对输入数据进行裁剪,翻转等操作。 Pytorch官网讲解: Transforms—PyTorchTutorials1.12.1+cu102document......
  • ERROR: <bits/stdc++.h>, 'cstdalign' file not found, running C++17
    Modified 1year,1monthagoViewed 9ktimes4I'mtryingtorunapieceofcodein VisualStudioCode,onmacOSCatalina.Thecode:#include<bi......