首页 > 其他分享 >non_blocking=True 与 torch.cuda.synchronize()

non_blocking=True 与 torch.cuda.synchronize()

时间:2024-06-23 15:30:47浏览次数:26  
标签:异步 non torch synchronize cuda GPU CPU

需要注意的是:GPU和CPU之间是异步执行的,CPU向GPU下达指令以后会立刻执行之后的代码,CPU不会等待GPU执行完成

一、non_blocking=True 

目的:压缩gpu的效果,避免CPU与GPU设备数据传输时间开销带来的计算效率低下

在 PyTorch 中, non_blocking 是一个布尔类型的参数,用于指定是否启用异步数据传输。当你将 Tensor 数据从 CPU 移动到 GPU 时,可以通过设置 non_blocking=True 来启用异步传输模式,从而提高计算效率。这是因为深度学习很多程序在执行的时候加载数据的时间非常久,常见的两种策略分别是:pin_memory 和 non_blocking

这里给出一个示例:

images = images.to(device, non_blocking=True)

# 标准化等操作
mean = torch.Tensor([0.978, 0.977, 0.979]).cuda().unsqueeze(0).unsqueeze(-1).unsqueeze(-1)
std = torch.Tensor([0.131, 0.136, 0.129]).cuda().unsqueeze(0).unsqueeze(-1).unsqueeze(-1)

# 输入model
image = (images - mean) / std
y = model(image)

# 等待数据异步传输完成
torch.cuda.synchronize()

# logger更新等操作

这里是将image从CPU转到gpu的时候,同时使用non_blocking=True异步操作,可以让程序同时执行下面的标准化等操作,其中标准化等操作并不涉及对加载的image进行操作,所以异步执行没有问题,并不需要torch.cuda.synchronize()等待上述程序执行完成。

Q:这里会有一个疑惑?为什么可以在异步的情况下直接将images输入进model?

A:其实第一步的CPU转到gpu的速度是很快的,程序可以保证在标准化等操作的时候就执行完CPU转到gpu的传输,这里使用non_blocking=True 只是为了进一步压缩gpu的使用效率。

然后最后会执行一步 torch.cuda.synchronize(),这是因为下面是logger等操作,我们还是需要等model执行完再logger记录,否则会因为GPU和CPU之间是异步执行的,CPU不会等待GPU执行完成(model(image))执行完成就记录logger

二、 torch.cuda.synchronize()

目的:保证执行完gpu的任务再执行下面的操作

这是因为:GPU和CPU之间是异步执行的,CPU向GPU下达指令以后会立刻执行之后的代码,所以我们需要使用`torch.cuda.synchronize() `显示地等待GPU完成运算。

有一个例子是这样的:

pytorch 正确的测试时间的代码 torch.cuda.synchronize()_torch.cuda.synchronize() time-CSDN博客

需要注意的是任何在CPU上执行的操作都会打断gpu的异步操作,会将其变成同步操作,例如print()

所以不必要太在乎 torch.cuda.synchronize(),这种东西主要是为了保证让程序变成同步执行

Pytorch中x.cuda(non_blocking=True)参数解释_x.cuda()-CSDN博客

标签:异步,non,torch,synchronize,cuda,GPU,CPU
From: https://blog.csdn.net/weixin_43135178/article/details/139874111

相关文章

  • Mozilla 收购广告指标公司 Anonym
    在数字广告和隐私保护之间的紧张关系日益加剧的背景下,Mozilla宣布收购广告指标公司Anonym。这一举措不仅标志着Mozilla在广告技术领域的重大进展,也反映了其致力于用户隐私保护的坚定承诺。本文将探讨此次收购的背景、意义以及对未来广告技术和隐私保护的潜在影响。数字广告与......
  • 大模型基本概念学习 - Checkpoint、PyTorch、 TensorFlow、Transformers、ModelScope
    文章目录前言一、checkpoint二、TensorFlow1.简介2.主要特点3.示例代码三、PyTorch1.简介2.主要特点3.示例代码四、TensorFlow和PyTorch区别五、Transformers六、Transformers通过配置或自动检测来决定使用PyTorch或TensorFlow1.自动检测2.通过环境变量配......
  • VPC Access Connector 介绍 - 让 Non-VPC product 也可以访问VPC Network内的资源
    什么是VPCproduct和非VPCproduct在GCP上,VPCproduct指的是属于某个制定的vpcsubnet,具有至少1个该subnet的内网ip的产品常见的例如:computeengine/MIG(managedinstancesgroup)某些dataflowjob(指定了可选参数subnet)CloudComposer(基于airflow)......
  • anaconda安装①tensorflow-cpu 1.12.0py3.6②tensorflow-gpu 2.4.0③pytorch 2.4.1 通
    本机环境:Win10、rtx4060tianaconda常用命令condaenvlist#查看已有环境名称condaenvlistcondaactivateenv_name #激活环境condaactivateenv_namecondadeactivateenv_name#退出环境condadeactivateenv_namecondacreate-nenv_namepython=3.x#创建p......
  • 2024-06-22:用go语言,给定一个起始下标为 0 的长度为3的整数数组 nums,根据这些数字构建
    2024-06-22:用go语言,给定一个起始下标为0的长度为3的整数数组nums,根据这些数字构建三角形。如果无法构成三角形,则返回"none";否则根据三角形的边长关系返回对应类型的字符串:equilateral(等边三角形)、isosceles(等腰三角形)或scalene(不等边三角形)。输入:nums=[3,3,3]。输出:"e......
  • PyTorch(一)模型训练过程
    PyTorch(一)模型训练过程#c总结实践总结该实践从「数据处理」开始到最后利用训练好的「模型」预测,感受到了整个模型的训练过程。其中也有部分知识点,例如定义神经网络,只是初步的模仿,有一个比较浅的认识,还需要继续学习原理。整个流程:「准备数据」,「创建数据加载器」,「选择......
  • pytorch实现:PINN 寻求一维非线性薛定谔方程数值解
    pytorch实现:PINN寻求一维非线性薛定谔方程数值解pytorch实现:PINN寻求一维非线性薛定谔方程数值解1.非线性薛定谔方程2.PINN实例2.1偏微分方程条件2.2损失函数推导2.3损失函数定义3.代码实现4.训练结果5.源代码pytorch实现:PINN寻求一维非线性薛定谔方程数值......
  • PyTorch+CNN进行猫狗识别项目
    任务介绍数据结构为:big_data  ├──train  │ └──cat  │    └──XXX.jpg(每个文件夹含若干张图像)  │ └──dog  │    └──XXX.jpg(每个文件夹含若干张图像)  ├──val  │ └──cat  │......
  • synchronized 和 ReentrantLock (Lock)区别,优劣对比
    两种方法都是为了确保多线程环境中的线程安全,但它们使用了不同的同步机制:synchronized关键字和Lock接口。下面详细对比这两种方法的区别、优缺点以及适用场景。synchronized关键字publicsynchronizedvoidaddSession(HttpSessionsession){if(session!=null){......
  • java synchronized 保护线程安全
    前言工作中自己实现了一个MySessionContext类,在实现addSession方法的时候,考虑到会有线程不安全问题,这里需要使用synchronized关键字来保护线程安全。理解synchronized关键字需要了解多线程和线程安全的基本概念。在多线程环境中,多个线程可以同时访问共享资源(例如内存中的变量......