深度学习（单机多gpu训练）

时间：2024-03-31 18:00:50浏览次数：43

标签：nn 单机 import torch transforms 深度 device gpu model

如果一个机器上有多个gpu，可以使用多gpu训练。

一般数据量和模型比较大的时候训练速度会有明显的提升，模型和数据比较小的时候反而可能因为数据通信原因导致性能下降。

下面是一个简单的例子：

import time
import torch
import torchvision.models
from torchvision.transforms import transforms
from torch import nn, optim
from torchvision.datasets import CIFAR10

if __name__ == "__main__":

    device = torch.device("cuda")
    
    dataTransforms = transforms.Compose([
            transforms.ToTensor()
            , transforms.RandomCrop(32, padding=4)  
            , transforms.RandomHorizontalFlip(p=0.5) 
            , transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])  
        ])

    trainset = CIFAR10(root='./data', train=True, download=True, transform=dataTransforms)
    trainLoader = torch.utils.data.DataLoader(trainset, batch_size=256, shuffle=True)
 
    model = torchvision.models.resnet18(pretrained=False)
    model.conv1 = nn.Conv2d(3, 64, 3, stride=1, padding=1, bias=True)  
    model.maxpool = nn.MaxPool2d(1, 1, 0) 
    model.fc = nn.Linear(model.fc.in_features, 10)
 
    model.to(device)

    # 将模型包装成 DataParallel
    if torch.cuda.device_count() > 1:
        model = nn.DataParallel(model)

    cross = nn.CrossEntropyLoss()
    cross.to(device)

    optimizer = optim.SGD(model.parameters(), lr=0.1, momentum=0.9, weight_decay=5e-4)

    start = time.time()
    for epoch in range(10):
   
        model.train()  

        correctSum = 0.0
        lossSum = 0.0
        dataLen = 0

        for inputs, labels in trainLoader:
            inputs = inputs.to(device)
            labels = labels.to(device)
 
            optimizer.zero_grad()
            outputs = model(inputs)
            loss = cross(outputs, labels)
 
            _, preds = torch.max(outputs, 1)  
 
            loss.backward() 
            optimizer.step()  
 
            correct = (preds == labels).sum() 
            correctSum +=correct
            lossSum += loss.item()
            dataLen +=inputs.size(0)
        
        print(lossSum/dataLen, correctSum/dataLen)

    timeElapsed = time.time() - start
    print('耗时 {:.0f}m {:.0f}s'.format(timeElapsed // 60, timeElapsed % 60))

标签：nn,单机,import,torch,transforms,深度,device,gpu,model
From： https://www.cnblogs.com/tiandsp/p/18095358

一文掌握堆（Heap）全貌：原理深度解析、动态演示核心操作与实际应用场景
参考动画：从堆的定义到优先队列、堆排序建议配合动画食用为什么叫堆呢？“堆”这个词在数据结构的上下文中通常指的是一种特定的树形数据结构，其命名来源于它的特性和应用。在这种结构中，父节点和子节点之间存在特定的排序关系，这类似于物理世界中堆积的物体——较大或较重的物......
【每周例题】力扣 C++ 二叉树的最小深度
二叉树的最小深度题目二叉树的最小深度题目分析1.首先我们可以处理最小深度为0与最小深度为1的情况：最小深度为0：头结点为空；root==nullptr最小深度为1：root->left==nullptr&&root->right==nullptr2.接下来分为左右子树处理，我们可以用递归来计算最小深度3.最后比较左......
LeetCodeHot100 二叉树 94. 二叉树的中序遍历 104. 二叉树的最大深度 101. 对称二
94.二叉树的中序遍历https://leetcode.cn/problems/binary-tree-inorder-traversal/description/?envType=study-plan-v2&envId=top-100-liked//递归//List<Integer>resList;//publicList<Integer>inorderTraversal(TreeNoderoot){//re......
搜索与图论（三）树与图的深度优先遍历---以题为例
给定一颗树，树中包含 n个结点（编号 1∼n）和 n−1 条无向边。请你找到树的重心，并输出将重心删除后，剩余各个连通块中点数的最大值。重心定义：重心是指树中的一个结点，如果将这个点删除后，剩余各个连通块中点数的最大值最小，那么这个节点被称为树的重心。输入格式第一行包含整数 n，......
工厂方法模式与抽象工厂模式的深度对比
......
m基于深度学习的64QAM调制解调系统频偏估计和补偿算法matlab仿真
1.算法仿真效果matlab2022a仿真结果如下：算法涉及理论知识概要 2.2基于深度学习的频偏估计和补偿算法基于深度学习的频偏估计和补偿算法利用深度神经网络来建立接收信号与频偏之间的非线性映射关系,通过训练网络模型来实现频偏的估计和补......
AMD hipcc 生成各个gpu 微架构汇编语言代码的方法示例
1，gpuvectorAdd示例为了简化逻辑，故假设vector的size与运行配置的thread个熟正好一样多，比如都是512之类的.1.1源码vectorAdd.hip#include<stdio.h>#include<hip/hip_runtime.h>__global__voidvectorAdd(constfloat*A,constfloat*B,float*C){inti=......
毕业设计：基于深度学习的物品识别目标检测系统机器视觉
目录前言设计思路一、课题背景与意义二、算法理论原理2.1深度学习2.2注意力机制三、检测的实现3.1数据集3.2实验环境搭建3.3实验及结果分析最后前言 ......
毕业设计：基于深度学习的电影推荐算法 -- 以豆瓣为例大数据
目录前言设计思路一、课题背景与意义二、算法理论原理2.1GRU网络模型2.2语言模型2.3推荐算法三、检测的实现3.1数据集3.2实验环境搭建3.3实验及结果分析最后前言 ......
毕业设计：深度学习驱动的电影推荐系统
目录前言项目背景设计思路更多帮助前言 ......

深度学习（单机多gpu训练）

相关文章

赞助商

阅读排行