神经网络释放GPU显存两种方式（固定or动态）

时间：2024-08-29 22:25:58浏览次数：22

标签：显存释放 torch epoch 神经网络 cuda memory GPU

固定的批次数后释放显存

固定的批次数后释放显存，比如每训练 100 批次释放一次显存，可以通过在训练循环中添加一个计数器来实现。以下是如何实现这种策略的示例代码：

import torch

def train():
    start_epoch = 0
    end_epoch = 100
    release_frequency = 100  # 每100个批次释放一次显存

    train_loader = DataLoader('训练数据', num_workers=4, pin_memory=True)
    eval_loader = DataLoader('预测数据', num_workers=4, pin_memory=True)
    
    for epoch in range(start_epoch, end_epoch):
        for batch_idx, (data, target) in enumerate(train_loader):
            # 模型训练代码
            # output = model(data)

            # 每训练完固定数量的批次，释放一次显存
            if (batch_idx + 1) % release_frequency == 0:
                torch.cuda.empty_cache()

            # 其他操作

        # 每个epoch结束后，也可以选择释放一次显存
        torch.cuda.empty_cache()

解释与预期效果：

固定批次释放：通过 if (batch_idx + 1) % release_frequency == 0: 判断条件，每 100 个批次释放一次显存。
显存管理的平衡：这种方式可以减少显存的累积风险，同时避免每个批次都释放显存带来的性能开销。
灵活调整：如果发现显存占用仍然较高或训练时间较长，可以调整 release_frequency 的值，增加或减少显存释放的频率。

潜在问题：

内存占用的逐渐增加：如果训练过程中显存占用过多且释放不及时，可能会出现OOM错误。可以通过监控显存情况，适时调整 release_frequency 。
显存碎片化：定期释放显存可以减少显存碎片化的可能性，但仍需注意在显存占用较大的情况下，可能需要额外的显存管理措施。

总结：

通过这种方式，你可以在固定的批次数后释放显存，确保在显存使用和训练效率之间找到一个平衡点。这种方法在中大型数据集的训练中尤为有效，可以有效防止显存溢出，同时最大化训练速度。

动态策略：

根据显存使用情况动态决定何时释放。可以在程序中监控显存使用，当达到一定阈值时触发释放操作。

实现一个动态策略，根据显存使用情况决定何时释放显存，可以通过以下步骤进行：

1. 监控显存使用情况

你可以使用 PyTorch 提供的 torch.cuda.memory_allocated() 和 torch.cuda.memory_reserved() 函数来监控当前显存的使用情况：

torch.cuda.memory_allocated()：返回当前被PyTorch占用的显存量。
torch.cuda.memory_reserved()：返回当前已分配但未使用的显存量。

2. 设置显存使用阈值

设定一个显存使用的阈值，当显存占用超过这个阈值时触发释放操作。阈值可以根据你的显卡的总显存来设定。

3. 实现动态释放显存的逻辑

在训练过程中，定期检查显存使用情况，当显存使用超过设定的阈值时，调用 torch.cuda.empty_cache() 释放显存。

示例代码：

import torch

def train():
    start_epoch = 0
    end_epoch = 100
    memory_threshold = 0.8  # 设定显存阈值为总显存的80%
    release_frequency = 100  # 每100批次检查一次显存

    train_loader = DataLoader('训练数据', num_workers=4, pin_memory=True)
    eval_loader = DataLoader('预测数据', num_workers=4, pin_memory=True)

    for epoch in range(start_epoch, end_epoch):
        for batch_idx, (data, target) in enumerate(train_loader):
            # 模型训练代码
            # output = model(data)

            # 每训练完固定数量的批次，检查显存占用情况
            if (batch_idx + 1) % release_frequency == 0:
                allocated_memory = torch.cuda.memory_allocated()
                total_memory = torch.cuda.get_device_properties(0).total_memory
                memory_usage_ratio = allocated_memory / total_memory

                if memory_usage_ratio > memory_threshold:
                    torch.cuda.empty_cache()
                    print(f"显存使用达到 {memory_usage_ratio*100:.2f}%，已释放显存。")

            # 其他操作

        # 每个epoch结束后，也可以选择释放一次显存
        torch.cuda.empty_cache()

解释与调整：

动态检查显存：代码每100个批次检查一次显存使用情况。如果显存占用超过设定的阈值（例如80%），则释放显存。
显存监控的灵活性：你可以根据具体的显卡情况调整 memory_threshold 的值，或者根据实际需要调整 release_frequency 的检查频率。
释放频率的调整：如果发现显存使用频繁达到阈值，可能需要降低 release_frequency 或增加 memory_threshold，以避免过于频繁的显存释放。

总结：

动态显存释放策略可以根据显存实际使用情况灵活地管理资源，避免了显存不足带来的问题，同时又能保持较高的训练效率。这个方法特别适合在不确定显存使用情况的复杂训练任务中应用。

标签：显存,释放,torch,epoch,神经网络,cuda,memory,GPU
From： https://blog.51cto.com/u_16420155/11870143

Python深度学习股价预测、量化交易策略：LSTM、GRU深度门控循环神经网络|附代码数据
全文链接：https://tecdat.cn/?p=37539原文出处：拓端数据部落公众号分析师：ShuoZhang本文以上证综指近22年的日交易数据为样本，构建深度门控循环神经网络模型，从股价预测和制定交易策略两方面入手，量化循环神经网络在股票预测以及交易策略中的效果，结合一个Python深度学习股价预测......
zabbix监控GPU使用率
vi/etc/zabbix/zabbix_agent.conf（最后添加）UserParameter=GPU.Usage,/usr/bin/nvidia-smi-q|grep-A3"Utilization"|grepGpu|awk'{print$3}'|awk'{a+=$1}END{printa/NR}'#UserParameter=GPU.Memory,/usr/bin/nvidia-smi-q|gre......
图神经网络——GCN聚合原理理解
本博客基于B站UP主望舒同学的图神经网络系列讲解及代码实现-GCN1。GCN的核心思想：通过邻接矩阵A对结点特征进行聚合，用于更新某结点特征。不同的聚合方式$\rightarrow$GCN变体。GCN基于的一个假设：结点的特征与其邻居结点有密切的关系，并且距离越近的邻居关系越大。GCN聚合直......
深入浅出LLamaSharp：打造智能.NET应用，不需GPU也能玩转LLaMA模型
在如今的.NET社区中，机器学习和人工智能的应用越来越普遍。今天我要给大家推荐一个名叫LLamaSharp的开源项目。这是llama.cpp的C#/.NET绑定，提供了高级的API，使得我们能在本地设备上使用C#/.NET推理LLaMA模型，并且部署它。 LLamaSharp支持在Windo......
图神经网络知识总结——归一化
本文以GraphWaveNet为主体，总结其使用到的（图）神经网络知识点以及相应代码实现方式。对称归一化邻接矩阵介绍对称归一化邻接矩阵（Symmetricallynormalizeadjacencymatrix），更适合无向图。作用将邻接矩阵归一化处理，使得每一行/列的和等于1（类比“数独”游戏），同时保持矩阵的对称......
错误处理、cuda模型、GPU架构杂谈
错误处理、cuda模型、GPU架构杂谈错误处理所有编程都需要对错误进行处理，早起的编码错误，编译器会帮搞定，内存错误也能观察出来，但是有些逻辑错误很难发现，甚至到了上线运行时才会被发现，而且有些厉害的bug复现会很难，不总出现，但是很致命，而且CUDA基本都是异步执行的，当错误出现的时候，不......
GPU的Fermi 架构与Kepler架构杂谈
Fermi架构Fermi架构是第一个完整的GPU架构，如图10-15所示。图10-15Fermi架构是第一个完整的GPU架构Fermi架构逻辑图，如图10-15所示，具体数据如下:1）512个加速核心，CUDA核2）每个CUDA核心都有一个全流水线的整数算数逻辑单元ALU，和一个浮点数运算单元FPU3）CUDA核被组织到16个SM上4......
从零开始的PyTorch【03】：优化你的神经网络模型
从零开始的PyTorch【03】：优化你的神经网络模型前言欢迎回到PyTorch学习系列的第三篇！在前两篇文章中，我们学习了如何构建一个简单的神经网络并训练它，同时探索了数据集调整对模型性能的影响。今天，我们将深入探讨如何优化你的神经网络模型，使其在更复杂的任务中表现更好。我们......
并行动力：用PyTorch在多GPU上释放深度学习潜能
标题：并行动力：用PyTorch在多GPU上释放深度学习潜能随着深度学习模型变得越来越复杂，单GPU训练往往难以满足需求。幸运的是，PyTorch提供了强大的多GPU训练支持，允许我们利用多个GPU来加速模型的训练过程。本文将详细介绍如何在PyTorch中使用多GPU训练，包括数据并行、模型并行以及......
Android 常用的性能分析工具详解：GPU呈现模式
此篇将重点介绍几种常用的Android性能分析工具：一、Logcat日志选取Tag＝ActivityManager，可以粗略地知道界面Displaying的时间消耗。当我们打开一个Activity的时候，log会打印一串log如下：I/ActivityManager﹕Displayedxxx.xxx.xxx/TestActivity:+1s272ms(total+3s843ms)第一......