首页 > 其他分享 >【CUDA】cuDNN:加速深度学习的核心库

【CUDA】cuDNN:加速深度学习的核心库

时间:2024-12-27 20:29:13浏览次数:8  
标签:kernel CUDNN int cuDNN CUDA 深度 output CHECK

【CUDA】cuDNN:加速深度学习的核心库

1. 什么是 cuDNN?

cuDNN(CUDA Deep Neural Network library)是 NVIDIA 提供的一个高性能 GPU 加速库,专为深度学习任务中常见的操作进行了高度优化。它不仅提供了单操作的高效实现,还支持 多操作融合(fusion),旨在最大化地利用 NVIDIA GPU 的计算能力。

cuDNN 能做什么?

cuDNN 支持以下常见深度学习操作:

  1. 卷积操作(Convolution forward/backward,包括交叉相关)。
  2. GEMM(通用矩阵乘法,General Matrix Multiply)。
  3. 池化操作(Pooling forward/backward)。
  4. 激活函数(如 ReLU、Tanh、Sigmoid、ELU、GELU、Softplus、Swish)。
  5. Softmax(forward/backward)。
  6. 点操作(Pointwise operations:算术、逻辑、关系操作)。
  7. 张量变换(如 reshape、transpose、concat)。
  8. 归一化操作:Batch Normalization、Instance Normalization、Layer Normalization。
  9. 运行时融合:动态融合多个操作(如卷积 + 激活函数),减少内存访问。

特点:cuDNN 提供了高度优化的单操作引擎,并在新版本中引入了 Graph API,允许用户定义操作图,实现更灵活的内核融合。


2. 卷积操作:从理论到实践

2.1 卷积的两种实现方式

卷积在深度学习中广泛用于图像分类、检测等任务。cuDNN 支持高效实现卷积操作,主要依赖于以下两种方法:

  1. 直接卷积(Slow Convolution):基于数学定义逐元素计算卷积,计算复杂度较高。
  2. 快速卷积(Fast Convolution):通过 FFT(快速傅里叶变换)或者将卷积转化为矩阵乘法(GEMM)来加速计算。

在 cuDNN 中,快速卷积通过 GEMM 的实现更为常见,因为现代 GPU 对矩阵乘法的优化非常强大。


2.2 cuDNN 卷积 API 的使用流程

cuDNN 中实现卷积操作的主要步骤如下:

1. 创建 cuDNN 句柄

所有 cuDNN 操作都需要一个上下文句柄 cudnnHandle_t,用于初始化库环境。

cudnnHandle_t cudnn;
cudnnCreate(&cudnn);
2. 定义输入和输出张量描述符

使用 cudnnTensorDescriptor_t 来描述输入、输出张量的形状和数据格式。例如:

cudnnTensorDescriptor_t inputDesc, outputDesc;
cudnnCreateTensorDescriptor(&inputDesc);
cudnnSetTensor4dDescriptor(inputDesc, 
                           CUDNN_TENSOR_NCHW,   // 数据格式:批量、通道、高度、宽度
                           CUDNN_DATA_FLOAT,    // 数据类型:float
                           batch_size, channels, height, width);

cudnnCreateTensorDescriptor(&outputDesc);
cudnnSetTensor4dDescriptor(outputDesc, 
                           CUDNN_TENSOR_NCHW, 
                           CUDNN_DATA_FLOAT, 
                           batch_size, output_channels, output_height, output_width);
3. 定义卷积操作描述符

使用 cudnnConvolutionDescriptor_t 来描述卷积核的参数,比如步幅(stride)、填充(padding)等:

cudnnConvolutionDescriptor_t convDesc;
cudnnCreateConvolutionDescriptor(&convDesc);
cudnnSetConvolution2dDescriptor(convDesc, 
                                pad_h, pad_w,    // 填充
                                stride_h, stride_w, // 步幅
                                dilation_h, dilation_w, // 扩张
                                CUDNN_CROSS_CORRELATION, // 交叉相关
                                CUDNN_DATA_FLOAT);
4. 定义卷积核(Filter)描述符

通过 cudnnFilterDescriptor_t 来设置卷积核的形状和数据格式:

cudnnFilterDescriptor_t filterDesc;
cudnnCreateFilterDescriptor(&filterDesc);
cudnnSetFilter4dDescriptor(filterDesc, 
                           CUDNN_DATA_FLOAT,   // 数据类型
                           CUDNN_TENSOR_NCHW,  // 数据格式
                           output_channels, input_channels, kernel_h, kernel_w);
5. 选择卷积前向算法

cuDNN 提供了多种卷积前向算法(如 CUDNN_CONVOLUTION_FWD_ALGO_IMPLICIT_GEMM),可以通过性能测试选择最优算法:

cudnnConvolutionFwdAlgo_t algo;
cudnnGetConvolutionForwardAlgorithm(cudnn, 
                                    inputDesc, filterDesc, convDesc, outputDesc, 
                                    CUDNN_CONVOLUTION_FWD_PREFER_FASTEST, 
                                    0, &algo);
6. 分配工作空间(Workspace)

某些卷积算法需要额外的 GPU 内存工作空间:

size_t workspaceSize;
cudnnGetConvolutionForwardWorkspaceSize(cudnn, 
                                        inputDesc, filterDesc, convDesc, outputDesc, 
                                        algo, &workspaceSize);

void *workspace;
cudaMalloc(&workspace, workspaceSize);
7. 执行卷积前向操作

使用 cudnnConvolutionForward 完成卷积计算:

float alpha = 1.0f, beta = 0.0f;
cudnnConvolutionForward(cudnn, 
                        &alpha, inputDesc, d_input, 
                        filterDesc, d_kernel, 
                        convDesc, algo, 
                        workspace, workspaceSize, 
                        &beta, outputDesc, d_output);
8. 释放资源

执行完毕后,释放分配的内存和描述符:

cudaFree(workspace);
cudnnDestroyTensorDescriptor(inputDesc);
cudnnDestroyTensorDescriptor(outputDesc);
cudnnDestroyFilterDescriptor(filterDesc);
cudnnDestroyConvolutionDescriptor(convDesc);
cudnnDestroy(cudnn);

3. cuDNN 内核融合:高效执行多操作

3.1 什么是内核融合?

内核融合(Kernel Fusion)是指将多个操作组合成一个 CUDA 内核执行,从而减少 GPU 的内存读写次数,提升计算性能。例如:

output = torch.sigmoid(tensor1 + tensor2 * tensor3)

传统执行:每个操作(加法、乘法、激活)会触发一个独立的 CUDA 内核。 融合执行:所有操作合并为一个内核,避免冗余的内存访问。

3.2 cuDNN 的内核融合引擎

cuDNN 提供以下几种融合引擎:

  1. 通用运行时融合引擎(Generic Runtime Fusion Engines):支持灵活组合多个操作。
  2. 特定运行时融合引擎(Specialized Runtime Fusion Engines):针对特定操作序列进行了优化(如卷积 + 激活)。
  3. 预编译融合引擎(Pre-compiled Fusion Engines):对特定操作序列进行预编译,性能极高但缺乏灵活性。

3.3 Graph API:灵活定义操作图

cuDNN 在 v8 版本引入了 Graph API,允许用户以操作图的形式定义计算。操作节点代表计算(如卷积、激活),边代表张量。

  • 优势:提供更大的灵活性,支持动态融合和运行时编译。
  • 应用:特别适用于需要高度优化的复杂操作序列。

4. 性能优化与实践

4.1 性能基准测试

对于卷积操作,cuDNN 提供多种前向算法。可以测试不同算法的性能,选择最快的实现:

  • CUDNN_CONVOLUTION_FWD_ALGO_IMPLICIT_GEMM
  • CUDNN_CONVOLUTION_FWD_ALGO_IMPLICIT_PRECOMP_GEMM
  • CUDNN_CONVOLUTION_FWD_ALGO_FFT
  • CUDNN_CONVOLUTION_FWD_ALGO_WINOGRAD

4.2 自定义内核

对于特殊场景(如非批处理任务),可以编写自定义 CUDA 内核,结合 cuDNN 进行优化。


5. cuDNN Graph API:灵活定义和执行计算图

5.1 什么是 Graph API?

Graph API 是 cuDNN v8 引入的一个新特性,它允许用户将一系列深度学习操作以 计算图(computation graph)的形式定义,并通过一次性执行整个图来提高性能。

在传统的计算模式中,每个操作(例如卷积、激活、归一化)都是独立的 CUDA 内核,执行时需要多次进行 GPU 内存读写,导致性能瓶颈。

Graph API 将多个操作融合成一个计算图,优势包括

  • 减少内存读写:数据在 GPU 上的中间结果不会频繁写回内存,而是直接在图中流动。
  • 动态编译优化:cuDNN 可以自动编译并优化整个计算图。
  • 减少调度开销:CUDA 内核调度的次数减少,整体执行更快。

5.2 Graph API 的操作流程

使用 cuDNN 的 Graph API 可以分为以下几个步骤:

1. 创建 Graph 句柄

使用 cudnnBackendDescriptor_t 创建一个计算图的描述符。

cudnnHandle_t cudnn;
cudnnCreate(&cudnn);

cudnnBackendDescriptor_t graph;
cudnnBackendCreateDescriptor(CUDNN_BACKEND_EXECUTION_PLAN_DESCRIPTOR, &graph);

2. 定义操作节点

在计算图中,每个操作(如卷积、激活、池化)都会成为一个 节点,这些节点通过张量(tensor)进行连接。

定义输入和输出张量
cudnnBackendTensorDescriptor_t inputTensor, outputTensor;
// 输入张量
cudnnBackendCreateDescriptor(CUDNN_BACKEND_TENSOR_DESCRIPTOR, &inputTensor);
cudnnBackendSetAttribute(inputTensor, CUDNN_ATTR_TENSOR_DATA_TYPE, CUDNN_TYPE_DATA_TYPE, 1, &dataType);
cudnnBackendSetAttribute(inputTensor, CUDNN_ATTR_TENSOR_DIMENSIONS, CUDNN_TYPE_INT64, 4, dims);
添加卷积操作
cudnnBackendDescriptor_t convNode;
cudnnBackendCreateDescriptor(CUDNN_BACKEND_OPERATION_CONVOLUTION_DESCRIPTOR, &convNode);
cudnnBackendSetAttribute(convNode, CUDNN_ATTR_OPERATION_CONVOLUTION_CONV_DESC, CUDNN_TYPE_CONVOLUTION_DESC, 1, &convDesc);
添加激活操作
cudnnBackendDescriptor_t reluNode;
cudnnBackendCreateDescriptor(CUDNN_BACKEND_OPERATION_POINTWISE_DESCRIPTOR, &reluNode);
cudnnBackendSetAttribute(reluNode, CUDNN_ATTR_OPERATION_POINTWISE_MODE, CUDNN_TYPE_POINTWISE_MODE, 1, &reluMode);

3. 将节点连接成计算图

通过设置张量的输入输出,来连接各个操作节点,形成完整的计算图。

cudnnBackendSetAttribute(convNode, CUDNN_ATTR_OPERATION_CONVOLUTION_X, CUDNN_TYPE_BACKEND_DESCRIPTOR, 1, &inputTensor);
cudnnBackendSetAttribute(convNode, CUDNN_ATTR_OPERATION_CONVOLUTION_Y, CUDNN_TYPE_BACKEND_DESCRIPTOR, 1, &outputTensor);

// 将激活操作的输入设为卷积的输出
cudnnBackendSetAttribute(reluNode, CUDNN_ATTR_OPERATION_POINTWISE_X, CUDNN_TYPE_BACKEND_DESCRIPTOR, 1, &outputTensor);

4. 执行计算图

构建好计算图后,使用 cuDNN 的 cudnnBackendFinalize 函数对图进行编译并执行。

cudnnBackendFinalize(graph);
cudnnBackendExecute(graph, executionPlan);

5. Graph API 的性能优化

Graph API 可以根据实际的计算图进行多种优化:

  1. 内核融合:自动将多个操作融合成一个高效的 CUDA 内核。
  2. 调度优化:减少 GPU 的调度开销。
  3. 内存优化:避免不必要的内存复制,数据流在 GPU 内高效传输。

6. cuDNN 内核融合 (Kernel Fusion)

6.1 内核融合的原理

内核融合是 cuDNN 提高性能的重要手段,目标是减少 GPU 内核之间的内存读写开销,将多个操作合并为一个内核执行。例如:

  • 卷积 + 激活函数(ReLU)
  • 卷积 + 批量归一化(BatchNorm)+ 激活函数

6.2 内核融合的两种模式

  1. 静态融合(Static Fusion)
    • 预定义常用操作的融合模式,比如卷积 + ReLU。
    • 性能最佳,但缺乏灵活性。
  2. 动态融合(Dynamic Fusion)
    • 在运行时动态组合用户定义的操作。
    • 使用 Graph API 实现,灵活性更高,但需要一定的编译开销。

6.3 使用内核融合的最佳实践

在 cuDNN 中,用户可以选择直接使用 Pointwise 操作Graph API 来实现内核融合:

Pointwise 操作示例

Pointwise 操作可以执行逐元素的运算,例如 AddMultiplyReLU 等:

cudnnBackendDescriptor_t pointwiseDesc;
cudnnBackendCreateDescriptor(CUDNN_BACKEND_OPERATION_POINTWISE_DESCRIPTOR, &pointwiseDesc);
cudnnBackendSetAttribute(pointwiseDesc, CUDNN_ATTR_OPERATION_POINTWISE_MODE, CUDNN_TYPE_POINTWISE_MODE, 1, &pointwiseMode);
Graph API 实现复杂融合

通过 Graph API 将多个点操作与卷积结合,形成更复杂的内核融合计算图。


7. cuDNN 优化技巧总结

  1. 选择最优卷积算法: 使用 cudnnGetConvolutionForwardAlgorithm 动态选择性能最优的卷积前向算法。
  2. 最小化内存工作空间: 对于 GPU 内存有限的场景,可以通过指定工作空间大小来选择算法。
  3. 使用 Graph API 进行内核融合: 将多个操作合并成一个计算图,减少内存读写和调度开销。
  4. 预热 GPU 内核: 在实际训练之前,先运行一遍前向和反向计算,让 GPU 完成内核编译和优化。

代码示例

Tanh.cu

这段代码是一个完整的CUDA和cuDNN示例程序,用于比较使用朴素CUDA核函数cuDNN库实现tanh激活函数的性能和正确性。

#include <cuda_runtime.h>
#include <cudnn.h>
#include <math.h>
#include <stdio.h>
#include <stdlib.h>

#define CHECK_CUDA(call)                                                                      \
    {                                                                                         \
        cudaError_t err = call;                                                               \
        if (err != cudaSuccess) {                                                             \
            fprintf(stderr, "CUDA error in file '%s' in line %i : %s.\n", __FILE__, __LINE__, \
                    cudaGetErrorString(err));                                                 \
            exit(EXIT_FAILURE);                                                               \
        }                                                                                     \
    }

#define CHECK_CUDNN(call)                                                                      \
    {                                                                                          \
        cudnnStatus_t err = call;                                                              \
        if (err != CUDNN_STATUS_SUCCESS) {                                                     \
            fprintf(stderr, "cuDNN error in file '%s' in line %i : %s.\n", __FILE__, __LINE__, \
                    cudnnGetErrorString(err));                                                 \
            exit(EXIT_FAILURE);                                                                \
        }                                                                                      \
    }

__global__ void NaiveTankKernel(float* input, float* output, int size) {
    int idx = blockIdx.x * blockDim.x + threadIdx.x;
    if (idx < size) {
        output[idx] = tanhf(input[idx]);
    }
}

float CpuTanh(float x) { return tanhf(x); }

void InitializeData(float* data, int size) {
    for (int i = 0; i < size; ++i) {
        // Random values between -1 and 1
        data[i] = (float)rand() / RAND_MAX * 2.0f - 1.0f;
    }
}

bool VerifyResults(float* cpu_output, float* gpu_output, int size, float tolerance = 1e-5) {
    for (int i = 0; i < size; ++i) {
        if (fabs(cpu_output[i] - gpu_output[i]) > tolerance) {
            printf("Mismatch at index %d: CPU = %f, GPU = %f\n", i, cpu_output[i], gpu_output[i]);
            return false;
        }
    }
    return true;
}

int main() {                     // Set up tensor dimensions for a scenario where cuDNN is likely to outperform
    const int batch_size = 256;  // NCHW format
    const int channels = 32;
    const int height = 224;
    const int width = 224;
    const int tensor_size = batch_size * channels * height * width;

    // Allocate host memory
    float *h_input, *h_output_naive, *h_output_cudnn, *h_output_cpu;
    h_input = (float*)malloc(tensor_size * sizeof(float));
    h_output_naive = (float*)malloc(tensor_size * sizeof(float));
    h_output_cudnn = (float*)malloc(tensor_size * sizeof(float));
    h_output_cpu = (float*)malloc(tensor_size * sizeof(float));

    InitializeData(h_input, tensor_size);

    // Allocate device memory
    float *d_input, *d_output_naive, *d_output_cudnn;
    CHECK_CUDA(cudaMalloc(&d_input, tensor_size * sizeof(float)));
    CHECK_CUDA(cudaMalloc(&d_output_naive, tensor_size * sizeof(float)));
    CHECK_CUDA(cudaMalloc(&d_output_cudnn, tensor_size * sizeof(float)));

    // Copy input data to device
    CHECK_CUDA(cudaMemcpy(d_input, h_input, tensor_size * sizeof(float), cudaMemcpyHostToDevice));

    // Create CUDA events for timing
    cudaEvent_t start, stop;
    CHECK_CUDA(cudaEventCreate(&start));
    CHECK_CUDA(cudaEventCreate(&stop));

    // Warmup and benchmark parameters
    const int num_warmup = 10;
    const int num_benchmark = 100;
    float naive_times[num_benchmark];
    float cudnn_times[num_benchmark];

    // Naive CUDA kernel
    dim3 block(256);
    dim3 grid((tensor_size + block.x - 1) / block.x);

    // Warmup runs for naive kernel
    for (int i = 0; i < num_warmup; ++i) {
        NaiveTankKernel<<<grid, block>>>(d_input, d_output_naive, tensor_size);
    }
    CHECK_CUDA(cudaDeviceSynchronize());

    for (int i = 0; i < num_benchmark; ++i) {
        // cudaEventRecord(start) 将当前时间记录在 start 事件中
        CHECK_CUDA(cudaEventRecord(start));
        NaiveTankKernel<<<grid, block>>>(d_input, d_output_naive, tensor_size);
        // cudaEventRecord(stop) 将当前时间记录在 stop 事件中
        CHECK_CUDA(cudaEventRecord(stop));
        // cudaEventSynchronize(stop) 等待 stop 事件完成。
        CHECK_CUDA(cudaEventSynchronize(stop));
        // cudaEventElapsedTime(&naive_times[i], start, stop) 计算从 start 事件到 stop 事件之间的时间差
        CHECK_CUDA(cudaEventElapsedTime(&naive_times[i], start, stop));
    }

    // cuDNN setup
    // cudnnHandle_t 是 cuDNN 的句柄,用于管理 cuDNN 库的上下文。
    cudnnHandle_t cudnn;
    CHECK_CUDNN(cudnnCreate(&cudnn));

    cudnnTensorDescriptor_t input_descriptor;
    /*
        cudnnSetTensor4dDescriptor 用于设置 4D 张量的描述信息:
        CUDNN_TENSOR_NCHW:指定张量的布局为 NCHW(Batch, Channels, Height, Width)。
        CUDNN_DATA_FLOAT:指定张量的数据类型为 float。
        batch_size:批量大小(即一次处理的样本数量)。
        channels:通道数(例如 RGB 图像的通道数为 3)。
        height:张量的高度。
        width:张量的宽度。
    */
    CHECK_CUDNN(cudnnCreateTensorDescriptor(&input_descriptor));
    CHECK_CUDNN(cudnnSetTensor4dDescriptor(input_descriptor, CUDNN_TENSOR_NCHW, CUDNN_DATA_FLOAT, batch_size, channels,
                                           height, width));

    // cudnnActivationDescriptor_t 是用于描述激活函数的结构。
    cudnnActivationDescriptor_t activation_descriptor;
    CHECK_CUDNN(cudnnCreateActivationDescriptor(&activation_descriptor));
    /*
        cudnnSetActivationDescriptor 用于设置激活函数的参数:
            CUDNN_ACTIVATION_TANH:指定激活函数为 tanh。
            CUDNN_PROPAGATE_NAN:指定在计算过程中如何处理 NaN 值(这里选择传播 NaN)。
            0.0:对于 tanh 激活函数,不需要额外的参数,因此设置为 0.0。
    */
    CHECK_CUDNN(cudnnSetActivationDescriptor(activation_descriptor, CUDNN_ACTIVATION_TANH, CUDNN_PROPAGATE_NAN, 0.0));

    float alpha = 1.0f, beta = 0.0f;

    // Warmup runs for cuDNN
    for (int i = 0; i < num_warmup; ++i) {
        /*
        cudnnActivationForward 是 cuDNN 提供的函数,用于执行激活函数的前向传播:
            cudnn:cuDNN 句柄。
            activation_descriptor:激活函数描述符。
            &alpha 和 &beta:缩放因子。
            input_descriptor 和 d_input:输入张量的描述符和设备指针。
            input_descriptor 和 d_output_cudnn:输出张量的描述符和设备指针。
        */
        CHECK_CUDNN(cudnnActivationForward(cudnn, activation_descriptor, &alpha, input_descriptor, d_input, &beta,
                                           input_descriptor, d_output_cudnn));
    }
    CHECK_CUDA(cudaDeviceSynchronize());

    // Benchmark runs for cuDNN
    for (int i = 0; i < num_benchmark; ++i) {
        CHECK_CUDA(cudaEventRecord(start));
        CHECK_CUDNN(cudnnActivationForward(cudnn, activation_descriptor, &alpha, input_descriptor, d_input, &beta,
                                           input_descriptor, d_output_cudnn));
        CHECK_CUDA(cudaEventRecord(stop));
        CHECK_CUDA(cudaEventSynchronize(stop));
        CHECK_CUDA(cudaEventElapsedTime(&cudnn_times[i], start, stop));
    }

    // Calculate average times
    float avg_naive_time = 0.0f, avg_cudnn_time = 0.0f;
    for (int i = 0; i < num_benchmark; ++i) {
        avg_naive_time += naive_times[i];
        avg_cudnn_time += cudnn_times[i];
    }
    avg_naive_time /= num_benchmark;
    avg_cudnn_time /= num_benchmark;

    // Copy results back to host
    CHECK_CUDA(cudaMemcpy(h_output_naive, d_output_naive, tensor_size * sizeof(float), cudaMemcpyDeviceToHost));
    CHECK_CUDA(cudaMemcpy(h_output_cudnn, d_output_cudnn, tensor_size * sizeof(float), cudaMemcpyDeviceToHost));

    // CPU verification
    for (int i = 0; i < tensor_size; ++i) {
        h_output_cpu[i] = CpuTanh(h_input[i]);
    }

    // Verify results
    bool naive_correct = VerifyResults(h_output_cpu, h_output_naive, tensor_size);
    bool cudnn_correct = VerifyResults(h_output_cpu, h_output_cudnn, tensor_size);

    // Print results
    printf("Tensor size: %d x %d x %d x %d\n", batch_size, channels, height, width);
    printf("Average Naive CUDA kernel time: %.3f ms\n", avg_naive_time);
    printf("Average cuDNN activation time: %.3f ms\n", avg_cudnn_time);
    printf("Speedup: %.2fx\n", avg_naive_time / avg_cudnn_time);
    printf("Naive kernel results correct: %s\n", naive_correct ? "Yes" : "No");
    printf("cuDNN results correct: %s\n", cudnn_correct ? "Yes" : "No");

    // Clean up
    CHECK_CUDA(cudaFree(d_input));
    CHECK_CUDA(cudaFree(d_output_naive));
    CHECK_CUDA(cudaFree(d_output_cudnn));
    CHECK_CUDA(cudaEventDestroy(start));
    CHECK_CUDA(cudaEventDestroy(stop));
    CHECK_CUDNN(cudnnDestroyTensorDescriptor(input_descriptor));
    CHECK_CUDNN(cudnnDestroyActivationDescriptor(activation_descriptor));
    CHECK_CUDNN(cudnnDestroy(cudnn));
    free(h_input);
    free(h_output_naive);
    free(h_output_cudnn);
    free(h_output_cpu);

    return 0;
}

结果:

Tensor size: 256 x 32 x 224 x 224
Average Naive CUDA kernel time: 18.201 ms
Average cuDNN activation time: 18.377 ms
Speedup: 0.99x
Naive kernel results correct: Yes
cuDNN results correct: Yes

使用 cuDNN 的性能与朴素 CUDA 核函数几乎相同,甚至略慢一点点,可能是因为激活函数tanh本身已经足够简单,同时cuDNN有一些额外的计算(alpha和beta),所以使用cuDNN不一定会比自定义CUDA内核快。

但如果你不使用CUDA 内核来实现tanh的话,会慢很多,代码见https://github.com/Infatoshi/cuda-course/blob/master/06_CUDA_APIs/02%20CUDNN/00%20torch-compare.py。所以使用CUDA重写确实会快很多。

Conv2d_HCHW.cu

这段代码实现了一个基于CUDA和cuDNN的二维卷积操作的性能对比。它首先定义了一个简单的CUDA核函数 NaiveConv2d,用于执行朴素的二维卷积操作。然后,代码使用cuDNN库来执行相同的卷积操作,并选择性能最佳的卷积算法。通过对比cuDNN和朴素卷积核的输出结果,代码验证了两者的计算结果是否一致,并测量了它们的执行时间。最终,代码输出卷积结果以及两者的最大差异,并打印了平均执行时间。

#include <cuda_runtime.h>
#include <cudnn.h>
#include <stdio.h>
#include <stdlib.h>

#include <iostream>
#include <limits>

#define CHECK_CUDA(call)                                         \
    {                                                            \
        cudaError_t err = call;                                  \
        if (err != cudaSuccess) {                                \
            printf("CUDA error: %s\n", cudaGetErrorString(err)); \
            exit(1);                                             \
        }                                                        \
    }
#define CHECK_CUDNN(call)                                          \
    {                                                              \
        cudnnStatus_t err = call;                                  \
        if (err != CUDNN_STATUS_SUCCESS) {                         \
            printf("cuDNN error: %s\n", cudnnGetErrorString(err)); \
            exit(1);                                               \
        }                                                          \
    }

// Complex multi-channel 2D convolution kernel
__global__ void NaiveConv2d(float* input, float* kernel, float* output, int width, int height, int in_channels,
                            int out_channels, int kernel_size, int batch_size) {
    int x = blockIdx.x * blockDim.x + threadIdx.x;
    int y = blockIdx.y * blockDim.y + threadIdx.y;
    int out_channel = blockIdx.z % out_channels;
    int batch_idx = blockIdx.z / out_channels;

    // 因为卷积后宽高不变,所以按理是要padding的,但是这里认为padding填充的是0,所以实际上要padding的区域跳过计算,体现在"-half_kernel"开始
    if (x < width && y < height && out_channel < out_channels && batch_idx < batch_size) {
        float sum = 0;
        int half_kernel = kernel_size / 2;
        for (int in_channel = 0; in_channel < in_channels; ++in_channel) {
            for (int ky = -half_kernel; ky <= half_kernel; ++ky) {
                for (int kx = -half_kernel; kx <= half_kernel; ++kx) {
                    int ix = x + kx;
                    int iy = y + ky;
                    if (ix >= 0 && ix < width && iy >= 0 && iy < height) {
                        int input_idx = ((batch_idx * in_channels + in_channel) * height + iy) * width + ix;
                        int kernel_idx = ((out_channel * in_channels + in_channel) * kernel_size + (ky + half_kernel)) *
                                             kernel_size +
                                         (kx + half_kernel);
                        sum += input[input_idx] * kernel[kernel_idx];
                    }
                }
            }
        }
        int output_idx = ((batch_idx * out_channels + out_channel) * height + y) * width + x;
        output[output_idx] = sum;
    }
}

int main() {
    // Smaller, predefined sizes for human-readable output
    const int width = 4;
    const int height = 4;
    const int kernel_size = 3;
    const int in_channels = 1;
    const int out_channels = 1;
    const int batch_size = 1;
    const int input_size = width * height * in_channels * batch_size;
    const int output_size = width * height * out_channels * batch_size;
    const int kernel_elements = kernel_size * kernel_size * in_channels * out_channels;

    std::cout << "Image size: " << width << "x" << height << "x" << in_channels << std::endl;
    std::cout << "Kernel size: " << kernel_size << "x" << kernel_size << "x" << in_channels << "x" << out_channels
              << std::endl;
    std::cout << "Batch size: " << batch_size << std::endl;

    // Allocate host memory
    float* h_input = (float*)malloc(input_size * sizeof(float));
    float* h_kernel = (float*)malloc(kernel_elements * sizeof(float));
    float* h_output_cudnn = (float*)malloc(output_size * sizeof(float));
    float* h_output_naive = (float*)malloc(output_size * sizeof(float));
    // Initialize input and kernel with predefined values
    float input_values[] = {
        1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16,
    };

    float kernel_values[] = {
        1, 2, 3, 4, 5, 6, 7, 8, 9,
    };

    memcpy(h_input, input_values, input_size * sizeof(float));
    memcpy(h_kernel, kernel_values, kernel_elements * sizeof(float));

    // Allocate device memory
    float *d_input, *d_kernel, *d_output_cudnn, *d_output_naive;
    CHECK_CUDA(cudaMalloc(&d_input, input_size * sizeof(float)));
    CHECK_CUDA(cudaMalloc(&d_kernel, kernel_elements * sizeof(float)));
    CHECK_CUDA(cudaMalloc(&d_output_cudnn, output_size * sizeof(float)));
    CHECK_CUDA(cudaMalloc(&d_output_naive, output_size * sizeof(float)));

    // Copy data to device
    CHECK_CUDA(cudaMemcpy(d_input, h_input, input_size * sizeof(float), cudaMemcpyHostToDevice));
    CHECK_CUDA(cudaMemcpy(d_kernel, h_kernel, kernel_elements * sizeof(float), cudaMemcpyHostToDevice));

    // cuDNN setup
    cudnnHandle_t cudnn;
    CHECK_CUDNN(cudnnCreate(&cudnn));

    cudnnTensorDescriptor_t input_desc, output_desc;
    cudnnFilterDescriptor_t kernel_desc;
    cudnnConvolutionDescriptor_t conv_desc;

    CHECK_CUDNN(cudnnCreateTensorDescriptor(&input_desc));
    CHECK_CUDNN(cudnnCreateTensorDescriptor(&output_desc));
    CHECK_CUDNN(cudnnCreateFilterDescriptor(&kernel_desc));
    CHECK_CUDNN(cudnnCreateConvolutionDescriptor(&conv_desc));

    CHECK_CUDNN(cudnnSetTensor4dDescriptor(input_desc, CUDNN_TENSOR_NCHW, CUDNN_DATA_FLOAT, batch_size, in_channels,
                                           height, width));
    CHECK_CUDNN(cudnnSetTensor4dDescriptor(output_desc, CUDNN_TENSOR_NCHW, CUDNN_DATA_FLOAT, batch_size, out_channels,
                                           height, width));
    /*
    cudnnStatus_t cudnnSetFilter4dDescriptor(
        cudnnFilterDescriptor_t filterDesc,  // 卷积核的描述符对象
        cudnnDataType_t dataType,            // 卷积核的数据类型(如 CUDNN_DATA_FLOAT 或 CUDNN_DATA_DOUBLE)
        cudnnTensorFormat_t format,          // 卷积核的存储格式(如 CUDNN_TENSOR_NCHW 或 CUDNN_TENSOR_NHWC)
        int k,                               // 卷积核的数量(输出通道数)
        int c,                               // 卷积核的输入通道数(输入特征图的通道数)
        int h,                               // 卷积核的高度
        int w                                // 卷积核的宽度
    )
     */
    CHECK_CUDNN(cudnnSetFilter4dDescriptor(kernel_desc, CUDNN_DATA_FLOAT, CUDNN_TENSOR_NCHW, out_channels, in_channels,
                                           kernel_size, kernel_size));
    /*
    cudnnStatus_t cudnnSetConvolution2dDescriptor(
        cudnnConvolutionDescriptor_t convDesc,  // 卷积操作的描述符对象
        int pad_h,                              // 输入特征图在高度方向上的填充大小(padding)
        int pad_w,                              // 输入特征图在宽度方向上的填充大小(padding)
        int u,                                  // 卷积核在高度方向上的步幅(stride)
        int v,                                  // 卷积核在宽度方向上的步幅(stride)
        int dilation_h,                         // 卷积核在高度方向上的膨胀率(dilation)
        int dilation_w,                         // 卷积核在宽度方向上的膨胀率(dilation)
        cudnnConvolutionMode_t mode,            // 卷积模式(如 CUDNN_CONVOLUTION 或 CUDNN_CROSS_CORRELATION)
        cudnnDataType_t computeType             // 卷积计算的数据类型(如 CUDNN_DATA_FLOAT 或 CUDNN_DATA_DOUBLE)
    )
    这里因为卷积后的宽高尺寸不变,所以特征图四周分别填充kernel_size / 2
     */
    CHECK_CUDNN(cudnnSetConvolution2dDescriptor(conv_desc, kernel_size / 2, kernel_size / 2, 1, 1, 1, 1,
                                                CUDNN_CROSS_CORRELATION, CUDNN_DATA_FLOAT));

    // Find the fastest cuDNN aogorithm
    // CUDNN_CONVOLUTION_FWD_ALGO_COUNT 是 cuDNN 支持的卷积前向传播算法的总数。
    int requested_algo_count = CUDNN_CONVOLUTION_FWD_ALGO_COUNT;
    int returned_algo_count;
    cudnnConvolutionFwdAlgoPerf_t perf_results[CUDNN_CONVOLUTION_FWD_ALGO_COUNT];
    /*
    获取所有可用的卷积前向传播算法,并返回它们的性能信息
    cudnnStatus_t cudnnGetConvolutionForwardAlgorithm_v7(
        cudnnHandle_t handle,               // cuDNN 句柄
        cudnnTensorDescriptor_t srcDesc,    // 输入张量的描述符
        cudnnFilterDescriptor_t filterDesc, // 卷积核的描述符
        cudnnConvolutionDescriptor_t convDesc, // 卷积操作的描述符
        cudnnTensorDescriptor_t destDesc,   // 输出张量的描述符
        int requestedAlgoCount,             // 请求的算法数量
        int *returnedAlgoCount,             // 实际返回的算法数量
        cudnnConvolutionFwdAlgoPerf_t *perfResults // 算法性能结果数组
    )
    具体来说,它可以返回以下几种卷积前向传播算法(cudnnConvolutionFwdAlgo_t枚举类型):
    1. CUDNN_CONVOLUTION_FWD_ALGO_IMPLICIT_GEMM
    描述: 隐式 GEMM 算法。通过将卷积操作转换为矩阵乘法(GEMM)来实现。
    特点: 实现简单,但性能可能不如其他算法。
    2. CUDNN_CONVOLUTION_FWD_ALGO_IMPLICIT_PRECOMP_GEMM
    描述: 隐式预计算 GEMM 算法。在 GEMM 之前进行一些预计算以提高性能。
    特点: 性能优于 IMPLICIT_GEMM,但仍然可能不如其他算法。
    3. CUDNN_CONVOLUTION_FWD_ALGO_GEMM
    描述: 显式 GEMM 算法。直接使用矩阵乘法来实现卷积。
    特点: 适用于某些特定场景,但通常不如其他算法高效。
    4. CUDNN_CONVOLUTION_FWD_ALGO_DIRECT
    描述: 直接卷积算法。直接在空间域中执行卷积操作。
    特点: 性能较好,适用于大多数常见场景。
    5. CUDNN_CONVOLUTION_FWD_ALGO_FFT
    描述: 快速傅里叶变换(FFT)算法。通过将卷积转换为频域中的乘法来实现。
    特点: 适用于大卷积核或大输入尺寸,但计算复杂度较高。
    6. CUDNN_CONVOLUTION_FWD_ALGO_FFT_TILING
    描述: FFT 分块算法。通过将输入数据分块并在频域中执行卷积来实现。
    特点: 适用于中等大小的卷积核和输入尺寸。
    7. CUDNN_CONVOLUTION_FWD_ALGO_WINOGRAD
    描述: Winograd 算法。通过数学变换减少乘法操作的数量。
    特点: 性能优异,尤其适用于小卷积核(如 3x3)。
    8. CUDNN_CONVOLUTION_FWD_ALGO_WINOGRAD_NONFUSED
    描述: 非融合 Winograd 算法。与 WINOGRAD 类似,但避免了某些融合操作。
    特点: 性能略低于 WINOGRAD,但可能更稳定。
    9. CUDNN_CONVOLUTION_FWD_ALGO_COUNT
    描述: 算法数量的计数器。用于表示所有可用算法的总数。

    返回的性能信息
    cudnnGetConvolutionForwardAlgorithm_v7 返回的 perfResults 数组中,每个元素包含以下性能信息:
    algo: 算法类型(cudnnConvolutionFwdAlgo_t)。
    status: 算法的状态(cudnnStatus_t)。
    time: 算法的执行时间(以毫秒为单位)。
    memory: 算法所需的工作区内存大小(以字节为单位)。
    determinism: 算法是否是确定性的(cudnnDeterminism_t)。
    mathType: 算法的数学类型(cudnnMathType_t)。
    */
    CHECK_CUDNN(cudnnGetConvolutionForwardAlgorithm_v7(cudnn, input_desc, kernel_desc, conv_desc, output_desc,
                                                       requested_algo_count, &returned_algo_count, perf_results));
    cudnnConvolutionFwdAlgo_t algo = perf_results[0].algo;
    for (int i = 1; i < returned_algo_count; ++i) {
        std::cout << "Algorithm: " << perf_results[i].algo << " Time: " << perf_results[i].time << std::endl;
        if (perf_results[i].status == CUDNN_STATUS_SUCCESS && perf_results[i].time < perf_results[0].time) {
            algo = perf_results[i].algo;
        }
    }
    std::cout << "Selected algorithm: " << algo << std::endl;

    size_t workspace_size;
    /*
    cudnnGetConvolutionForwardWorkspaceSize用于返回指定卷积前向传播算法所需的最小工作区大小。
    工作区是
    GPU内存的一部分,用于存储卷积操作中的中间结果。通过调用此函数,用户可以为卷积操作分配足够的内存空间,从而确保卷积操作能够顺利执行。
    cudnnStatus_t cudnnGetConvolutionForwardWorkspaceSize(
        cudnnHandle_t handle,               // cuDNN 句柄
        cudnnTensorDescriptor_t xDesc,      // 输入张量的描述符
        cudnnFilterDescriptor_t wDesc,      // 卷积核的描述符
        cudnnConvolutionDescriptor_t convDesc, // 卷积操作的描述符
        cudnnTensorDescriptor_t yDesc,      // 输出张量的描述符
        cudnnConvolutionFwdAlgo_t algo,     // 卷积前向传播算法
        size_t *sizeInBytes                 // 返回的工作区大小(以字节为单位)
    )
    */
    CHECK_CUDNN(cudnnGetConvolutionForwardWorkspaceSize(cudnn, input_desc, kernel_desc, conv_desc, output_desc, algo,
                                                        &workspace_size));
    void* d_workspace;
    CHECK_CUDA(cudaMalloc(&d_workspace, workspace_size));

    // Define grid and block sizes for the naive kernel
    dim3 block_size(16, 16);
    dim3 grid_size((width + block_size.x - 1) / block_size.x, (height + block_size.y - 1) / block_size.y,
                   out_channels * batch_size);

    // Warmup and benckmark runs
    const int warmup_runs = 5;
    const int benchmark_runs = 20;
    float total_time_cudnn = 0;
    float total_time_naive = 0;

    float alpha = 1.0f, beta = 0;

    // Warmup runs
    for (int i = 0; i < warmup_runs; ++i) {
        /*
        cudnnStatus_t cudnnConvolutionForward(
            cudnnHandle_t handle,               // cuDNN 句柄
            const void *alpha,                  // 输入张量的缩放因子
            cudnnTensorDescriptor_t xDesc,      // 输入张量的描述符
            const void *x,                      // 输入张量的数据指针
            cudnnFilterDescriptor_t wDesc,      // 卷积核的描述符
            const void *w,                      // 卷积核的数据指针
            cudnnConvolutionDescriptor_t convDesc, // 卷积操作的描述符
            cudnnConvolutionFwdAlgo_t algo,     // 卷积前向传播算法
            void *workSpace,                    // 工作区指针
            size_t workSpaceSizeInBytes,        // 工作区大小(以字节为单位)
            const void *beta,                   // 输出张量的缩放因子
            cudnnTensorDescriptor_t yDesc,      // 输出张量的描述符
            void *y                             // 输出张量的数据指针
        )
        */
        CHECK_CUDNN(cudnnConvolutionForward(cudnn, &alpha, input_desc, d_input, kernel_desc, d_kernel, conv_desc, algo,
                                            d_workspace, workspace_size, &beta, output_desc, d_output_cudnn));
        NaiveConv2d<<<grid_size, block_size>>>(d_input, d_kernel, d_output_naive, width, height, in_channels,
                                               out_channels, kernel_size, batch_size);
        CHECK_CUDA(cudaDeviceSynchronize());
    }

    cudaEvent_t start, stop;
    CHECK_CUDA(cudaEventCreate(&start));
    CHECK_CUDA(cudaEventCreate(&stop));

    for (int i = 0; i < benchmark_runs; ++i) {
        // cuDNN benchmark
        /*
        cudaEventRecord是一个用于记录CUDA事件的函数,其作用是在GPU上异步标记一个时间点,以便后续测量事件之间的时间差。
        cudaEventRecord实际上并不是执行到该点,然后把时间给start,虽然看起来像,但并没有传入指针不是吗
        所以本质是一个记录CUDA事件的函数,事件的标记由CUDA内部完成
        */
        CHECK_CUDA(cudaEventRecord(start));
        CHECK_CUDNN(cudnnConvolutionForward(cudnn, &alpha, input_desc, d_input, kernel_desc, d_kernel, conv_desc, algo,
                                            d_workspace, workspace_size, &beta, output_desc, d_output_cudnn));
        CHECK_CUDA(cudaEventRecord(stop));
        CHECK_CUDA(cudaEventSynchronize(stop));

        float milliseconds = 0;
        CHECK_CUDA(cudaEventElapsedTime(&milliseconds, start, stop));
        total_time_cudnn += milliseconds;

        // Naive kernel benchmark
        CHECK_CUDA(cudaEventRecord(start));
        NaiveConv2d<<<grid_size, block_size>>>(d_input, d_kernel, d_output_naive, width, height, in_channels,
                                               out_channels, kernel_size, batch_size);
        CHECK_CUDA(cudaEventRecord(stop));
        CHECK_CUDA(cudaEventSynchronize(stop));
        CHECK_CUDA(cudaEventElapsedTime(&milliseconds, start, stop));
        total_time_naive += milliseconds;
    }

    float avg_time_cudnn = total_time_cudnn / benchmark_runs;
    float avg_time_naive = total_time_naive / benchmark_runs;

    printf("cuDNN average time: %f ms\n", avg_time_cudnn);
    printf("Naive kernel average time: %f ms\n", avg_time_naive);

    // Copy results back to host
    CHECK_CUDA(cudaMemcpy(h_output_cudnn, d_output_cudnn, output_size * sizeof(float), cudaMemcpyDeviceToHost));
    CHECK_CUDA(cudaMemcpy(h_output_naive, d_output_naive, output_size * sizeof(float), cudaMemcpyDeviceToHost));

    // Compare results
    float max_diff = 0;
    for (int i = 0; i < output_size; ++i) {
        float diff = fabs(h_output_cudnn[i] - h_output_naive[i]);
        if (diff > max_diff) max_diff = diff;
    }
    // %e:科学计数法输出浮点数
    printf("Max difference between cuDNN and naive kernel: %e\n", max_diff);

    // Print the output
    for (int b = 0; b < batch_size; ++b) {
        for (int c = 0; c < out_channels; ++c) {
            printf("Channel %d:\n", c);
            for (int h = 0; h < height; ++h) {
                for (int w = 0; w < width; ++w) {
                    int idx = ((b * out_channels + c) * height + h) * width + w;
                    printf("%f ", h_output_cudnn[idx]);
                }
                printf("\n");
            }
            printf("\n");
        }
    }
    printf("\nNaive Kernel Output:\n");
    for (int b = 0; b < batch_size; b++) {
        for (int c = 0; c < out_channels; c++) {
            printf("Channel %d:\n", c);
            for (int h = 0; h < height; h++) {
                for (int w = 0; w < width; w++) {
                    int idx = ((b * out_channels + c) * height + h) * width + w;
                    printf("%f ", h_output_naive[idx]);
                }
                printf("\n");
            }
            printf("\n");
        }
    }

    // Print flattened output for easier comparison with PyTorch
    printf("\nFlattened cuDNN Output:\n");
    for (int i = 0; i < output_size; i++) {
        printf("%f", h_output_cudnn[i]);
        if (i < output_size - 1) printf(", ");
    }
    printf("\n");

    // Clean up
    CHECK_CUDNN(cudnnDestroyTensorDescriptor(input_desc));
    CHECK_CUDNN(cudnnDestroyTensorDescriptor(output_desc));
    CHECK_CUDNN(cudnnDestroyFilterDescriptor(kernel_desc));
    CHECK_CUDNN(cudnnDestroyConvolutionDescriptor(conv_desc));
    CHECK_CUDNN(cudnnDestroy(cudnn));

    CHECK_CUDA(cudaFree(d_input));
    CHECK_CUDA(cudaFree(d_kernel));
    CHECK_CUDA(cudaFree(d_output_cudnn));
    CHECK_CUDA(cudaFree(d_output_naive));
    CHECK_CUDA(cudaFree(d_workspace));

    CHECK_CUDA(cudaEventDestroy(start));
    CHECK_CUDA(cudaEventDestroy(stop));

    free(h_input);
    free(h_kernel);
    free(h_output_cudnn);
    free(h_output_naive);

    return 0;
}

输出:

Image size: 4x4x1
Kernel size: 3x3x1x1
Batch size: 1
Algorithm: 0 Time: -1
Algorithm: 2 Time: -1
Algorithm: 6 Time: -1
Algorithm: 4 Time: -1
Algorithm: 5 Time: -1
Algorithm: 7 Time: -1
Algorithm: 3 Time: -1
Selected algorithm: 1
cuDNN average time: 0.031240 ms
Naive kernel average time: 0.006974 ms
Max difference between cuDNN and naive kernel: 0.000000e+00
Channel 0:
111.000000 178.000000 217.000000 145.000000 
231.000000 348.000000 393.000000 252.000000 
363.000000 528.000000 573.000000 360.000000 
197.000000 274.000000 295.000000 175.000000 


Naive Kernel Output:
Channel 0:
111.000000 178.000000 217.000000 145.000000 
231.000000 348.000000 393.000000 252.000000 
363.000000 528.000000 573.000000 360.000000 
197.000000 274.000000 295.000000 175.000000 


Flattened cuDNN Output:
111.000000, 178.000000, 217.000000, 145.000000, 231.000000, 348.000000, 393.000000, 252.000000, 363.000000, 528.000000, 573.000000, 360.000000, 197.000000, 274.000000, 295.000000, 175.000000

虽然在这里你看到Naive kernel要比cuDNN快,但实际上是数据量太小,在下面的示例中你会看到cuDNN的真正实力。

Compaer_Conv.cu

这段程序实现了一个使用CUDA和cuDNN进行二维卷积操作的示例,比较了基于cuDNN优化的卷积与简单的CUDA卷积实现("naive"实现)在性能上的差异。

#include <cuda_runtime.h>
#include <cudnn.h>
#include <stdio.h>
#include <stdlib.h>

#include <iostream>
#include <limits>

#define CHECK_CUDA(call)                                         \
    {                                                            \
        cudaError_t err = call;                                  \
        if (err != cudaSuccess) {                                \
            printf("CUDA error: %s\n", cudaGetErrorString(err)); \
            exit(1);                                             \
        }                                                        \
    }
#define CHECK_CUDNN(call)                                          \
    {                                                              \
        cudnnStatus_t err = call;                                  \
        if (err != CUDNN_STATUS_SUCCESS) {                         \
            printf("cuDNN error: %s\n", cudnnGetErrorString(err)); \
            exit(1);                                               \
        }                                                          \
    }

// Complex multi-channel 2D convolution kernel
__global__ void naiveConv2d(float* input, float* kernel, float* output, int width, int height, int inChannels,
                            int outChannels, int kernelSize, int batchSize) {
    int x = blockIdx.x * blockDim.x + threadIdx.x;
    int y = blockIdx.y * blockDim.y + threadIdx.y;
    int outChannel = blockIdx.z % outChannels;
    int batchIdx = blockIdx.z / outChannels;

    if (x < width && y < height && outChannel < outChannels && batchIdx < batchSize) {
        float sum = 0.0f;
        int halfKernel = kernelSize / 2;
        for (int inChannel = 0; inChannel < inChannels; inChannel++) {
            for (int ky = -halfKernel; ky <= halfKernel; ky++) {
                for (int kx = -halfKernel; kx <= halfKernel; kx++) {
                    int ix = x + kx;
                    int iy = y + ky;
                    if (ix >= 0 && ix < width && iy >= 0 && iy < height) {
                        int inputIdx = ((batchIdx * inChannels + inChannel) * height + iy) * width + ix;
                        int kernelIdx =
                            ((outChannel * inChannels + inChannel) * kernelSize + (ky + halfKernel)) * kernelSize +
                            (kx + halfKernel);
                        sum += input[inputIdx] * kernel[kernelIdx];
                    }
                }
            }
        }
        int outputIdx = ((batchIdx * outChannels + outChannel) * height + y) * width + x;
        output[outputIdx] = sum;
    }
}

int main() {
    // Smaller, predefined sizes for human-readable output
    const int width = 224;
    const int height = 224;
    const int kernelSize = 11;
    const int inChannels = 32;
    const int outChannels = 64;
    const int batchSize = 4;
    const int inputSize = width * height * inChannels * batchSize;
    const int outputSize = width * height * outChannels * batchSize;
    const int kernelElements = kernelSize * kernelSize * inChannels * outChannels;

    std::cout << "Image size: " << width << "x" << height << "x" << inChannels << std::endl;
    std::cout << "Kernel size: " << kernelSize << "x" << kernelSize << "x" << inChannels << "x" << outChannels
              << std::endl;
    std::cout << "Batch size: " << batchSize << std::endl;

    // Allocate host memory
    float* h_input = (float*)malloc(inputSize * sizeof(float));
    float* h_kernel = (float*)malloc(kernelElements * sizeof(float));
    float* h_output_cudnn = (float*)malloc(outputSize * sizeof(float));
    float* h_output_naive = (float*)malloc(outputSize * sizeof(float));

    // Initialize input and kernel with random values
    srand(time(NULL));
    for (int i = 0; i < inputSize; i++) {
        h_input[i] = static_cast<float>(rand()) / RAND_MAX;
    }
    for (int i = 0; i < kernelElements; i++) {
        h_kernel[i] = static_cast<float>(rand()) / RAND_MAX;
    }

    // Allocate device memory
    float *d_input, *d_kernel, *d_output_cudnn, *d_output_naive;
    CHECK_CUDA(cudaMalloc(&d_input, inputSize * sizeof(float)));
    CHECK_CUDA(cudaMalloc(&d_kernel, kernelElements * sizeof(float)));
    CHECK_CUDA(cudaMalloc(&d_output_cudnn, outputSize * sizeof(float)));
    CHECK_CUDA(cudaMalloc(&d_output_naive, outputSize * sizeof(float)));

    // Copy data to device
    CHECK_CUDA(cudaMemcpy(d_input, h_input, inputSize * sizeof(float), cudaMemcpyHostToDevice));
    CHECK_CUDA(cudaMemcpy(d_kernel, h_kernel, kernelElements * sizeof(float), cudaMemcpyHostToDevice));

    // cuDNN setup
    cudnnHandle_t cudnn;
    CHECK_CUDNN(cudnnCreate(&cudnn));

    cudnnTensorDescriptor_t inputDesc, outputDesc;
    cudnnFilterDescriptor_t kernelDesc;
    cudnnConvolutionDescriptor_t convDesc;

    CHECK_CUDNN(cudnnCreateTensorDescriptor(&inputDesc));
    CHECK_CUDNN(cudnnCreateTensorDescriptor(&outputDesc));
    CHECK_CUDNN(cudnnCreateFilterDescriptor(&kernelDesc));
    CHECK_CUDNN(cudnnCreateConvolutionDescriptor(&convDesc));

    CHECK_CUDNN(cudnnSetTensor4dDescriptor(inputDesc, CUDNN_TENSOR_NCHW, CUDNN_DATA_FLOAT, batchSize, inChannels,
                                           height, width));
    CHECK_CUDNN(cudnnSetTensor4dDescriptor(outputDesc, CUDNN_TENSOR_NCHW, CUDNN_DATA_FLOAT, batchSize, outChannels,
                                           height, width));
    CHECK_CUDNN(cudnnSetFilter4dDescriptor(kernelDesc, CUDNN_DATA_FLOAT, CUDNN_TENSOR_NCHW, outChannels, inChannels,
                                           kernelSize, kernelSize));
    CHECK_CUDNN(cudnnSetConvolution2dDescriptor(convDesc, kernelSize / 2, kernelSize / 2, 1, 1, 1, 1,
                                                CUDNN_CROSS_CORRELATION, CUDNN_DATA_FLOAT));

    // Find the fastest cuDNN algorithm
    int requestedAlgoCount = CUDNN_CONVOLUTION_FWD_ALGO_COUNT;
    int returnedAlgoCount;
    cudnnConvolutionFwdAlgoPerf_t perfResults[CUDNN_CONVOLUTION_FWD_ALGO_COUNT];
    CHECK_CUDNN(cudnnGetConvolutionForwardAlgorithm_v7(cudnn, inputDesc, kernelDesc, convDesc, outputDesc,
                                                       requestedAlgoCount, &returnedAlgoCount, perfResults));

    cudnnConvolutionFwdAlgo_t algo = CUDNN_CONVOLUTION_FWD_ALGO_IMPLICIT_GEMM;  // Default algorithm

    size_t workspaceSize;
    CHECK_CUDNN(cudnnGetConvolutionForwardWorkspaceSize(cudnn, inputDesc, kernelDesc, convDesc, outputDesc, algo,
                                                        &workspaceSize));

    void* d_workspace;
    CHECK_CUDA(cudaMalloc(&d_workspace, workspaceSize));

    // Define grid and block sizes for the naive kernel
    dim3 blockSize(16, 16);
    dim3 gridSize((width + blockSize.x - 1) / blockSize.x, (height + blockSize.y - 1) / blockSize.y,
                  outChannels * batchSize);

    // Warmup and benchmark runs
    const int warmupRuns = 5;
    const int benchmarkRuns = 20;
    float totalTime_cudnn = 0.0f;
    float totalTime_naive = 0.0f;

    float alpha = 1.0f, beta = 0.0f;

    // Warmup runs
    for (int i = 0; i < warmupRuns; i++) {
        CHECK_CUDNN(cudnnConvolutionForward(cudnn, &alpha, inputDesc, d_input, kernelDesc, d_kernel, convDesc, algo,
                                            d_workspace, workspaceSize, &beta, outputDesc, d_output_cudnn));
        naiveConv2d<<<gridSize, blockSize>>>(d_input, d_kernel, d_output_naive, width, height, inChannels, outChannels,
                                             kernelSize, batchSize);
        CHECK_CUDA(cudaDeviceSynchronize());
    }

    // Benchmark runs
    cudaEvent_t start, stop;
    CHECK_CUDA(cudaEventCreate(&start));
    CHECK_CUDA(cudaEventCreate(&stop));

    for (int i = 0; i < benchmarkRuns; i++) {
        // cuDNN benchmark
        CHECK_CUDA(cudaEventRecord(start));
        CHECK_CUDNN(cudnnConvolutionForward(cudnn, &alpha, inputDesc, d_input, kernelDesc, d_kernel, convDesc, algo,
                                            d_workspace, workspaceSize, &beta, outputDesc, d_output_cudnn));
        CHECK_CUDA(cudaEventRecord(stop));
        CHECK_CUDA(cudaEventSynchronize(stop));

        float milliseconds = 0;
        CHECK_CUDA(cudaEventElapsedTime(&milliseconds, start, stop));
        totalTime_cudnn += milliseconds;

        // Naive kernel benchmark
        CHECK_CUDA(cudaEventRecord(start));
        naiveConv2d<<<gridSize, blockSize>>>(d_input, d_kernel, d_output_naive, width, height, inChannels, outChannels,
                                             kernelSize, batchSize);
        CHECK_CUDA(cudaEventRecord(stop));
        CHECK_CUDA(cudaEventSynchronize(stop));

        CHECK_CUDA(cudaEventElapsedTime(&milliseconds, start, stop));
        totalTime_naive += milliseconds;
    }

    // Calculate average times
    float avgTime_cudnn = totalTime_cudnn / benchmarkRuns;
    float avgTime_naive = totalTime_naive / benchmarkRuns;

    printf("cuDNN average time: %f ms\n", avgTime_cudnn);
    printf("Naive kernel average time: %f ms\n", avgTime_naive);

    // Copy results back to host
    CHECK_CUDA(cudaMemcpy(h_output_cudnn, d_output_cudnn, outputSize * sizeof(float), cudaMemcpyDeviceToHost));
    CHECK_CUDA(cudaMemcpy(h_output_naive, d_output_naive, outputSize * sizeof(float), cudaMemcpyDeviceToHost));

    // Compare results
    float maxDiff = 0.0f;
    for (int i = 0; i < outputSize; i++) {
        float diff = fabs(h_output_cudnn[i] - h_output_naive[i]);
        if (diff > maxDiff) maxDiff = diff;
    }

    printf("Max difference between cuDNN and naive kernel: %e\n", maxDiff);

    // Clean up
    CHECK_CUDNN(cudnnDestroyTensorDescriptor(inputDesc));
    CHECK_CUDNN(cudnnDestroyTensorDescriptor(outputDesc));
    CHECK_CUDNN(cudnnDestroyFilterDescriptor(kernelDesc));
    CHECK_CUDNN(cudnnDestroyConvolutionDescriptor(convDesc));
    CHECK_CUDNN(cudnnDestroy(cudnn));

    CHECK_CUDA(cudaFree(d_input));
    CHECK_CUDA(cudaFree(d_kernel));
    CHECK_CUDA(cudaFree(d_output_cudnn));
    CHECK_CUDA(cudaFree(d_output_naive));
    CHECK_CUDA(cudaFree(d_workspace));

    CHECK_CUDA(cudaEventDestroy(start));
    CHECK_CUDA(cudaEventDestroy(stop));

    free(h_input);
    free(h_kernel);
    free(h_output_cudnn);
    free(h_output_naive);

    return 0;
}

输出:

Image size: 224x224x32
Kernel size: 11x11x32x64
Batch size: 4
cuDNN average time: 19.572138 ms
Naive kernel average time: 107.169754 ms
Max difference between cuDNN and naive kernel: 0.000000e+00

可以看到在我的机器上,cuDNN实现的大型卷积操作的速度是简单的CUDA卷积的5倍左右。

Larger Rigs or Datacenters(大型工作站 vs 数据中心)

这里简单补充一下在大型工作站和数据中心上CUDA的一些相关知识

cuBLAS-mp vs NCCL vs MIG(multi instance GPU):关键区别和使用场景

这三种技术各自有不同的应用场景,但它们都在分布式计算和高性能计算中优化GPU性能方面扮演重要角色。以下是对每种技术的详细分析:


1. cuBLAS-mp (多进程cuBLAS)

定义
cuBLAS-mp(多进程cuBLAS)是NVIDIA提供的一个高性能、GPU加速的线性代数库,专为在单节点(一个物理机器)中进行多GPU计算而设计。

使用场景

  • 单节点、多GPU计算:当一个模型过大,无法适应单个GPU时,cuBLAS-mp可以将工作负载分配到同一台机器上的多个GPU。这种情况通常发生在深度学习模型的大小超过单个GPU的显存时。
  • 矩阵乘法(Matmul):cuBLAS-mp优化了矩阵乘法操作,这是训练深度学习模型中的关键操作,适用于将多个GPU上的计算任务分配并同步。

关键特点

  • 高性能线性代数计算:优化了矩阵运算(例如矩阵-矩阵乘法,GEMM)的GPU操作。
  • 多进程支持:允许多个进程共享单节点上的GPU资源。
  • 单节点扩展:适用于在单台机器上进行大规模的张量计算,尤其是在模型无法完全放入单个GPU时。

使用案例

  • 大模型训练:例如训练像GPT-5这样的大型模型时,由于模型过大无法放入单个GPU的显存,cuBLAS-mp可以将计算任务分配到多个GPU上。

2. NCCL (NVIDIA Collective Communications Library)

定义
NCCL(“nickel”)是NVIDIA提供的一个用于分布式集群通信的库,主要用于在多个机器或节点之间进行GPU之间的高效通信。

使用场景

  • 分布式训练:NCCL对于大规模的分布式深度学习训练至关重要,尤其是涉及多个节点(每个节点上有多个GPU)的场景。它负责GPU和节点之间的数据通信。
  • 集体通信:包括操作如All-ReduceBroadcastGatherScatter,这些操作是并行化训练和模型权重同步的基础。

关键特点

  • 集群级通信:NCCL负责处理分布式训练中的通信部分,而cuBLAS-mp负责GPU端的计算任务。
  • 高效的集体操作:优化了在多个节点或GPU之间共享和同步数据的操作。
  • 与PyTorch的集成:在PyTorch中,分布式数据并行(DDP) 是基于NCCL的,它支持跨多个GPU和节点的高效模型并行训练。

使用案例

  • 多节点集群训练:如果你在多个节点上训练一个大模型(例如GPT-5),NCCL会负责在不同机器上的GPU之间进行梯度和模型更新的通信,确保分布式训练的高效进行。

一些对你可能有用的链接:

https://pytorch.org/tutorials/intermediate/ddp_tutorial.html

https://www.youtube.com/watch?v=T22e3fgit-A&ab_channel=CUDAMODE

https://docs.nvidia.com/cuda/cuda-c-programming-guide/index.html#extended-gpu-memory

https://docs.nvidia.com/deeplearning/nccl/user-guide/docs/overview.html

https://docs.nvidia.com/deeplearning/nccl/user-guide/docs/api.html


3. MIG (Multi-Instance GPU)

定义
MIG是一种将大GPU划分为多个小型独立GPU实例的技术。每个实例都有自己的内存和计算资源,相互隔离,适用于将一个大的GPU资源分配给多个不同的用户或应用。

使用场景

  • 数据中心优化:MIG特别适合在数据中心的环境中使用,尤其是在多用户或多个应用共享同一个GPU时,能够提高GPU资源的利用率。
  • 提高资源利用率:通过将单个GPU划分为多个独立的小GPU实例,MIG能确保每个工作负载都能获得足够的GPU资源。

关键特点

  • GPU分割:MIG将一个大的GPU(如NVIDIA A100或H100)划分为多个小的实例,每个实例都具有独立的内存、计算能力和内存带宽。
  • 资源隔离:每个MIG实例都是独立的,具有完全的资源隔离,避免了不同任务之间的干扰。
  • 数据中心扩展性:MIG在云环境或数据中心中非常有用,可以让多个任务共享同一台物理GPU,提高GPU的资源利用率。

使用案例

  • 多个独立任务:例如,训练多个较小的模型,而不是将整个GPU资源分配给单一任务。通过MIG,可以将一个大GPU划分为多个独立的小GPU实例,从而最大化资源使用。

比较总结:

特性cuBLAS-mpNCCLMIG
范围单节点,多GPU张量操作分布式集群中多节点间的通信将单个GPU分割成多个独立的小GPU实例
主要用途适用于无法在单个GPU上运行的大模型在多个节点的GPU之间进行同步和数据分发在数据中心环境中提高GPU资源的利用率
通信无(专注于计算)集体操作(All-reduce, Broadcast, Gather, Scatter)无(专注于GPU资源分配)
关键操作矩阵乘法、张量计算集体通信、模型并行训练独立GPU实例化
最适用场景单节点内多GPU训练多节点分布式训练数据中心环境中资源优化

总结:

  • cuBLAS-mp 适用于单节点的多GPU计算,特别是在模型无法完全放入单个GPU时,适合大规模的张量计算任务。
  • NCCL 主要用于分布式训练中的多节点集群通信,负责GPU和节点间的数据同步和集体操作。
  • MIG 则是将单个GPU划分为多个小的独立实例,可以提高GPU资源的利用率,尤其是在数据中心或云环境中,适合同时处理多个较小的任务。

这三者各自针对不同的应用场景和需求,优化了GPU在大规模分布式计算中的性能。

参考:https://github.com/Infatoshi/cuda-course/tree/master

标签:kernel,CUDNN,int,cuDNN,CUDA,深度,output,CHECK
From: https://blog.csdn.net/jokerMingge/article/details/144776933

相关文章

  • 深度学习笔记07-马铃薯病害识别(VGG-16复现)
    本文通过复现VGG-16来实现对马铃薯病害的识别文章目录前言一、加载数据1.引入库2.导入数据3.自定义transforms4.查看类别5.划分数据集6.加载数据二、搭建VGG-161.搭建模型2.查看模型详情三、训练模型1.训练函数2.测试函数3.main4.结果可视化四、预测五、......
  • MySQL 核心知识全面解析:从事务到索引的深度探索
    1.事务隔离级别有哪些?MySQL的默认隔离级别是?事务隔离级别是数据库系统中用于控制不同事务之间的交互和可见性的机制。SQL标准定义了四个隔离级别,按照从低到高的顺序分别是:读未提交(ReadUncommitted):在这个级别,一个事务可以读取另一个尚未提交的事务的数据更改。这会导致......
  • 【递归与回溯深度解析:经典题解精讲(下篇)】—— Leetcode
    文章目录有效的数独解数独单词搜索黄金矿工不同的路径|||有效的数独递归解法思路将每个数独的格子视为一个任务,依次检查每个格子是否合法。如果当前格子中的数字违反了数独规则(在行、列或3×3小方块中重复),直接返回False。递归检查下一个格子,直到所有格子都检......
  • Java 并发编程:原子类(Atomic Classes)核心技术的深度解析
    Java并发编程:原子类(AtomicClasses)核心技术的深度解析在高并发场景下,线程安全是一个重要的话题。Atomic类通过高效的CAS(Compare-And-Swap)机制,为开发者提供了一种无需锁的线程安全解决方案。本篇文章将系统讲解Java原子类的核心概念、常用成员、使用方法以及实际应用。......
  • 如何成为一名 AI 产品经理?这是我见过年度最干货深度的文章,希望能帮助到你!
    我们经常聊如何做一款好的AI产品,却很少聊怎么成为一名好的AI产品经理。知名播客LennyPodcast最近采访了AmanKhan的产品总监AmanKhan,曾在Apple、Cruise、Spotify担任过产品经理的他,如今在做一款模型能力和数据检测的平台。对于AI产品经理,有足够的发言权。......
  • 【AI产品经理指南】我是谁,从哪来,到哪去:面试100位AI产品经理后的深度总结
    前不久,「十字路口」邀请在字节负责AI产品的好朋友Vanessa做客我们的播客,一起聊了聊她是如何面试AI产品经理的,在面试数量达到100位之后,又有了什么新的思考和总结。AI正在改变各行各业,或许首当其冲受到影响的就包括离AI最近的一群人——产品经理。Vanessa在字......
  • 深度学习笔记——Transformer(下)
    大家好,这里是好评笔记,公主号:Goodnote,专栏文章私信限时Free。本文详细介绍面试过程中可能遇到的Transformer知识点,由于字数限制,分为上下篇发布。文章目录上篇遮蔽(Mask)填充遮蔽(PaddingMasking)与未来遮蔽(FutureMasking)介绍1.填充遮蔽(PaddingMasking)与未来遮蔽(Fut......
  • BitBake 执行流程深度解析:从理论到实践
    BitBake是嵌入式Linux系统开发中一个不可或缺的任务执行引擎,尤其在Yocto项目中担任核心角色。它通过解析元数据、管理任务依赖以及调度构建任务,为开发者提供了一套高度模块化、灵活且高效的工具链支持。然而,BitBake的执行流程不仅仅局限于菜谱工作流,而是构建了一个通......
  • C++ 函数:核心编程构建块的深度剖析
    一、引言C++作为一种强大且广泛应用的编程语言,函数在其中扮演着至关重要的角色。函数是将大型程序分解为可管理模块的关键机制,它提高了代码的可读性、可维护性和复用性。通过合理地运用函数,程序员能够更高效地组织代码逻辑,实现复杂的功能,并遵循良好的软件工程实践。二、函数......
  • 动手学深度学习 学习笔记(一)预备知识
    基本概念机器学习的重要性机器学习允许计算机程序通过经验学习,自动改进性能,而不需要人类详细地编程。机器学习在处理复杂任务(如天气预测、自然语言处理、图像识别等)时展现出了超越传统编程的能力。机器学习的日常应用机器学习技术已经渗透到日常生活中,如语音识别、地图导......