在GPU上利用规约算法完成对数组元素累加的并行计算

时间：2024-03-13 23:03:55浏览次数：20

标签：int dev 累加规约并行计算 result GPU array

序言

规约算法介绍

GPU代码实现规约算法

序言

并行规约是一种适用于GPU平台的并行算法，主要提高求和、最值、均值、逻辑与和逻辑或等一类运算的并行度。若使用CPU计算，需要串行遍历所有元素得到上述运算的结果，但在GPU平台可以使用规约操作并行实现上述运算。

规约算法介绍

首先，表达式可表示如下：

$res=\sum\limits_{i=0}^L{x_i=x_0\oplus x_1\oplus x_2\oplus \cdots \oplus x_{L-1}\oplus x_L}$

其中res为运算结果，L为数据长度， $\oplus$ 为符合结合律的运算符，代表求和、最值、均值、逻辑与和逻辑或等。

下面以16个元素求最大值为例，说明规约算法的流程，如下图所示，其中图(a)为交错寻址规约求最大值方式，第一轮迭代完成相邻两个数的运算，并将结果原位覆盖，第二轮迭代再对第一轮计算结果执行对应的运算得到下一级的结果，此时相邻两个数的跨度翻倍，以此类推得到最终结果。图(b)为连续寻址规约求和方式，计算过程与交错寻址方式类似，该计算方式将计算复杂度由原来的O(L)降为O(logL)。需要注意的是，若在运算之前将元素存至共享内存并在每次迭代之后更新共享内存中的数据，则可以进一步提高数据存取的效率。

（a）交错寻址规约

（b）连续寻址规约

GPU实现规约算法

#include <stdio.h>
#include <stdlib.h>

#define N 1000 // 数组大小

__global__ void sumArray(int *array, int *result) {
    __shared__ int sdata[256];

    unsigned int tid = threadIdx.x;
    unsigned int idx = blockIdx.x * blockDim.x + threadIdx.x;

    // 将数组元素拷贝到共享内存中
    sdata[tid] = array[idx];
    __syncthreads();

    // 执行并行累加操作
    for (unsigned int s = blockDim.x / 2; s > 0; s >>= 1) {
        if (tid < s) {
            sdata[tid] += sdata[tid + s];
        }
        __syncthreads();
    }

    // 线程块的第一个线程将累加结果写回全局内存
    if (tid == 0) {
        result[blockIdx.x] = sdata[0];
    }
}

int main() {
    int array[N]; // 定义数组
    int *dev_array, *dev_result; // 定义CUDA变量
    int result[N / 256 + 1]; // 存储每个线程块的累加结果以及最终的总和
    int finalResult = 0; // 最终的累加结果

    // 在设备上分配内存
    cudaMalloc((void**)&dev_array, N * sizeof(int));
    cudaMalloc((void**)&dev_result, (N / 256 + 1) * sizeof(int));

    // 初始化数组
    for (int i = 0; i < N; i++) {
        array[i] = i + 1; // 初始化数组元素为1至N
    }

    // 将数组拷贝到设备
    cudaMemcpy(dev_array, array, N * sizeof(int), cudaMemcpyHostToDevice);

    // 调用内核函数
    sumArray<<<(N-1)/256+1, 256>>>(dev_array, dev_result);

    // 将结果从设备拷贝回主机
    cudaMemcpy(result, dev_result, (N / 256 + 1) * sizeof(int), cudaMemcpyDeviceToHost);

    // 计算最终的累加结果
    for (int i = 0; i < N / 256 + 1; i++) {
        finalResult += result[i];
    }

    printf("数组元素的累加结果为: %d\n", finalResult);

    // 释放设备上分配的内存
    cudaFree(dev_array);
    cudaFree(dev_result);

    return 0;
}

核函数实现规约求和时使用了一个循环，每次循环将当前线程的数据与与其相邻的另一半线程的数据进行相加，直到最终只剩下一个元素。然后每个线程块的第一个线程（线程索引为0）将局部累加结果写回到全局内存中。最后将每个线程块的累加结果从设备拷贝回主机，并且在主机端进行最终的累加，得到整个数组元素的累加结果。

标签：int,dev,累加,规约,并行计算,result,GPU,array
From： https://blog.csdn.net/zy4213/article/details/136589566

【DataWhale学习】用免费GPU线上跑StableDiffusion项目实践
用免费GPU线上跑SD项目实践DataWhale组织了一个线上白嫖GPU跑chatGLM与SD的项目活动，我很感兴趣就参加啦。之前就对chatGLM有所耳闻，是去年清华联合发布的开源大语言模型，可以用来打造个人知识库什么的，一直没有尝试。而SD我前两天刚跟着B站秋叶大佬和Nenly大佬的视频学习过......
【论文阅读】THEMIS: Fair and Efficient GPU Cluster Scheduling
11.THEMIS:FairandEfficientGPUClusterScheduling出处:2020USENIXThemis：公平高效的GPU集群调度|USENIX主要工作：使用拍卖机制，针对长时间运行、位置敏感的ML应用程序。任务以短期的效率公平来赢取投标但确保长期是完成时间公平性。对每个ML应用程序......
一键开启 GPU 闲置模式，基于函数计算低成本部署 Google Gemma 模型服务
作者：王骜本文介绍如何使用函数计算GPU实例闲置模式低成本、快速的部署GoogleGemma模型服务。背景信息Google在2024年02月21日正式推出了自家的首个开源模型族Gemma，并同时上架了四个大型语言模型，提供了2B和7B两种参数规模的版本，每种都包含了预训练版本（base模......
一键开启 GPU 闲置模式，基于函数计算低成本部署Google Gemma 模型服务
背景信息Google在2024年02月21日正式推出了自家的首个开源模型族Gemma，并同时上架了四个大型语言模型，提供了2B和7B两种参数规模的版本，每种都包含了预训练版本（base模型）和指令微调版本（chat模型）。根据Google的技术报告，本次开源的Gemma在问题回答、合理性、数学、代码......
538. 把二叉搜索树转换为累加树c
右根左遍历就行。/***Definitionforabinarytreenode.*structTreeNode{*intval;*structTreeNode*left;*structTreeNode*right;*};*/voidorder(structTreeNode*root,int*pre){if(!root)return;order(root->right,pr......
scalene python cpu&gpu 性能分析工具
scalene使用一个pythoncpu&gpu性能分析工具，同时也支持内存的分析，同时还提供了基于ai的智能优化推荐包含的一些特性cli支持多种输出格式包含了一个web-gui基于ai的智能提示参考使用安装pipinstallscalene包含的cliusage:scalene......
了解 NVIDIA 的数据中心 GPU 系列
长话短说NVIDIA拥有数十个GPU，可以为不同大小的ML模型提供服务。但了解这些不同卡的性能和成本（更不用说保持名称正确）是一个挑战。每个GPU的名称是一个字母数字标识符，传达有关其架构和规格的信息。本指南可帮助您浏览NVIDIA数据中心GPU系列并将其映射到您的模型服务需......
远程GPU服务器环境配置
miniconda环境在Linux系统中安装Miniconda通常涉及以下几个步骤：步骤1：下载Miniconda安装脚本可以从官方或者镜像站点下载Miniconda的Linux版本。这里提供一个通用的镜像站点下载命令，可以根据实际情况选择适合自己的Miniconda版本和架构：wgethttps://mirrors.tuna.tsinghua.edu......
英伟达gpu查看显存剩余
我使用tmux常常将一块屏幕的四分之一用于观察gpu利用率和显存剩余，但是如果我使用nvidia-smi就会显示不全，因为我有10块gpu。我想了想，直接使用nvidia-smi显示的信息很多是我不需要的，我只需要gpu-id号，显存剩余，显存总量，gpu利用率就这些，那么我们可以设置只显示这些：nvidia-smi--query......
GPU算力共享
工作原理通过扩展的方式管理GPU资源Kubernetes本身是通过插件扩展的机制来管理GPU资源的，具体来说这里有两个独立的内部机制。第一个是ExtendResources，允许用户自定义资源名称。而该资源的度量是整数级别，这样做的目的在于通过一个通用的模式支持不同的异构设备，包括......

在GPU上利用规约算法完成对数组元素累加的并行计算

序言

规约算法介绍

GPU实现规约算法

相关文章

赞助商

阅读排行