CUDA C++编程

时间：2023-01-20 22:23:54浏览次数：53

标签：元素 blockDim 编程 threadIdx C++ 索引线程 CUDA blockIdx

核函数

作用

调用核函数的时候，代码会被N个CUDA线程执行N次。

修饰符

__global__ 返回值函数名(){

...执行代码

}

调用

函数名<<<BlockNumber,ThreadNumber>>>();

BlockNumber是块的个数。

ThreadNumber是每一个块中的线程个数。

索引结构

块内线程的索引结构（threadIdx）

在一维，二维，三维的块中，threadIdx分别为一维索引，二维索引，三维索引。

threadIdx.x：一维索引

threadIdx.y：二维索引

threadIdx.z：三维索引

网内块的结构（blockIdx）

在一维，二维，三维的网中，blockIdx分别为一维索引，二维索引，三维索引。

blockIdx.x：一维索引

blockIdx.y：二维索引

blockIdx.z：三维索引

blockDim：块的大小（块内线程总数）

向量元素与线程之间映射

一维

blockIdx.x * blockDim.x + threadIdx.x

假设有Item0，Item1，Item2，Item3，Item4，Item5，Item6，Item7八个元素。有两个块block1，block2，每个块4个线程。则分配如下

Item0，Item1，Item2，Item3，分配给block1中的0，1，2，3号线程。

Item4，Item5，Item6，Item7，分配给block2中的0，1，2，3号线程。

则block2中的3号线程处理的元素，根据公式得：1*4+3=7，也就是Item7（索引下标从0开始）

三维

threadIdx.z * blockDim.y * blockDim.x + threadIdx.y * blockDim.x + threadIdx.x

网格大小与工作量匹配

匹配情况

每一个线程对应一个元素

不匹配

元素个数与线程总数不匹配，导致有的线程没有工作可干，运行时会出错。

解决方法

将任务总数N传递到核函数中。

网格内的线程，利用 threadIdx + blockIdx*blockDim检查自己是否超过元素总数N。

跨网格工作

通常一个线程不是处理一个元素，而是处理多个元素。

因此每次增长的步长为blockDim.x * gridDim.x（也就是一个网格的所有线程数）

此网格的块数GridDim.x为2，块中的线程数blockDim.x为4，所以一个网格的线程总数为2*4

案例

计算10000个元素，使用256个块，每个块32个线程，一轮可以处理8192个元素。那么在第二轮的时候，只需要判断i增加了后是否超过N即可，超过N的线程不执行。

__global__ void doubleElements(int *a, int N)
{
  int i;
  i = blockIdx.x * blockDim.x + threadIdx.x;
  int stride= blockDim.x * gridDim.x;
  for(;i<N;i+=stride){
   if (i < N)
      {
        a[i] *= 2;
      }
  }

 size_t threads_per_block = 256;
  size_t number_of_blocks = 32;
doubleElements<<<number_of_blocks, threads_per_block>>>(a, N);

标签：元素,blockDim,编程,threadIdx,C++,索引,线程,CUDA,blockIdx
From： https://www.cnblogs.com/RedNoseBo/p/17063325.html

史上最简单 OpenCV for C++ 在 Windows 和 Ubuntu 上编译安装使用教程
准备工作原材料Ubuntu系统(非必须，Windows也可以，主要是Ubuntu适合编译)OpenCV3.4.1压缩包OpenCVcontrib3.4.1压缩包MinGW(Windows上运行GCC)版本信息......
第一个CUDA程序
测试代码编写“Test.cu”文件#include"iostream"#include"stdio.h"usingnamespacestd;__global__voidTestFunction(){printf("TheThread'Idis%d\n",......
Ubuntu环境下安装CUDA
查看Nvidia显卡驱动信息nvidia-smi 下载对应版本的CUDAhttps://developer.nvidia.com/cuda-toolkit-archive 执行安装文件sudoshcuda_版本信息_linux.run......
把KMP算法嚼碎了才利于消化！（C++）
相信不少人在学数据结构的时候都被KMP算法搞的迷迷糊糊的，原理看的似懂非懂，代码写不出来，或者写出来了也不知道为什么就可以这么写。本文力求尽可能通俗详细的讲解KMP算法，让......
C++概述
计算两个整数相加之和#include<iostream>usingnamespacestd;/*函数功能：计算两个整数相加之和*/intAdd(inta,intb){return(a+b);}//主函数intmai......
c++ namespace
名字空间：名字空间有两个特征：1.顺序2.嵌套顺序：编译器和解释器相当于一个翻译官，拿着本子一行一行读代码，只有见过的名字才会记到本子上，每见过的名字他就不认识(所以C++需......
C#调用C++动态链接库dll之P/Invoke方式 — 1.无参无返回值函数调用
1.新建一个C++空项目CPPTest2.新建一个PInvokeTest.cpp文件，并写下如下代码需要注意：下文中的两个函数名HelloWorld需要完全一致，只有这样才能确保被完全声明为一个其......
C++ Templates 中文版电子书 pdf
本书是C++模板编程的完全指南，旨在通过基本概念、常用技巧和应用实例3方面的有用资料，为读者打下C++模板知识的坚实基础。关注公众号：后厂村搬砖工。发送：电子书即可。......
C++ 基础语法2
#include<iostream>usingnamespacestd;#include<string>#include<time.h>//结构体定义//structStudent//{//stringname;//intage;//intcount;//};//在结构体尾......
C++基础语法 3（面向对象、C++在执行过程当中4个区域、引用）
#include<iostream>usingnamespacestd;//标注空间#include<string>#include<time.h>#include<cstdlib>//面向对象/*C++在执行过程当中4个区域：代码区：存放二进制代码，由操作......