GPU通用计算编程模型

时间：2023-10-07 11:44:39浏览次数：49

这是我阅读General-Purpose Graphics Processor Architecture的一篇笔记，本文对应书中第二章的内容。

执行模型

现代GPU普遍采用SIMD来实现数据级（data-level）并行，程序员通过诸如CUDA等API以在GPU上启动一系列的线程（thread）执行工作。其中，每个线程可以有独立的执行路径（execution path），并且可以访问不同区域的内存。从硬件的角度看，GPU会将线程分成若干组，每个组被称为一个warp（在AMD的术语中称为wavefront）以利用线程的规律性和空间局部性。这种执行模型被称为SIMT（single-instruction, multi-threads）。

GPU计算程序都从CPU开始。对于独立显卡而言，CPU需要首先为计算任务在GPU上申请显存，然后将数据传输到GPU，最后在GPU上加载计算任务。对于集成显卡而言，则可以直接在GPU上加载计算任务，而无需传输数据（集成显卡使用内存作为显存）。

CUDA的编程模型与compute shader很像。如上所述，GPU中若干线程组成一个warp，每个warp中的所有线程会尽量同时执行相同的指令以提高性能。多个warp组合在一起又组成线程块（thread block），这种组合方式很像划分网格。假设一个线程是第i个线程块的第j个warp的第k个线程，那么使用(i, j, k)可以唯一地标记这个线程。而又如果每个线程块包含warpNum个warp，每个warp包含threadNum个线程，那么用i * warpNum + j * threadNum + k就可以作为每个线程唯一的ID。

不过在实际的编程中，warp对程序员是不可见的。取而代之的是，j * threadNum + k这个整体作为线程的局部ID。在CUDA中，它对应内置变量threadIdx，而线程块的ID对应blockIdx，每个线程块包含的线程数量对应blockDim。而在HLSL的compute shader中，线程块的ID对应于SV_GroupID，而线程的局部ID对应于SV_GroupThreadID。

同一线程块中的线程能够共享一块高速内存，这块内存在NVIDIA的术语中称为共享内存（shared memory）。GPU的每个流处理器（streaming multi-processor, SM）都包含一块独立的共享内存。在同一个流处理器内，这块共享内存根据线程块的数量又划分成多块。在AMD的术语中，共享内存被称为本地数据存储（local data storage, LDS），每个流处理器包含16-64KB的共享内存。共享内存的访问是很快的，合理利用共享内存做缓存能够有效提高运算速度。除了共享内存，AMD的GPU还存在一个全局数据存储（global data store, GDS）。在图形管线中，GDS用于在不同的shader之间传递运算结果。

GPU指令集架构

和CPU一样，GPU并不能直接执行高级语言，比如HLSL、GLSL或者CUDA，而只能执行二进制代码。不过与amd64和x86不太一样的是，GPU的指令集往往并不通用，而且很可能不向前兼容。诸如DirectX、Vulkan等API通常只能将shader交给驱动程序编译成GPU可执行的程序。

NVIDIA的ISA

NVIDIA提供了一组比较高级的ISA，叫做Parallel Thread Execution ISA（PTX）。PTX非常类似于汇编语言，但仍然不能在GPU上直接执行，它更像是DXIL、LLVM IR这种中间语言，也因此PTX不被局限在NVIDIA的某一个架构上。PTX仍然需要经过驱动程序转译或者CUDA SDK提供的ptxas来编译成GPU可执行的ISA，NVIDIA称之为SASS。不同GPU的SASS可能会有所差别甚至完全不同。

PTX与SASS都很像RISC ISA，它们的不同主要体现在两点上：

PTX可以使用无限多的寄存器，但SASS只能使用有限的寄存器；
SASS中可以使用非访存指令访问参数，但PTX的参数必须放在独立的参数地址空间。

AMD的ISA

AMD的GCN架构和NVIDIA的架构最主要的区别之一是AMD的标量与向量指令是分开的。在AMD的GCN架构中，每个计算单元包含1个标量单元和4个向量单元，向量单元的计算结果只对本线程可见，但标量单元的计算结果被一个warp内的所有线程共享。

标签：模型,编程,AMD,warp,线程,PTX,GPU,共享内存
From： https://www.cnblogs.com/icysky/p/17745914.html

详解PLC常用的编程语言
大家都知道学习某种新知识，技巧跟方法是关键的。正如新手刚开始接触PLC，它的软件编程语言与一般计算机语言相比，具有明显的特点，它既不同于高级语言，也不同于一般的汇编语言，它既要满足易于编写又要满足易于调试的要求。早期的PLC仅支持梯形图编程语言和指令表编程语言，现根据国际电工委......
三维模型3DTile格式轻量化的数据压缩与性能平衡关系分析
三维模型3DTile格式轻量化的数据压缩与性能平衡关系分析对于三维模型的3DTile格式轻量化处理，数据压缩和性能之间的平衡关系是一个重要的考虑因素。以下是这两者关系的详细分析：1、数据压缩与加载速度：显然，更高级别的压缩可以创造更小的文件大小，从而加快从服务器到客户端的传输......
从GPU的内存访问视角对比NHWC和NCHW
NHWC和NCHW是卷积神经网络(cnn)中广泛使用的数据格式。它们决定了多维数据，如图像、点云或特征图如何存储在内存中。NHWC(样本数，高度，宽度，通道):这种格式存储数据通道在最后，是TensorFlow的默认格式。NCHW(样本数，通道，高度，宽度):通道位于高度和宽度尺寸之前，经常与PyTorch一起使用。......
基于AI模型的验证码安全识别(B站，知乎等)
bilibili汉字识别顺序验证码实现基本思路: 先利用Selenium模拟登录，当然在这之前做好请求伪装，get方法使边框最大化，并且将系统的windows窗口缩放比例设置为100%，不推荐125%，否则可能导致xpath定位不准，使用send_key()方法导入账号密码，隐式等待验证码出现，这里B站可以获取验证......
LLM实践-在Colab上使用免费T4 GPU进行Chinese-Llama-2-7b-4bit推理
一、配置环境1、打开colab，创建一个空白notebook，在[修改运行时环境]中选择15GB显存的T4GPU.2、pip安装依赖python包!pipinstall--upgradeaccelerate!pipinstallbitsandbytestransformers_stream_generator!pipinstalltransformers!pipinstallsentencepiece!pip......
多线程编程
多线程编程与资源同步1.基础进程：一个进程代表计算机中实际运行的一个程序，在现代计算机操作系统的保护模式下，每个进程都具有自己独立的进程地址空间和上下文堆栈；进程并不负责执行进程代码，只是为程序提供一个大环境容器，进程中的实际执行体是线程(Thread)，因此在一个进程中至......
十四天学会C++之第四天（面向对象编程基础）
类和对象是什么？在C++中，类是一种用户定义的数据类型，它可以包含数据成员（也就是属性）和成员函数（也就是方法）。类是一种模板或蓝图，用于创建具体的对象。对象是类的实例，它是根据类的定义创建的，可以用来表示现实世界中的各种事物。对象具有类定义的属性和行为。面向对象编程思想面向对象编......
Python异步编程并发比较之循环、进程、线程、协程
服务端现在有一个api接口http://127.0.0.1:18081/hello批量请求该接口，该接口中有一个5s的阻塞。使用循环，多进程，多线程，协程等四种方式，一共请求10次，比较总的请求耗时。importtimefromflaskimportFlaskapp=Flask(__name__)@app.route('/hello')defhello_world():......
为研究不同宽度,厚度,重量,车间温度,冷却方式下,物料温度随时间呈指数衰减的模型函数,
为研究不同宽度,厚度,重量,车间温度,冷却方式下,物料温度随时间呈指数衰减的模型函数,请使用python按照下面的表格形式,生成模拟数据,数据预处理,选择模型,划分数据集,训练模型,调整超参数,预测和评估,并绘图谢谢您的反馈。我可以尝试改进模拟生成的df数据，以让它更加真实。......
不同宽度,厚度,重量,车间温度,冷却方式下,物料温度随时间衰减,请使用python机器学习,
生成模拟数据、数据预处理、选择模型、划分数据集、训练模型、调整超参数、预测和评估以及绘图是一个相对复杂的流程。下面是一个示例流程，涵盖了这些步骤：importnumpyasnpimportpandasaspdimportmatplotlib.pyplotaspltfromsklearn.model_selectionimporttrain_test_......

GPU通用计算编程模型

执行模型

GPU指令集架构

NVIDIA的ISA

AMD的ISA

相关文章

赞助商

阅读排行