CUDA入门笔记

时间：2023-05-05 20:44:18浏览次数：61

标签：入门笔记 Warp 线程 cuda SM include CUDA

一个SM(Streaming Multiprocessor)中的所有SP(Streaming Processor)是分成Warp的，共享同一个Memory和Instruction Unit（指令单元）。

从硬件角度讲，一个GPU由多个SM组成（当然还有其他部分），一个SM包含有多个SP（以及还有寄存器资源，Shared Memory资源，L1cache，Scheduler，SPU，LD/ST单元等等）

GPU软硬件对应关系

SM采用的是SIMT (Single-Instruction, Multiple-Thread，单指令多线程)架构，基本的执行单元是线程束（warps)，线程束包含32个线程.

线程数尽量为32的倍数，因为线程束(Warp)共享一个内存和指令。假如线程数是1，则Warp会生成一个掩码，当一个指令控制器对一个Warp单位的线程发送指令时，32个线程中只有一个线程在真正执行，其他31个进程会进入静默状态。

了解硬件的代码：

cu文件:

#include <iostream>
#include "cuda_runtime.h"
int main() {
    int dev = 0;
    cudaDeviceProp devProp;
    cudaGetDeviceProperties(&devProp, dev);
    std::cout << "使用GPU device " << dev << ": " << devProp.name << std::endl;
    std::cout << "SM的数量：" << devProp.multiProcessorCount << std::endl;
    std::cout << "每个线程块的共享内存大小：" << devProp.sharedMemPerBlock / 1024.0 << " KB" << std::endl;
    std::cout << "每个线程块的最大线程数：" << devProp.maxThreadsPerBlock << std::endl;
    std::cout << "每个SM的最大 线程    数：" << devProp.maxThreadsPerMultiProcessor << std::endl;
    std::cout << "每个SM的最大 线程束  数——Warp数：" << devProp.maxThreadsPerMultiProcessor / 32 << std::endl;
    return 0;
}

CMakeLists:

cmake_minimum_required(VERSION 3.8)
project(CUDA_TEST)

find_package(CUDA REQUIRED)

message(STATUS "cuda version: " ${CUDA_VERSION_STRING})
include_directories(${CUDA_INCLUDE_DIRS})

cuda_add_executable(cuda_test src/test001.cu)
target_link_libraries(cuda_test ${CUDA_LIBRARIES})

标签：入门,笔记,Warp,线程,cuda,SM,include,CUDA
From： https://www.cnblogs.com/chenlinchong/p/17375301.html

selenium笔记之一些个人经验
记录我避过坑之后，自认为好用的一些方法一、元素定位不再赘述有多少种类了虽然很多，但是我尝试使用用的最多最稳定的还是：.xpath这是我认为也是我用着最靠谱的一种方法二、点击我最开始看文档，用的是element.click()方法，但是发现，有些“变动”的元素或者一些其它可点击的标签不......
【CacheLine】关于缓存行的笔记（存疑）
什么是缓存行Cache是由很多个cacheline组成的。每个cacheline通常是64字节，并且它有效地引用主内存中的一块儿地址。一个Java的long类型变量是8字节，因此在一个缓存行中可以存8个long类型的变量。CPU每次从主存中拉取数据时，会把相邻的数据也存入同一个cacheline。在访问一......
RuntimeError: CUDA error: out of memory.
RuntimeError:CUDAerror:outofmemory.CUDAkernelerrorsmightbeasynchronouslyreportedatsomeotherAPIcall,sothestacktracebelowmightbeincorrect.FordebuggingconsiderpassingCUDA_LAUNCH_BLOCKING=1.这个error的原因是，当期指定的GPU的显存不足，可......
「学习笔记」AC 自动机
「学习笔记」AC自动机点击查看目录目录「学习笔记」AC自动机算法问题思路代码例题KeywordsSearch玄武密码单词病毒最短母串文本生成器背单词密码禁忌前置：「学习笔记」字符串基础：Hash，KMP与Trie。好像对例题的讲解越来越抽象了？算法问题求\(n\)个单词在一个长度为\(......
Flask - 基础知识入门解析
Flask-基础知识入门解析框架比较Djangoweb框架：优点-组件非常全，教科书框架，adminmodel-ORMsession缺点-资源浪费，因为组件多，大，还是互相关联的，随便卸载组件，可能会造成项目的崩溃Flaskweb框架：优点-扩展性强，精简，简单，第三方组件丰富sessionFlask-SessionFlask-Adm......
记录-Symbol学习笔记
这里给大家分享我在网上总结出来的一些知识，希望对大家有所帮助Symbol是JavaScript中的原始数据类型之一，它表示一个唯一的、不可变的值，通常用作对象属性的键值。由于Symbol值是唯一的，因此可以防止对象属性被意外地覆盖或修改。以下是Symbol的方法和属性整理：属性Symbol.length......
C# 使用AForge调用笔记本摄像头拍照及录像
1、添加引用1、官网下载链接：http://www.aforgenet.com/framework/downloads.html2、通过管理Nuget程序包可直接添加以下引用，当然这里并没有全部用上，而只是用上了一部分在添加完这些引用之后VS的工具箱当中会多出AForge.NET相关的一些控件，而实现调用摄像头就需要使用到这些控件......
52班JAVA入门基础课堂代码
Demo01_数组的概念和定义格式packageday01;publicclassDemo01_数组的概念和定义格式{publicstaticvoidmain(String[]args){//intage=19;//容器大小，同类型的元素，长度----元素的个数////数组---容器的一种，长度固定，......
Go语言入门14（channel通道01）
channel（一） channel用于goroutines之间的通信，让它们之间可以进行数据交换。像管道一样，一个goroutine_A向channel_A中放数据，另一个goroutine_B从channel_A取数据channel基本语法//因为channel是指针类型的数据类型，所以通过make来分配内存//使用make声明一个channel，里面可以......
人工智能学习入门学习笔记 1
目前人工智能算法分哪几类，哪些是需要训练的？人工智能算法通常可以分为以下几类：1. 监督学习（SupervisedLearning）：需要有标注数据，即输入数据与输出结果是已知的，算法通过学习这些数据来建立一个输入到输出的映射模型。例如，图像分类、自然语言处理和预测等任务。2. 无监督学习（Unsupervi......

CUDA入门笔记

相关文章

赞助商

阅读排行