首页 > 其他分享 >Nvdia GPU Femi 架构

Nvdia GPU Femi 架构

时间:2022-11-02 22:45:54浏览次数:45  
标签:global Nvdia 指令 Femi SM memory GPU 内存

 GTX480-Compute 2.0 capability 

  •  有 15 个 core 或者说 SM( Streaming Multiprocessors ) 
  •  每个 SM, 一般有 32 cuda 处理器 
  •  共 480 个 cuda 处理器 
  •  带 ECC 的 global memory 
  •  每个 SM 内的线程按 32 个单位调度执行,称作 warp。每个 SM 内有 2 个 warp 发射单元 
  •  一个 cuda 核由一个 ALU 和一个 FPU 组成, FPU 是浮点处理单元 

   SIMT 和 SIMD 

 SIMT 是指单指令、多线程 

  •  硬件决定了多个 ALU 之间要共享指令 
  •  通过预测来处理多个线程间的 Diverage(是指同一个 warp 中的指令执行路径产生不同) 
  •  NV 把一个 warp 中执行的指令当作一个 SIMT。 SIMT 指令指定了一个线程的执行以及分支行为  
  •  SIMD 指令可以得到向量的宽度,这点和 X86 SSE 向量指令比较类似。 SIMD 的执行和管线相关 :  1) 所有的 ALU 执行相同的指令    2) 根据指令可以管线分为不同的阶段。当第一条指令完成的时候( 4 个周期),下条指令开始执行 

 Nvida GPU 内存机制 

 每个 SM 都有 L1 cache,通过配置,它可以支持 shared memory,也可以支持 global memory。 48 KB Shared / 16 KB
of L1 cache, 16 KB Shared / 48 KB of L1 cache, work item 之间数据共享通过 shared memory。每个 SM 有 32K 的
register bank L2(768K) 支持所有的操作,比如 load,store 等等 Unified path to global for loads and stores. 

NV GPU 内存模型和OpenCl 内存模型对应关系:

Nv 的 GPU 内存模型和 OpenCL 内存模型的对应关系是: 

 shared memory 对应 local memory 

  寄存器对应 private memory 

  显卡上的GDDR 是global memory

 

标签:global,Nvdia,指令,Femi,SM,memory,GPU,内存
From: https://www.cnblogs.com/aalan/p/16852823.html

相关文章