AMD 5870 显卡 (cypress) 架构

20 个 simd 引擎，每个 simd 引擎包含 16 个 simd
每个 simd 包含 16 个 stream core
每个 stream core 都是 5 路的乘法 -加法运算单元（ VLIW processing）
每个 stream core 是一个 5 路的 VLIW 处理器，在一个 VLIW 指令中，可以最多发射 5 个标量操作。标量操作在每个 pe 上执行
CU（ 8xx 系列 cu 对应硬件的 simd）内的 stream core 执行相同的 VLIW 指令
在 CU（或者说 simd）内同时执行的 work item 放在一起称作一个 wave，它是 cu 中同时执行的线程数目。在 5870中 wave 大小是 64，也就是说一个 cu 内，最多有 64 个 work item 在同时执行
单精度运算可以达到 Teraflops
双精度运算可以达到 544Gb/s

我们现在看下 AMD GPU 硬件在 OpenCL 中的对应关系：

一个 workitme 对应一个 pe， pe 就是单个的 VLIW core ，也就是每个simd core 中的某个具体的VLIW 线程
一个 cu 对应多个 pe， cu 就是 simd 引擎
一个 simd 引擎的示意图，每个 simd 引擎由一系列的 stream core 组成

对每个 cu 来说，它使用的内存包括 onchip 的 LDS 以及相关寄存器。在 5870 中，每个 LDS 是 32K，共 32 个bank，每个 bank 1k，读写单位 4 byte
对每个 cu 来说，有 8K 的 L1 cache。（ for 5870）
各个 cu 之间共享的 L2 cache，在 5870 中是 512K
fast Path 只能执行 32 位或 32 位倍数的内存操作
complete path 能够执行原子操作以及小于 32 位的内存操作

AMD GPU 的内存架构和 OpenCL 内存模型之间的对应关系：

LDS 对应 local memeory，主要用来在一个 work group 内的 work times 之间共享数据。 steam core 访问 LDS 的速度要比 Global memory 快一个数量级
private memory 对应每个 pe 的寄存器
constant memory 主要是利用了 L1 cache
注意：对 AMD CPU， constant memory 的访问包括三种方式： Direct-Addressing Patterns ，这种模式要求不包括行
列式，它的值都是在 kernel 函数初始化的时候就决定了，比如传入一个固定的参数。 Same Index Patterns ，所有的 work
item 都访问相同的索引地址。 Globally scoped constant arrays ，行列式会被初始化，如果小于 16K，会使用 L1 cache，
从而加快访问速度。当所有的 work item 访问不同的索引地址时候，不能被 cache，这时要在 global memory 中读取。

标签：core,架构,每个,AMD,simd,GPU,VLIW,cu
From： https://www.cnblogs.com/aalan/p/16852729.html

【架构】架构设计的目的
在上一篇架构设计的历史背景一文中，我们聊了架构出现的历史背景和推动因素。以史为鉴，对我们了解架构设计的目的很有帮助。谈到架构设计，相信每个技术人员都是耳熟能详，但如果......
kubernetes集群架构
Master:管理(控制)节点,相当于公司的管理层Master节点主要由APIServer、Controller-Manager和Scheduler三个组件，以及一个用于存储集群状态的Etcd存储服务组成Nod......
这是你没见过的MindSpore 2.0.0 for Windows GPU版
摘要：一文带你看看MindSpore2.0.0forWindowsGPU版。本文分享自华为云社区《MindSpore2.0.0forWindowsGPU泄漏版尝鲜》，作者：张辉。在看了MindSpore架构师王磊老师......
架构（domain层详解...）
架构理解：1、Repo数据源，Domain把数据源数据转换为界面使用的数据 domain层详解domain的概念，通常会分很多层，比如经典的三层架构，控制层、业务层、数据访问层（DA......
活动预告 | 2022 SACC 中国系统架构师大会
10月27日下午14:30-15:30，OpenMLDBPMC、第四范式资深体系架构科学家张浩，将在2022SACC中国系统架构师大会中为大家带来议题为《开源机器学习数据库OpenMLDB：线上线下一......
653 Bootstrap_全局cSS样式_按钮&图片 amd 654 Bootstrap_全局cSS样式2_表格&表单
CSS样式和JS插件Bootstrap_全局cSS样式_按钮&图片全局样式按钮：class="btnbtn-default"图片：1.class="img-responsive"：图片在任意尺寸都占100%......
记录一次实验室linux系统的GPU服务器死机排查过程——某显卡满负荷导致内核进程超时导
在自己没有管理多台高负荷的ubuntu显卡服务器之前，我是万万想不到linux服务器居然也是如此容易死机的。什么每个版本的TensorFlow调用显卡驱动时和内核不兼容，什么系统自动......
8-01-剖析业务架构与业务重构实践_ev
灰度上线：一个一个分别上线，例如先上线1占比相对较低 ......
mysql双主架构解决自增冲突
Mysql双主自增长冲突处理多主互备和主从复制有一些区别，因为多主中都可以对服务器有写权限，所以设计到自增长重复问题出现的问题（多主自增长ID重复） 1:首先我们通过A......
【分布式技术专题】「架构实践于案例分析」总结和盘点目前常用分布式事务特别及问题分
世界上解决一个计算机问题最简单的方法：“恰好”不需要解决它！分布式事务方案设计实际运用理论时进行架构设计时，许多人容易犯“手里有了锤子，看什么都觉得像钉子”的错误，设计方......

AMD GPU 硬件架构

AMD 5870 显卡 (cypress) 架构

我们现在看下 AMD GPU 硬件在 OpenCL 中的对应关系：

AMD GPU 的内存架构和 OpenCL 内存模型之间的对应关系：

相关文章

赞助商

阅读排行