从GPU的内存访问视角对比NHWC和NCHW

时间：2023-10-07 09:33:22浏览次数：91

标签：卷积 NCHW 矩阵变换 NHWC 内存 GPU

NHWC和NCHW是卷积神经网络(cnn)中广泛使用的数据格式。它们决定了多维数据，如图像、点云或特征图如何存储在内存中。

NHWC(样本数，高度，宽度，通道):这种格式存储数据通道在最后，是TensorFlow的默认格式。
NCHW(样本数，通道，高度，宽度):通道位于高度和宽度尺寸之前，经常与PyTorch一起使用。

NHWC和NCHW之间的选择会影响内存访问、计算效率吗？本文将从模型性能和硬件利用率来尝试说明这个问题。

卷积作为GEMM

GEneral Matrix to Matrix Multiplication (通用矩阵的矩阵乘法)

卷积可以使用基于变换的方法来实现，如快速傅立叶变换，它将卷积转换为频域的元素乘法，或者使用无变换的方法，如矩阵乘法，其中输入和滤波器（卷积核）被平面化并使用矩阵操作组合以计算输出特征映射。

但是：fft是内存密集型的，因为它们需要额外的内存来存储转换后的矩阵。并且fft的计算成本很高，特别是在时域和频域之间来回转换数据时，涉及操作开销。

而卷积运算的一般矩阵乘法是这样的。每个接受域按列堆叠，得到特征映射变换矩阵。同时还将滤波器矩阵逐行平摊和叠加，形成滤波器变换矩阵。滤波变换和特征映射变换矩阵经过矩阵乘法运算，形成扁平化的输出矩阵。这里的变换矩阵是一个中间矩阵，只是数值重排，与频域变换没有关系。

N -特征图的批量大小，C -输入通道，h -输入高度，W -输入宽度，

k -输出通道，r -滤波器高度，s -滤波器宽度，p -输出高度，q -输出宽度

特征映射变换矩阵和滤波变换矩阵被认为是中间矩阵，其维数大于特征映射本身。feature map的尺寸= C × H × W， (3x3x3) feature map transform的尺寸= CRS × NPQ (12x4)

https://avoid.overfit.cn/post/0b8715aa855045c693be2e9b20eb93ba

标签：卷积,NCHW,矩阵,变换,NHWC,内存,GPU
From： https://www.cnblogs.com/deephub/p/17745547.html

LLM实践-在Colab上使用免费T4 GPU进行Chinese-Llama-2-7b-4bit推理
一、配置环境1、打开colab，创建一个空白notebook，在[修改运行时环境]中选择15GB显存的T4GPU.2、pip安装依赖python包!pipinstall--upgradeaccelerate!pipinstallbitsandbytestransformers_stream_generator!pipinstalltransformers!pipinstallsentencepiece!pip......
在linux服务器上安装scvi后无法调用GPU
问题描述：WARNING-NoGPU/TPUfound,fallingbacktoCPU.(SetTF_CPP_MIN_LOG_LEVEL=0andrerunformoreinfo.) 解决方案：测试如下代码，如果为True则执行第二步。importtorchprint(torch.cuda.is_available())测试如下代码importjaxprint(jax.devices......
Unity性能优化-GPU Instancing
GPUInstancing是Unity的一种优化技术。使用GPUInstancing可以在一个DrawCall中同时渲染多个相同或类似的物体，从而减少CPU和GPU的开销。官方文档：https://docs.unity3d.com/Manual/GPUInstancing.html要启用GPUInstancing，我们可以选中一个材质，然后在Inspector窗口勾选Enable......
GPU创建聊天GPT
新建项目：然后上传代码压缩包。点击进入开发环境pipinstall-rChatGLM2-6B/requirements.txt-ihttps://pypi.virtaicloud.com/repository/pypi/simple加载模型pythonChatGLM2-6B/cli_demo.py......
服务器Docker搭建CUDA10.2+PaddleDetection2.4.2-GPU环境
1、容器建立由于目标服务器的显卡版本较老，CUDA只支持到10.2，所以需要选用老版本Docker镜像，百度网盘链接：https://pan.baidu.com/s/1GiQzWRypaeBNFWETWFAV-Q?pwd=5f12 使用命令将镜像启动为容器：dockerrun--namenvidia-cuda10.2-cudnn7-1-p9001:22-p9002:8002-v/work/nod......
问题：Opencv(3.1.0/3.4)找不到 /opencv2/gpu/gpu.hpp 问题
解决：Opencv(3.1.0/3.4/4.1.0)找不到/opencv2/gpu/gpu.hpp问题环境：系统：Win10环境：Opencv3.4.0/4.1.0显卡：1080ti问题Windows下使用opencv3.4.0/4.1.0调用包含GPU模块函数getCudaEnabledDeviceCount()的示例时提示找不到/opencv2/gpu/gpu.hpp。解决方式替换代码中引用的”......
Anaconda+GPU安装pytorch
今天搞了半天，才安装上，各种版本问题。最后安装成功：教程：2023最新pytorch安装教程，简单易懂，面向初学者（Anaconda+GPU）_时宇羽然的博客-CSDN博客......
PytorchGPU版本环境配置。Anconda + Pycharm。
2023年9月12日深度学习课程是基于Pytorch框架有的没的因为之前瞎搞，环境乱七八糟，这次DL课程最好装上GPU版本，那么就通过这次一次性弄个好吧！绝对不是因为，我之前不会弄。（是这样的）课程需要配置好环境。最后经过一段时间的瞎搞乱搞的调整，Pytorch-GPU版本成功安装好了。我是根据B......
检查torch是否是gpu版本
检查torch是否是gpu版本1.查看PyTorch版本：打开Python交互式环境，导入torch包，使用命令torch.__version__查看PyTorch版本，如果版本名称中包含“cuda”，则表示是GPU版本。例如，如果版本名称为“1.7.0+cu101”，则是支持CUDA10.1的GPU版本。2.查看torch.cuda：在Python交互式环境中......
使用GPU搭建支持玛雅（Maya）和Adobe AI,DW,PS的职校云计算机房
背景学校为职业学校，计算机教室需要进行Maya、Adobe Illustrator、AdobeDreamweaver、AdobePhotoShop等软件的教学。每个教室为35用户。资源需求为4核、8G内存、80G硬盘。基于桌面虚拟化VDI技术的机房在成本、可管理性方面，相对于传统胖终端的机房，具有独特的优势。不足之处是由......

从GPU的内存访问视角对比NHWC和NCHW

卷积作为GEMM

相关文章

赞助商

阅读排行