首页 > 其他分享 >转载:【AI系统】推理参数

转载:【AI系统】推理参数

时间:2024-12-11 21:59:10浏览次数:6  
标签:AI 模型 times 卷积 浮点运算 转载 推理 out

本文将介绍 AI 模型网络参数方面的一些基本概念,以及硬件相关的性能指标,为后面让大家更了解模型轻量化做初步准备。值得让人思考的是,随着深度学习的发展,神经网络被广泛应用于各种领域,模型性能的提高同时也引入了巨大的参数量和计算量(如下图右所示),一般来说模型参数量越大,精度越高,性能越好(如下图左所示)。

但由于大部分的神经网络模型的参数量很大,无法满足直接部署到移动端的条件,因此在不严重影响模型性能的前提下对模型进行重新设计,来减少网络参数量和计算复杂度,提升运算能力是目前相当热门的研究方向。同时也希望在后续的文章中,让大家更了解模型轻量化的一些经典网络结构。

image

复杂度分析

模型参数量和计算量是两个重要的考量因素。模型参数量指的是模型中的参数数量,对应于数据结构中空间复杂度的概念。而计算量则对应于时间复杂度的概念,与网络执行时间的长短有关。

计算量和复杂度的衡量指标主要是 FLOPs(浮点运算次数),FLOPS(每秒所执行的浮点运算次数),MACCs(乘-加操作次数),Params(模型含有多少参数),MAC(内存访问代价),内存带宽(内存带宽),下面将对每个计算指标进行详细讲解。

FLOPs

FLOPs 是 floating point operations 的缩写(s 表复数),指浮点运算次数,可以用来衡量算法/模型的复杂度,表示计算量。论文中常用的还有 GFLOPs 和 TFLOPs。

FLOPS

每秒所执行的浮点运算次数(Floating-point Operations Per Second),理解为计算速度,是一个衡量硬件性能/模型速度的指标,即一个芯片的算力。

单位换算

  • 一个 MFLOPS(MegaFLOPS)等于每秒一百万($=10^{6}$)次浮点运算。

  • 一个 GFLOPS(GigaFLOPS)等于每秒十亿($=10^{9}$)次浮点运算。

  • 一个 TFLOPS(TeraFLOPS)等于每秒一万亿($=10^{12}$)次浮点运算。

  • 一个 PFLOPS(PetaFLOPS)等于每秒一千万亿($=10^{15}$)次浮点运算。

  • 一个 EFLOPS(ExaFLOPS)等于每秒一百京($=10^{18}$)次浮点运算。

  • 一个 ZFLOPS(ZettaFLOPS)等于每秒十万京($=10^{21}$)次浮点运算。

GFLOPS 就是 Giga FLoating-point Operations Per Second,即每秒 10 亿次浮点运算,常作为 GPU 性能参数但不一定代表 GPU 的实际表现,因为还要考虑具体如何拆分多边形和像素、以及纹理填充,理论上该数值越高越好。1GFLOPs = 1000MFLOPs。

MACCs

乘-加操作次数(Multiply-accumulate Operations),MACCs 大约是 FLOPs 的一半,将 $w*x+b$ 视为一个乘法累加或 1 个 MACC。

MAdds

MACs 全称 Multiply–Accumulate Operations,即乘加累积操作,1MACs 包含一个乘法操作与一个加法操作,大约包含 2FLOPs。通常 MACs 与 FLOPs 存在一个 2 倍的关系,而 MACs 和 MAdds 是同一个含义。
关于神经网络利用率

假设用一个简单的 CNN 网络做 forward 时,对于硬件资源的利用情况称之为利用率,所以利用率的计算简单描述为:

  • 计算网络的计算量,通常是乘累加的次数

  • 测量网络运行耗时

  • 乘累加次数除以耗时,计算该网络的 GFLOPS

  • 用计算的网络 GFLOPS 除以硬件资源的理论 GFLOPS,即利用率

Params

模型含有多少参数,直接决定模型的大小,也影响推断时对内存的占用量,单位通常为 M,通常参数用 float32 表示,所以模型大小是参数数量的 4 倍。

MAC

内存访问代价(Memory Access Cost),指的是输入单个样本,模型/卷积层完成一次前向传播所发生的内存交换总量,即模型的空间复杂度,单位是 Byte。

内存带宽

内存带宽决定了它将数据从内存(vRAM)移动到计算核心的速度,是比计算速度更具代表性的指标,内存带宽值取决于内存和计算核心之间数据传输速度,以及这两个部分之间总线中单独并行链路数量。

神经网络的计算量

网络前向计算时,卷积运算占据耗时 90%以上。重点关注下如何计算卷积的运算量。为简化问题,以下讨论认为:卷积采用滑动窗口且忽略非线性计算的开销。

假设对于 CNN 网络,有卷积层的参数包括:输入 feature map 的 Cin,宽 Hin,高 Win,输出 feature map 的 Cout,宽 Hout,高 Wout,卷积核的尺寸 K,卷积核通道等于 Cin,卷积核个数等于 Cout。

则该卷积核与 feature map 做卷积的运算量为:

$$
W_{out}=W_{in}/strie_{w},H_{out}=H_{in}/stride_{h}
$$

$$
FLOP_{s}=(KKC_{in}2+1)W_{out}H_{out}C_{out}
$$

其中的 1 表示偏置量。偏置值每个卷积核对应 1 个,共有 Cout 个。

典型结构对比

下面将会对神经网络模型的典型结构的参数进行对比,标注其参数计算方式。

标准卷积层

  • Params

模型参数量计算公式为:

$$
k_{h}\times k_{w}\times c_{in}\times c_{out}
$$

其中 $k_{h}$ 是卷积核的高度,$k_{w}$ 是卷积核的宽度; $c_{in}$ 是输入的通道数; $c_{out}$ 是输出的通道数

  • FLOPs

浮点运算数即计算量。可以用来衡量算法/模型的复杂度,公式如下:

$$
k_{h}\times k_{w}\times c_{in}\times c_{out}\times H \times W
$$

其中 $k_{h}$ 与 $k_{w}$ 分别为卷积核的高宽,$c_{in}$ 与 $c_{out}$ 分别是输入输出维度。

Group 卷积

  • Params

$$
(k_{h}\times k_{w}\times c_{in}/g\times c_{out}/g)\times g = k_{h}\times k_{w}\times c_{in}\times c_{out}/g
$$

  • FLOPs

$$
k_{h}\times k_{w}\times c_{in}\times c_{out}\times H \times W /g
$$

Depth-wise 卷积

  • Params

$$
k_{h}\times k_{w}\times c_{in}\times c_{out}/c_{in} = k_{h}\times k_{w}\times c_{out}
$$

  • FLOPs

$$
k_{h}\times k_{w}\times c_{out}\times H \times W
$$

全连接层 FC

  • Params
    $$
    c_{in}\times c_{out}
    $$

  • FLOPs

$$
c_{in}\times c_{out}
$$

其中 $c_{in}$ 与 $c_{out}$ 分别是输入输出维度。

如果您想了解更多AI知识,与AI专业人士交流,请立即访问昇腾社区官方网站https://www.hiascend.com/或者深入研读《AI系统:原理与架构》一书,这里汇聚了海量的AI学习资源和实践课程,为您的AI技术成长提供强劲动力。不仅如此,您还有机会投身于全国昇腾AI创新大赛和昇腾AI开发者创享日等盛事,发现AI世界的无限奥秘~
转载自:| https://www.cnblogs.com/ZOMI/articles/18560935 | header |
| ---------------------------------------------- | ------ |
| | |

标签:AI,模型,times,卷积,浮点运算,转载,推理,out
From: https://www.cnblogs.com/xueaigc/p/18600859

相关文章

  • 转载:【AI系统】推理引擎示例:AscendCL
    AscendCL作为华为Ascend系列AI处理器的软件开发框架,为用户提供了强大的编程支持。通过AscendCL,开发者可以更加高效地进行AI应用的开发和优化,从而加速AI技术在各个领域的应用和落地。AscendCL的易用性和高效性,使得它成为开发AI应用的重要工具之一。本文将介绍Ascend......
  • 转载:【AI系统】轻量级CNN模型综述
    神经网络模型被广泛的应用于工业领域,并取得了巨大成功。然而,由于存储空间以及算力的限制,大而复杂的神经网络模型是难以被应用的。首先由于模型过于庞大,计算参数多(如下图所示),面临内存不足的问题。其次某些场景要求低延迟,或者响应要快。所以,研究小而高效的CNN模型至关重要。本......
  • 转载:【AI系统】算子开发编程语言 Ascend C
    本文将深入探讨昇腾算子开发编程语言AscendC,这是一种专为昇腾AI处理器算子开发设计的编程语言,它原生支持C和C++标准规范,最大化匹配用户的开发习惯。AscendC通过多层接口抽象、自动并行计算、孪生调试等关键技术,极大提高算子开发效率,助力AI开发者低成本完成算子开发和模......
  • 转载:【AI系统】昇腾 AI 处理器
    本文将会介绍华为昇腾AI处理器的架构与卷积加速原理。昇腾AI处理器是华为基于达芬奇架构专为AI计算加速而设计的处理器,它支持云边端一体化的全栈全场景解决方案,具有高能效比和强大的3DCube矩阵计算单元,支持多种计算模式和混合精度计算。昇腾AI处理器的架构包括了AICor......
  • 转载:【AI系统】Ascend C 编程范式
    AI的发展日新月异,AI系统相关软件的更新迭代也是应接不暇,作为一篇讲授理论的文章,我们将尽可能地讨论编程范式背后的原理和思考,而少体现代码实现,以期让读者理解AscendC为何这样设计,进而随时轻松理解最新的AscendC算子的编写思路。本文将针对AscendC的编程范式进行详细讲......
  • 转载:【AI系统】昇腾 AI 架构介绍
    昇腾计算的基础软硬件是产业的核心,也是AI计算能力的来源。华为,作为昇腾计算产业生态的一员,是基础软硬件系统的核心贡献者。昇腾计算软硬件包括硬件系统、基础软件和应用使能等。而本文介绍的AI系统整体架构(如图所示),则是对应与昇腾AI产业的全栈架构较为相似。因此这里以昇腾......
  • 转载:【AI系统】Ascend C 语法扩展
    AscendC的本质构成其实是标准C++加上一组扩展的语法和API。本文首先对AscendC的基础语法扩展进行简要介绍,随后讨论AscendC的两种API——基础API和高阶API。接下来针对AscendC的几种关键编程对象——数据存储、任务间通信与同步,资源管理以及临时变量进行详细解读......
  • 转载:【AI系统】芯片的编程体系
    本篇幅主要探讨SIMD和SIMT的主要区别与联系,SIMT与CUDA编程之间的关系,并且会讨论GPU在SIMT编程本质,SIMD、SIMT与DSA架构,DSA架构的主要形态。目前已经有大量的AI芯片研发上市,但是如何开发基于硬件的编译栈与编程体系,让开发者更好地使用AI芯片,更好的发挥AI芯片......
  • 转载:【AI系统】昇腾数据布局转换
    NHWC的数据排布方式更适合多核CPU运算,NCHW的数据排布方式更适合GPU并行运算。那么接下来让我们了解一下在华为昇腾的NPU中,这种特征图的存储方式。截止到2024年,华为昇腾在私有格式的数据处理和特殊的数据形态越来越少,主要是得益于AI编译器和软件的迭代升级,更加合理......
  • 转载:【AI系统】推理系统介绍
    推理系统是一个专门用于部署神经网络模型,执行推理预测任务的AI系统。它类似于传统的Web服务或移动端应用系统,但专注于AI模型的部署与运行。通过推理系统,可以将神经网络模型部署到云端或者边缘端,并服务和处理用户的请求。因此,推理系统也需要应对模型部署和服务生命周期中遇到......