首页 > 编程语言 >转载:【AI系统】Winograd 算法

转载:【AI系统】Winograd 算法

时间:2024-12-12 09:59:25浏览次数:4  
标签:end AI 矩阵 Winograd times 卷积 算法 bmatrix

在上一篇文章的介绍中,介绍了 Im2Col 技术,它通过将三维张量重新排列成矩阵形式,然后利用基于内存访问局部性的优化库如 GEMM(通用矩阵乘法库)加速计算。随后,还探讨了空间组合优化,这一种利用局部性原理来提升效率的技术。

在本文将重点介绍 Winograd 优化算法,它是矩阵乘优化方法中 Coppersmith–Winograd 算法的一种应用,按照 Winograd 算法的原理将卷积的运算进行转换,从而减少卷积运算中乘法的计算总量。其主要是通过将卷积中的乘法使用加法来替换,并把一部分替换出来的加法放到卷积权重的提前处理阶段中,从而实现卷积计算的加速。Winograd 算法的优化局限于一些特定的常用卷积参数,这限制了其在更广泛场景下的应用。尽管存在这些局限性,Winograd 算法仍然是深度学习领域中的重要优化手段之一,对于提高卷积神经网络运行效率具有显著作用。

Winograd 算法原理

Winograd 算法最早是 1980 年由 Shmuel Winograd 提出的《Arithmetic complexity of computations》,当时并没有引起太大的轰动。在 CVPR 2016 会议上,Lavin 等人在《Fast algorithms for convolutional neural networks》中提出了利用 Winograd 加速卷积运算,于是 Winograd 加速卷积在算法圈里火了起来,并从此 Winograd 算法在包括 Mindspore Lite,MMN 等推理引擎中被广泛应用。

那 Winograd 为什么能加速卷积运算呢?简单来说就是用更多的加法计算来减少乘法计算,从而降低计算量,接下来就进一步了解如何使用 Winograd 加速卷积运算。

加速一维卷积计算

以一维卷积 $F(2,3)$ 为例,假设输入信号为 $d=[d_0,d_1,d_2,d_3]^T$,卷积核为 $g=[g_0,g_1,g_2]^T$,则整个卷积过程可以转换为如下的矩阵乘形式:

$$
\begin{align}
F(2,3) = \begin{bmatrix}
d_0 & d_1 & d_2\
d_1 & d_2 & d_3
\end{bmatrix}
\begin{bmatrix}
g_0 \
g_1 \
g_2
\end{bmatrix}
= \begin{bmatrix}
r_0 \
r_1
\end{bmatrix}
\end{align}
$$

如果是使用一般的矩阵乘法进行计算,则如下式所示,会进行 6 次乘法操作与 4 次加法操作。

$$
\begin{align}
r_0 & = d_0 \times g_0 + d_1 \times g_1 + d_2 \times g_2\
r_1 & = d_1 \times g_0 + d_2 \times g_1 + d_3 \times g_2
\end{align}
$$

具体的过程可以由下图了解到,在卷积的计算过程中,由于在卷积层的设计中,往往卷积的步幅(Stride)的大小会小于卷积核的大小,所以最后转换的矩阵乘中往往有规律的分布着大量重复元素,比如这个一维卷积例子中矩阵乘输入矩阵第一行的 $d_1$、$d_2$ 和第二行中的 $d_1$、$d_2$,卷积转换成的矩阵乘法比一般矩阵乘法的问题域更小,这就让优化存在了可能。

image

在 Winograd 算法中则是通过增加加法操作来减少乘法操作从而实现计算加速,具体操作如下式所示:

$$
\begin{align}
F(2,3) = \begin{bmatrix}
d_0 & d_1 & d_2\
d_1 & d_2 & d_3
\end{bmatrix}
\begin{bmatrix}
g_0 \
g_1 \
g_2
\end{bmatrix}
= \begin{bmatrix}
m_1 + m_2 + m_3 \
m_2 - m_3 - m_4
\end{bmatrix}
\end{align}
$$

其中,$m_1=(d_0-d_2)g_0$,$m_2=(d_1+d_2)\frac{g_0+g_1+g_2}{2}$,$m_3=(d_2-d_1)\frac{g_0-g_1+g_2}{2}$,$m_4=(d_1-d_3)g_2$。

因为在推理阶段卷积核上的元素是固定的,所以上式 $m_1$,$m_2$,$m_3$,$m_4$ 的式子中和 $g$ 相关的式子可以提前计算好,在预测阶段只需要计算一次,因此计算次数可以忽略。而在计算 $m_1$,$m_2$,$m_3$,$m_4$ 需要通过 4 次乘法操作与 4 次加法操作,然后基于计算好的 $m_1$,$m_2$,$m_3$,$m_4$ 的值,需要通过使用 4 次加法操作得到结果,所以这里一共需要 4 次乘法操作和 8 次加法操作。由于乘法操作比加法操作消耗的时间多,因此 Winograd 的 4 次乘法和 8 次加法是要比一般的矩阵乘法的 6 次乘法和 4 次加法要快的。

而 Winograd 加速卷积计算的具体推导过程如下,由上面的式子可以得知:

$$
\begin{align}
m_1 + m_2 + m_3 &= d_0 \times g_0 + d_1 \times g_1 + d_2 \times g_2\
m_2 - m_3 - m_4 &= d_1 \times g_0 + d_2 \times g_1 + d_3 \times g_2
\end{align}
$$

其中,因为 $m_1$ 与 $m_4$ 没有重复出现,所以令 $m_1 = d_0 \times g_0$,$m_4 = -d_3 \times g_2$,这样就可以约掉 $m_1$ 和 $m_4$,所以左边的式子只剩下两个变量,两个等式两个变量即可求出 $m_2$ 与 $m_3$,在这个时候的 $m_1$、$m_2$、$m_3$、$m_4$ 是这样的:

$$
\begin{align}
m_1 &= d_0 \times g_0\
m_2 &= \frac{g_1d_1 + g_2d_2 + g_0d_1 + g_1d_2}{2} \
m_3 &= \frac{g_1d_1 + g_2d_2 - g_0d_1 - g_1d_2}{2} \
m_4 &= -d_3 \times g_2\
\end{align
}
$$

$m_2$ 中包含了 $d_1$、$d_2$、$g_0$、$g_1$、$g_2$,将这个式子转换为两个多项式乘积的形式,也即拆成 $d$ 和 $g$ 分开的形式,如下:

$$
\begin{align}
m_2 = \frac{(d_1 + d_2)(g_0 + g_1 + g_2)}{2} - \frac{d_2g_0}{2} - \frac{d_1g_2}{2}
\end{align
}
$$

同理,也对 $m_3$ 进行转换得:

$$
\begin{align}
m_3 = \frac{(d_2 - d_1)(g_0 - g_1 + g_2)}{2} - \frac{d_2g_0}{2} + \frac{d_1g_2}{2}
\end{align
}
$$

由最初的(5)(6)式与上式可以得知,如果同时在 $m_2$ 与 $m_3$ 上同时加上一个值,对于式 (6) 来说整个式子是不变的,同时 $m_4$ 的值没有改变,而对于式 (5) 来说需要减去两倍的这个值才能保持整个式子不变。因此,当这个值为 $\frac{d_2 g_0}{2}$ 时可以简化表达式,通过这样的方式给上面的等式进行等价变换后得到的 $m_1$、$m_2$、$m_3$、$m_4$ 如下:

$$
\begin{align}
m_1 &= g_0(d_0 - d_2)\
m_2 &= \frac{(d_1 + d_2)(g_0 + g_1 + g_2)}{2} - \frac{d_1g_2}{2} \
m_3 &= \frac{(d_2 - d_1)(g_0 - g_1 + g_2)}{2} + \frac{d_1g_2}{2} \
m_4 &= -d_3 \times g_2\
\end{align
}
$$

同理,如果给 $m_2$ 加上一个值,同时给 $m_3$ 减去这个值,那么对于式 (5) 来说整个式子是不变的,并且 $m_1$ 的值没有改变,对于式 (6) 来说需要给 m4 需要减去两倍的这个值才能保持整个式子不变。因此,当这个值为 $\frac{d_1 g_2}{2}$ 时可以简化表达式,通过这样的方式给上面的等式进行等价变换后得到的 $m_1$、$m_2$、$m_3$、$m_4$ 如下:

$$
\begin{align}
m_1 &= g_0(d_0 - d_2)\
m_2 &= \frac{(d_1 + d_2)(g_0 + g_1 + g_2)}{2} \
m_3 &= \frac{(d_2 - d_1)(g_0 - g_1 + g_2)}{2} \
m_4 &= g_2(d_1-d_3)\
\end{align
}
$$

将上面的计算过程写成矩阵的形式如下:

$$
\begin{align}
Y = A^T[(Gg)\odot (B^Td)]
\end{align}
$$

其中,

  • $\odot$ 表示 element-wise multiplication(Hadamard product),即对应位置相乘操作;
  • $g$ 表示卷积核;$d$ 表示输入特征图(输入信号);
  • $G$ 表示卷积核变换矩阵,尺寸为 $(u+k-1) \times k$;
  • $B^T$ 表示输入变换矩阵,尺寸为 $(u+k-1)\times (u+k-1)$;
  • $A^T$ 表示输出变换矩阵,尺寸为 $(u+k-1) \times u$;
  • $u$ 表示输出尺寸,$k$ 表示卷积核尺寸,$u+k-1$ 表示输入尺寸。

式子中各个矩阵具体的值如下:

$$
\begin{align}
& B^T=\begin{bmatrix}
1 & 0 & -1 & 0 \
0 & 1 & 1 & 0 \
0 & -1 & 1 & 0 \
0 & 1 & 0 & -1
\end{bmatrix} \qquad
G=\begin{bmatrix}
1 & 0 & 0 \
\frac{1}{2} & \frac{1}{2} & \frac{1}{2} \
\frac{1}{2} & -\frac{1}{2} & \frac{1}{2} \
0 & 0 & 1 \
\end{bmatrix} \qquad
A^T = \begin{bmatrix}
1 & 1 & 1 & 0 \
0 & 1 & -1 & -1 \
\end{bmatrix} \
& g = \begin{bmatrix}
& g_0 & g_1 & g_2
\end{bmatrix}^T \qquad \qquad
d = \begin{bmatrix}
d_0 & d_1 & d_2 & d_3
\end{bmatrix}^T
\end{align
}
$$

加速二维卷积计算

将一维卷积 $F(2,3)$ 的变换扩展到二维卷积 $F(2 \times 2, 3 \times 3)$,同样用矩阵形式表示为:

$$
\begin{align}
Y = AT[[GgGT]\odot[B^TdB]]A
\end{align}
$$

其中,$g$ 为 $r \times r$ 的卷积核,$d$ 为 $(m + r -1) \times (m + r -1)$ 的图像块.

对于二维卷积,可以先将卷积过程使用 img2col 进行展开,将卷积核的元素拉成了一列,将输入信号每个滑动窗口中的元素拉成了一行,变成如下的矩阵乘的形式:

$$
\begin{align}
\begin{bmatrix}
k_{0} & k_{1} & k_{2} & k_{4} & k_{5} & k_{6} & k_{8} & k_{9} & k_{10} \
k_{1} & k_{2} & k_{3} & k_{5} & k_{6} & k_{7} & k_{9} & k_{10} & k_{11} \
k_{4} & k_{5} & k_{6} & k_{8} & k_{9} & k_{10} & k_{12} & k_{13} & k_{14} \
k_{5} & k_{6} & k_{7} & k_{9} & k_{10} & k_{11} & k_{13} & k_{14} & k_{15} \
\end{bmatrix}\begin{bmatrix}
w_0\
w_1\
w_2\
w_3\
w_4\
w_5\
w_6\
w_7\
w_8\
\end{bmatrix}=\begin{bmatrix}
r_0\
r_1\
r_2\
r_3
\end{bmatrix}
\end{align
}
$$

然后,将上述的矩阵乘的形式进行如下图的分块:

image

即可以表示成如下类似于前文中 Winograd 加速一维卷积计算形式:

$$
\begin{align}
F(2 \times 2, 3 \times 3)=\begin{bmatrix}
d_0 & d_1 & d_2\
d_1 & d_2 & d_3
\end{bmatrix}
\begin{bmatrix}
g_0 \
g_1 \
g_2
\end{bmatrix}
= \begin{bmatrix}
r_0 \
r_1
\end{bmatrix}
\end{align
}
$$

当然,变成了这样的形式就可以使用前文的推导方法,推导到出式(8)中的 Winograd 加速二维卷积计算的矩阵形式。

Winograd 实现步骤

基于上文的介绍,Winograd 算法的实现可以细分为四个主要步骤:

  1. 对输入卷积核的变换:$

    标签:end,AI,矩阵,Winograd,times,卷积,算法,bmatrix
    From: https://www.cnblogs.com/xueaigc/p/18601645

相关文章

  • 探索OpenAI功能工具检索代理:动态选择工具的新方式
    探索OpenAI功能工具检索代理:动态选择工具的新方式在AI工具集不断扩展的时代,如何有效管理和选择合适的工具来解决特定的任务成为了一个关键问题。本文将介绍一种创新的解决方案:使用OpenAI功能工具检索代理来动态选择工具。这一方法特别适合拥有大量工具集的情况,可以帮助开发......
  • 【YashanDB知识库】YAS-00218 string conversion failed.
    【问题分类】数据导入导出【关键字】imp、YAS-00218stringconversionfailed【问题描述】使用imp导入dump文件报错YAS-00218stringconversionfailed【问题原因分析】首先使用showparametercharacter查看数据库服务端字符集使用折半查找的方法确定数据导入具体报错的某......
  • 转载:【AI系统】模型转换流程
    用户在使用AI框架时,可能会遇到训练环境和部署环境不匹配的情况,比如用户用Caffe训练好了一个图像识别的模型,但是生产环境是使用TensorFlow做预测。因此就需要将使用不同训练框架训练出来的模型相互联系起来,使用户可以进行快速的转换。模型转换主要有直接转换和规范式转换两......
  • 转载:【AI系统】自定义计算图 IR
    模型转换涉及对模型的结构和参数进行重新表示。在进行模型转换时,通常需要理解模型的计算图结构,并根据目标格式的要求对其进行调整和转换,可能包括添加、删除或修改节点、边等操作,以确保转换后的计算图能够正确地表示模型的计算流程。本文主要介绍自定义计算图的方法以及模型转换的......
  • 转载:【AI系统】Kernel 层架构
    推理引擎的Kernel层通常是推理引擎中用于执行底层数学运算的组件。在神经网络模型推理过程中,需要对大量数据进行高效的数学运算,如矩阵乘法、卷积、池化等。Kernel层就是实现这些运算的核心部分,它直接影响着推理引擎的速度和效率,因此本文将会重点介绍Kernel层相关的内容。Ker......
  • 转载:【AI系统】计算图的优化策略
    除了前面提到的算子替换和算子前移等内容,本文内容将深入探讨计算图的优化策略,我们将细致分析图优化的其他重要内容,如改变数据节点的数据类型或存储格式来提升模型性能,以及优化数据的存储和访问方式以降低内存占用和数据访问时间。以上内容的理解和掌握,对于高效利用计算资源,提升算......
  • 转载:【AI系统】Im2Col 算法
    作为早期的AI框架,Caffe中卷积的实现采用的是基于Im2Col的方法,至今仍是卷积重要的优化方法之一。从上一篇文章的介绍中可以看到,在CNN中卷积直接计算的定义中,卷积核在输入图片上滑动,对应位置的元素相乘后相加求和,滑窗的大小由卷积核决定。由于滑动操作时的窗口的数据横向是......
  • 【YashanDB知识库】exp导出csv报错YAS-00218 string conversion failed
    【问题分类】数据导入导出【关键字】YAS-00218stringconversionfailed【问题描述】使用exp导出成csv报错YAS-00218stringconversionfailed【问题原因分析】首先使用showparametercharacter查看数据库服务端字符集,发现服务端字符集为GBK然后在文件$YASDB_HOME/client/......
  • 转载:【AI系统】卷积操作原理
    卷积是神经网络里面的核心计算之一,它是一种特殊的线性运算。而卷积神经网络(CNN)是针对图像领域任务提出的神经网络,其受猫的视觉系统启发,堆叠使用卷积层和池化层提取特征。它在CV领域方面的突破性进展引领了深度学习的热潮。回到卷积本身,其变种丰富、计算复杂,神经网络运行时大部......
  • 转载:【AI系统】ShuffleNet 系列
    本文会介绍ShuffleNet系列,重点在于其模型结构的轻量化设计,涉及如何降低深度网络计算量,在本文中会着重会讲解逐点分组卷积(PointwiseGroupConvolution)和通道混洗(ChannelShuffle)两种新的运算,而V2版本则会从设备运算速度方面考虑将网络进行轻量化。ShuffleNetV1模型Shu......