卷积神经网络（CNN）中的池化层（Pooling Layer）

池化层（Pooling Layer），也被称为下采样层，是深度学习神经网络中常用的一种层级结构。它通常紧跟在卷积层之后，对卷积层输出的特征图进行下采样操作。

一、定义与功能

池化层的主要作用是通过减少特征图的尺寸来降低计算量，并且可以提取出特征图的主要信息。它通常紧跟在卷积层之后，对卷积层输出的特征图进行下采样操作。下采样是一种减少数据维度的方法，可以有效地降低模型复杂度，提高模型的泛化能力。具体操作则是，基于局部相关性的思想，通过从局部相关的一组元素中进行采样或信息聚合，从而得到新的元素值。

CNN架构中一般要进行多次池化操作，以实现尺寸缩减功能。

图1 CNN架构中一般要进行多次池化操作

二、池化层的参数

池化层通常有以下几个参数：

池化窗口大小（kernel_size）：池化操作的窗口大小，决定了局部区域的范围。
步幅（stride）：窗口在特征图上滑动的步长，决定了输出特征图的尺寸。
填充（padding）：在特征图的边缘添加额外的像素，以控制池化后特征图的尺寸。

三、常见类型

池化层有多种类型，常见的包括最大池化（Max Pooling）、平均池化（Average Pooling）以及全局池化（Global Pooling）等。

1. 最大池化（Max Pooling）

最大池化，选择每个区域（池化层的感受野）中的最大值作为输出。这种方法可以保留输入数据中最显著的特征，同时减少计算量。

池化层的输入数据 $X$ 以5×5大小为例，考虑池化层感受野窗口大小 $k=2$ ，步长 $s=2$ 的情况，如图2。绿色虚线方框代表第一个感受野的位置，感受野元素集合为{1,-1,-1,-2}，在最大池化采样的方法下 ${x}'=max({1,-1,-1,-2})=1$ 。绿色实线方框代表第二个感受野的位置。

图2 最大池化第一步

同当逐渐移动感受野窗口至最右边，此时窗口已经到达输入边缘，按照卷积层同样的方式，感受野窗口向下移动一个步长，并回到行首，如图3：

图3 最大池化中间步骤

循环往复，直至最下方、最右边，获得最大池化层的输出，长宽为4×4，略小于输入 $X$ 的高宽，如图4：

图4 最大池化最后一步

通过精心设计池化层感受野的高宽 $k$ 和步长 $s$ 参数，可以实现各种降维运算。比如，一种常用的池化层设定是感受野大小 $k=2$ ，步长 $s=2$ ，这样可以实现输出只有输入高宽一半的目的。如下图，感受野 $k=3$ ，步长 $s=2$ ，输入 $X$ 高宽为4×4 ，输出 $O$ 高宽只有2×2。