LeNet-5是由Yann LeCun教授在1998年提出的,是一种经典的卷积神经网络(CNN),是现代卷积神经网络的起源之一。该网络最初被用于手写邮政编码的识别,并以其良好的学习和识别能力而著称。LeNet-5在深度学习领域,特别是在计算机视觉领域的发展中占据了重要地位。
LeNet-5的网络结构
LeNet-5网络结构相对简洁,但包含了卷积神经网络的基本组件。具体来说,LeNet-5由以下几个层次组成:
- 输入层:接收归一化大小的字符图像,通常图像大小为32x32像素。
- 卷积层(Convolutional Layer):
- C1层:这是第一个卷积层,使用6个5x5的卷积核对输入图像进行卷积操作,生成6个特征图(Feature Map),每个特征图的大小为28x28。
- C3层:这是第二个卷积层,它接收来自S2层的输出,并使用16个5x5的卷积核进行卷积操作,生成16个特征图,每个特征图的大小为10x10。
- C5层:这是一个特殊的卷积层,它使用120个5x5的卷积核对S4层的输出进行卷积,但由于S4层的大小与卷积核相同,因此C5层的输出为1x1x120,即一个120维的向量。
- 池化层(Pooling Layer):
- S2层:对C1层的特征图进行下采样(池化)操作,通常采用最大池化或平均池化,生成6个14x14的特征图。
- S4层:对C3层的特征图进行下采样操作,同样生成16个5x5的特征图。
- 全连接层(Fully Connected Layer):
- F6层:这是一个全连接层,有84个神经元,它将C5层的输出(120维向量)转换为一个84维的向量。
- 输出层:这是最后一个全连接层,也是输出层,它包含10个神经元(对应10个数字类别),使用softmax函数进行分类。
LeNet-5的特点
- 局部感受野:通过局部感受野机制,每个神经元只连接输入数据的一个局部区域,有助于提取图像的局部特征。
- 权值共享:同一特征图中的所有神经元共享相同的权值,这有助于网络检测图像中不同位置的相同特征。
- 下采样(池化):通过池化操作降低特征图的维度,减少计算量,并增强模型对形变的鲁棒性。
- 稀疏连接:层与层之间的稀疏连接减少了计算复杂度,使得网络更加高效。
LeNet-5的应用
LeNet-5最初被用于手写数字识别,特别是在MNIST数据集上取得了显著的效果。随着深度学习的发展,LeNet-5的结构被广泛应用于各种图像识别任务中,并成为卷积神经网络研究的基础之一。
总之,LeNet-5作为深度学习领域中的早期重要里程碑之一,其简洁而有效的结构为卷积神经网络的发展奠定了坚实的基础。
class LeNet5(nn.Module):
def __init__(self):
super().__init__()
self.conv1 = nn.Conv2d(1, 6, 5, padding=2)
self.pool1 = nn.AvgPool2d(2)
self.conv2 = nn.Conv2d(6, 16, 5)
self.pool2 = nn.AvgPool2d(2)
self.fc1 = nn.Linear(16 * 5 * 5, 120)
self.fc2 = nn.Linear(120, 84)
self.fc3 = nn.Linear(84, 10)
def forward(self, x):
x = torch.tanh(self.conv1(x))
x = self.pool1(x)
x = torch.tanh(self.conv2(x))
x = self.pool2(x)
x = x.view(-1, 16 * 5 * 5)
x = self.fc1(x)
x = self.fc2(x)
x = self.fc3(x)
return x
标签:nn,16,卷积,什么,特征,LeNet,self
From: https://blog.csdn.net/2301_79729084/article/details/141641271