首页 > 其他分享 >神经网络之卷积篇:详解为什么使用卷积?(Why convolutions?)

神经网络之卷积篇:详解为什么使用卷积?(Why convolutions?)

时间:2024-09-25 09:52:21浏览次数:7  
标签:卷积 检测器 特征 神经网络 参数 convolutions Why 图片

详解为什么使用卷积?

来分析一下卷积在神经网络中如此受用的原因,然后对如何整合这些卷积,如何通过一个标注过的训练集训练卷积神经网络做个简单概括。和只用全连接层相比,卷积层的两个主要优势在于参数共享和稀疏连接,举例说明一下。

假设有一张32×32×3维度的图片,假设用了6个大小为5×5的过滤器,输出维度为28×28×6。32×32×3=3072,28×28×6=4704。构建一个神经网络,其中一层含有3072个单元,下一层含有4074个单元,两层中的每个神经元彼此相连,然后计算权重矩阵,它等于4074×3072≈1400万,所以要训练的参数很多。虽然以现在的技术,可以用1400多万个参数来训练网络,因为这张32×32×3的图片非常小,训练这么多参数没有问题。如果这是一张1000×1000的图片,权重矩阵会变得非常大。看看这个卷积层的参数数量,每个过滤器都是5×5,一个过滤器有25个参数,再加上偏差参数,那么每个过滤器就有26个参数,一共有6个过滤器,所以参数共计156个,参数数量还是很少。

卷积网络映射这么少参数有两个原因:

一是参数共享。观察发现,特征检测如垂直边缘检测如果适用于图片的某个区域,那么它也可能适用于图片的其他区域。也就是说,如果用一个3×3的过滤器检测垂直边缘,那么图片的左上角区域,以及旁边的各个区域(左边矩阵中蓝色方框标记的部分)都可以使用这个3×3的过滤器。每个特征检测器以及输出都可以在输入图片的不同区域中使用同样的参数,以便提取垂直边缘或其它特征。它不仅适用于边缘特征这样的低阶特征,同样适用于高阶特征,例如提取脸上的眼睛,猫或者其他特征对象。即使减少参数个数,这9个参数同样能计算出16个输出。直观感觉是,一个特征检测器,如垂直边缘检测器用于检测图片左上角区域的特征,这个特征很可能也适用于图片的右下角区域。因此在计算图片左上角和右下角区域时,不需要添加其它特征检测器。假如有一个这样的数据集,其左上角和右下角可能有不同分布,也有可能稍有不同,但很相似,整张图片共享特征检测器,提取效果也很好。

第二个方法是使用稀疏连接,来解释下。这个0是通过3×3的卷积计算得到的,它只依赖于这个3×3的输入的单元格,右边这个输出单元(元素0)仅与36个输入特征中9个相连接。而且其它像素值都不会对输出产生任影响,这就是稀疏连接的概念。

再举一个例子,这个输出(右边矩阵中红色标记的元素 30)仅仅依赖于这9个特征(左边矩阵红色方框标记的区域),看上去只有这9个输入特征与输出相连接,其它像素对输出没有任何影响。

神经网络可以通过这两种机制减少参数,以便用更小的训练集来训练它,从而预防过度拟合。也可能听过,卷积神经网络善于捕捉平移不变。通过观察可以发现,向右移动两个像素,图片中的猫依然清晰可见,因为神经网络的卷积结构使得即使移动几个像素,这张图片依然具有非常相似的特征,应该属于同样的输出标记。实际上,用同一个过滤器生成各层中,图片的所有像素值,希望网络通过自动学习变得更加健壮,以便更好地取得所期望的平移不变属性。

这就是卷积或卷积网络在计算机视觉任务中表现良好的原因。

最后,把这些层整合起来,看看如何训练这些网络。比如要构建一个猫咪检测器,有下面这个标记训练集,\(x\)表示一张图片,\(\hat{y}\)是二进制标记或某个重要标记。选定了一个卷积神经网络,输入图片,增加卷积层和池化层,然后添加全连接层,最后输出一个softmax,即\(\hat{y}\)。卷积层和全连接层有不同的参数\(w\)和偏差\(b\),可以用任何参数集合来定义代价函数。一个类似于之前讲过的那种代价函数,并随机初始化其参数\(w\)和\(b\),代价函数\(J\)等于神经网络对整个训练集的预测的损失总和再除以\(m\)(即\(\text{Cost}\ J = \frac{1}{m}\sum_{i = 1}^{m}{L(\hat{y}^{(i)},y^{(i)})}\))。所以训练神经网络,要做的就是使用梯度下降法,或其它算法,例如Momentum梯度下降法,含RMSProp或其它因子的梯度下降来优化神经网络中所有参数,以减少代价函数\(J\)的值。通过上述操作可以构建一个高效的猫咪检测器或其它检测器。

标签:卷积,检测器,特征,神经网络,参数,convolutions,Why,图片
From: https://www.cnblogs.com/oten/p/18430685

相关文章

  • 日新月异 PyTorch - pytorch 基础: 通过卷积神经网络(Convolutional Neural Networks,
    源码https://github.com/webabcd/PytorchDemo作者webabcd日新月异PyTorch-pytorch基础:通过卷积神经网络(ConvolutionalNeuralNetworks,CNN)做图片分类-通过ResNet50做图片分类的学习(对cifar10数据集做训练和测试),保存训练后的模型,加载训练后的模型并评估指定的......
  • 论文速递!时序预测!DCSDNet:双卷积季节性分解网络,应用于天然气消费预测过程
    本期推文将介绍一种新的时序预测方法:双卷积季节性分解网络(DualConvolutionwithSeasonalDecompositionNetwork,DCSDNet)在天然气消费预测的应用,这项研究发表于《AppliedEnergy》期刊。针对天然气消费的多重季节性和非规律性,推荐的文献提出了一种新的预测方法:双卷积季节性分解......
  • 基于卷积神经网络的布料、布匹原料识别系统,resnet50,mobilenet模型【pytorch框架+pytho
       更多目标检测和图像分类识别项目可看我主页其他文章功能演示:基于卷积神经网络的布料、布匹原料识别系统,resnet50,mobilenet【pytorch框架,python,tkinter】_哔哩哔哩_bilibili(一)简介基于卷积神经网络的布料、布匹原料识别系统是在pytorch框架下实现的,这是一个完整的项目......
  • 《深度学习》卷积神经网络CNN 原理及其流程解析
    目录一、CNN图像原理1、了解图像的原理2、举例二、CNN图像识别1、画面不变性2、主要表现    1)平移不变性    2)尺度不变性    3)旋转不变性3、传统神经网络识别    1)数据预处理    2)特征提取    3)搭建神经网络模型......
  • 图卷积网络(GCN)与图注意力网络(GAT)基础实现及其应用
    创作不易,您的打赏、关注、点赞、收藏和转发是我坚持下去的动力!图卷积网络(GraphConvolutionalNetworks,GCN)是一种能够直接在图结构数据上进行操作的神经网络模型。它能够处理不规则的数据结构,捕获节点之间的依赖关系,广泛应用于社交网络分析、推荐系统、图像识别、化学分......
  • 学习011-01 Why We Recommend EF Core over XPO for New Development(为什么我们推荐在
    WhyWeRecommendEFCoreoverXPOforNewDevelopment(为什么我们推荐在新开发中使用EFCore而不是XPO)XAFsupportstwoObject-RelationalMappingtools:EntityFrameworkCoreandDevExpressXPO.Asyoumightexpect,weoftenreceivecomparisonrequestsfr......
  • 稀疏卷积理解【全新升级】
     简介:        参考网络的稀疏卷积讲解,自己重新做了演示动画来对稀疏卷积进行解释。话不多说,我们开始!!!    由于3D卷积太耗时间,故3D稀疏卷积被提出,下面以2维为例。数据准备阶段:        仅V0和V1有值,其余位置为空。V0(2,1),V1(3,2)    卷积核如下:......
  • 【语义分割】语义分割中的语义指的是什么?卷积神经网络中的特征指的是什么?什么是高级特
    【语义分割】语义分割中的语义指的是什么?卷积神经网络中的特征指的是什么?什么是高级特征?什么是低级特征?【语义分割】语义分割中的语义指的是什么?卷积神经网络中的特征指的是什么?什么是高级特征?什么是低级特征?文章目录【语义分割】语义分割中的语义指的是什么?卷积神经......
  • 卷积和转置卷积的输出尺寸计算
    卷积和转置卷积的输出尺寸计算卷积h'是输出的高,h是输入的高,k_h是卷积核的高w类似stride=1h'=h-k_h+padding*2+1通用公式stride=1就是上面的公式h'=(h-k_w+2*padding+stride)//stride一些常见的卷积高宽不变的卷积:kernel_size=3,padding=1,这......
  • Why Is Prompt Tuning for Vision-Language Models Robust to Noisy Labels?
    文章汇总本文的作者针对了提示学习的结构设计进行了分析,发现了一些规律:1)固定的类名令牌为模型的优化提供了强正则化,减少了由噪声样本引起的梯度。2)从多样化和通用的web数据中学习到的强大的预训练图像文本嵌入为图像分类提供了强大的先验知识。3)CLIP的噪声零样本预测......