首页 > 其他分享 >Convolutional Neural Networks(CNN)

Convolutional Neural Networks(CNN)

时间:2023-10-11 13:59:14浏览次数:35  
标签:Convolutional 输出 运算 卷积 矩阵 CNN Networks 输入 通道

数学基础

卷积

卷积这一概念从最原始来说属于一种数学的运算方法,两个数列进行卷积,是指将一个数列翻转后,从另一个数列最左侧开始滑动求和
来到计算机科学中,由于卷积核往往采用对称矩阵,所以翻转这一动作实际就可以忽略掉了。通过卷积核中数据的不同排列,实现提取出输入图片中的特定特征。

训练 + 预测

目前理解的是,预测仅需要实现正向传播那一堆层,得到预测概率
训练需要在实现正向传播基础上,得到预测概率后经过反向传播不断修正模型,所以难点在于反向传播

对于训练来说,需要考虑通过何种方法能够得到何时的卷积核
但对于预测来说,应当是建立在模型训练好的基础之上的,即已经获取到了模型参数(这个参数包含什么?)
我们需要知道采用何种卷积核,网络结构如何设置,难道这些数据都包含在训练好的模型提供的参数中了吗

神经网络中采用的各种参数究竟取多少,是期望使用神经网络预测物品的类型决定的,在训练过程中,反向传播帮助确定了各参数的值

卷积神经网络的层次划分

输入层,卷积层,激活层,池化层,全连接层,输出层

卷积层、池化层,全连接层被称为隐含层

输入层

输入层的作用是将输入数据送入卷积神经网络进行特征提取,然后获得我们想要的结果

卷积层(Convolutional Layer)

卷积层对输入数据进行特征提取,通过卷积核矩阵对原始数据中隐含关联性进行抽象

  • 局部连接(有助于减少参数量)
  • 权值共享

运算所用的数组 <=> 过滤器(filter)<=> 神经元(neuron) <=> 核(kernel)
卷积核每次覆盖的区域 <=> 感受野(receptive field)
卷积运算 <=> 卷积核在输入数据上的移动,过滤器中的值会与图像中的原始像素值相乘(又称为计算点积)的过程
卷积运算得到的数组 <=> 激活映射(activation map)或特征映射(feature map)

提取特征不过是用一些特殊的数组来同输入数据进行相乘,得到一个输出矩阵。不同的过滤器能够提取出原始图像中的不同特征,通过叠加多层过滤器,能够得到较为高级的激活映射

涉及到的参数

  1. 滤波器尺寸
  2. 步幅(stride)
  3. 填充(padding)
    每一次卷积,都会使得数据规模缩小,在网络的早期层中,我们想要尽可能多地保留原始输入内容的信息(减慢数据规模缩小的速度),这样我们就能提取出那些低层的特征。
    通过填充实现这一点,零填充在输入内容的边界周围补充零。

一个卷积层所需的过滤器的数量应当和图片通道数相等,若处理的是灰度图,仅有一个通道,所以一个卷积层仅需要一个过滤器,如果处理的是RGB图,一个卷积层就需要3个过滤器

激活层(非线形层)

卷积操作是把输入图像和卷积核进行相应的线性变换,引入激活层 (非线性函数) 对其进行非线性映射。
激活函数的意义在与两点:1.把数据限制在一定范围内 2.加入非线性因素,避免线性模型的表达力不足问题

常见激活函数

  • sigmoid
  • Tanh(双曲正切)
  • ReLU(Rectified Linear Unit)

池化层(pooling layer)(汇聚层 / 子采样层 / 下采样(downsampling)层)

将特征图下采用,作用是对感受域内的特征进行筛选,提取区域内最具代表性的特征,能够有效地降低输出特征尺度,进而减少模型所需要的参数量

常见类型

  • 最大池化:提取感受域内最大的特征值作为输出
    用不重叠的矩形框将输入层分成不同的区域,对于每个矩形框的数取最大值作为输出层

  • 平均池化:提取感受域内平均特征值作为输出

  • 求和池化:提取感受域内特征值总和作为输出

全连接层

将多维的特征输入映射为二维的特征输出

这一层处理输入内容(该输入可能是卷积层、ReLU 层或是池化层的输出)后会输出一个 N 维向量,N 是该程序必须选择的分类数量。例如,如果你想得到一个数字分类程序,如果有 10 个数字,N 就等于 10。这个 N 维向量中的每一数字都代表某一特定类别的概率。例如,如果某一数字分类程序的结果矢量是 [0 .1 .1 .75 0 0 0 0 0 .05],则代表该图片有 10% 的概率是 1、10% 的概率是 2、75% 的概率是 3、还有 5% 的概率是 9(注:还有其他表现输出的方式,这里只展示了 softmax 的方法)

它通过将卷积层的特征进行合并或者取样,提取出其中的具有区分性的特征,从而达到分类的目的。

反向传播

反向传播可分为四部分,分别是前向传导、损失函数、后向传导,以及权重更新。

一个模型是如何进行训练的
初始状态下,权重或过滤器值都是随机的。滤波器不知道要去寻找边缘和曲线。更高层的过滤器值也不知道要去寻找爪子和鸟喙。
在第一个训练样例上,由于所有的权重或者过滤器值都是随机初始化的,输出可能会是 [.1 .1 .1 .1 .1 .1 .1 .1 .1 .1],即一个不偏向任何数字的输出。一个有着这样权重的网络无法寻找低级特征,或者说是不能做出任何合理的分类。
误差的计算只需要选择一个误差计算函数,例如均方误差
然后梯度下降,调整参数

典型的卷积神经网络模型

LeNet-5

需要注意的是,在上图中从始至终我们处理的都只是一个输入,至于中间的多个feature map,那实际属于下一个环节的一个输入的多个通道,并不会在后续操作中就变为了多个输入(这一点理解会影响后续参数计算)

输出参数行数

bias weight
conv1 6 150
conv2 16 2400
fc1 120 30720
fc2 84 10080
fc3 10 840

在考虑以上参数都是如何计算得来之前,需要首先明确一下通道的概念
输入图片和卷积核都有4个属性:长度,宽度,通道数,个数
假设有一个28*28的RGB图片,它的长度是28,宽度是28,通道数是3,个数是1
一个能和该图片进行运算的卷积核,通道数必须也是3,对应通道的矩阵进行卷积运算,会得到3个矩阵,相加再加上一个bias矩阵得到输出

输入层通道数 = 卷积核通道数
卷积核个数 = 输出层通道数

实际从pytorch的函数参数也可以看出,在定义卷积层时,只需要提供输入通道数和输出通道数,给定输入通道数,就能够确定卷积核的通道数;给定输出通道数,就能够确定卷积核的个数

  1. 对于一个多通道输入和一个卷积核卷积,计算方法为,对应通道进行卷积,再把所有通道的卷积结果求和,这样得到的是一个单通道输出
    eg:一个(5,5,3)输入,一个卷积核(3,3,3),卷积结果是(5,5,1)
    假设用k表示通道数,实际的运算公式为
    input_k1 卷积 kernel_k1 +
    input_k2 卷积 kernel_k2 +
    input_k3 卷积 kernel_k3
    = output

  1. 对于一个多通道输入和多个卷积核卷积,过程只不过是有几个卷积核,就进行几次“一个多通道输入和一个卷积核卷积”过程,
    和单个卷积核进行卷积得到一个单通道输出,因此有几个卷积核最终就可获得几通道输出

对于多个多通道输入,也只能是重复上述1和2的过程,完成多个“一个多通道输入和一个或多个卷积核卷积”过程
因为卷积操作只能接受单个输入和单个卷积核

激活层采用Relu 和 池化层采用最大池化 都是采用固定的模式,因此并不需要参数

  1. conv1:
    输入通道为1,输出通道为6,卷积核的尺寸定为了55
    输入通道数为1决定了卷积核的通道数为1,输出通道数为6决定了一共需要6个卷积核,即6个5
    51个卷积核
    一个卷积核包含权重5
    51=25个,6个卷积核一共255=150个weight
    偏移量的运算逻辑是,权重矩阵进行运算时,感受野内的数据和卷积核内的对应位置的数据计算乘积和,得到一个数据,需要把这个数据加上当前卷积核对应的偏移量。因此6个卷积核一共需要6个偏移量,即6个bias
    所以conv1一共包含156个参数

2.conv2
in_channel = 6, out_channel = 16, 卷积核的尺寸定为 5 * 5
in_channel -> 卷积核in_channel = 6, out_channel -> 卷积核个数 = 16
一个卷积核包含权重556=150个,16个卷积核一共150*16=2400个weight
16个卷积核一共需要16个偏移量,即16个bias
所以conv2一共包含2416个参数

  1. fc1
    fc1对应着从S4到C5进行的第1次线性运算,实际效果是把一个1256的矩阵,通过矩阵乘法变为了1120的矩阵
    weight实际是一个120256(展开后一共30720个元素)的矩阵,bias是一个1120的矩阵
    运算过程为weight * S4 + bias = C5

  2. fc2
    fc1对应着从C5到F6进行的第2次线性运算,实际效果是把一个1120的矩阵,通过矩阵乘法变为了184的矩阵
    weight实际是一个84120(展开后一共10080个元素)的矩阵,bias是一个184的矩阵
    运算过程为weight * C5 + bias =F6

  3. fc3
    fc1对应着从F6到output进行的第3次线性运算,实际效果是把一个184的矩阵,通过矩阵乘法变为了110的矩阵
    weight实际是一个1084(展开后一共840个元素)的矩阵,bias是一个110的矩阵
    运算过程为weight * F6 + bias = output

全连接和高斯连接,从给出的利用pytorch代码来看,区别在于全连接在一个线性运算后,会跟一个激活函数,高斯连接仅做一个线性运算

具体实现

PyTorch torch.nn

torch.nn是一个专门为神经网络设计的模块化接口,包含了神经网络中涉及到的各种模块
可以借助它实现自定义的网络,例如 LeNet-5

Reference

标签:Convolutional,输出,运算,卷积,矩阵,CNN,Networks,输入,通道
From: https://www.cnblogs.com/hongyugao/p/17752593.html

相关文章

  • Astronomaly:利用 CNN 和主动学习识别 400 万张星系图像中的异常
    星系中的异常现象是我们了解宇宙的关键。然而,随着天文观测技术的发展,天文数据正以指数级别增长,超出了天文工作者的分析能力。尽管志愿者可以在线上参与对天文数据的处理,但他们只能进行一些简单的分类,还可能会遗漏一些关键数据。为此,研究者基于卷积神经网络和无监督学习开发了As......
  • TextRCNN、TextCNN、RNN…你都掌握了吗?一文总结文本分类必备经典模型(一)
     本专栏将逐一盘点自然语言处理、计算机视觉等领域下的常见任务,并对在这些任务上取得过SOTA的经典模型逐一详解。前往SOTA!模型资源站(sota.jiqizhixin.com)即可获取本文中包含的模型实现代码、预训练模型及API等资源。本文将分3期进行连载,共介绍 20 个在文本分类任务上......
  • TextCNN、DCNN、AttentionXML…你都掌握了吗?一文总结文本分类必备经典模型(二)
    https://mp.weixin.qq.com/s/f5SkoWD4BY_HDWfPi5R5ng 本专栏将逐一盘点自然语言处理、计算机视觉等领域下的常见任务,并对在这些任务上取得过SOTA的经典模型逐一详解。前往SOTA!模型资源站(sota.jiqizhixin.com)即可获取本文中包含的模型实现代码、预训练模型及API等资源。本......
  • 14 构建CNN(一)
    importnumpyasnpimporth5pyimportmatplotlib.pyplotasplt%matplotlibinlineplt.rcParams['figure.figsize']=(5.0,4.0)plt.rcParams['image.interpolation']='nearest'plt.rcParams['image.cmap']='gray......
  • RCNN、FastRCNN、FasterRCNN、Mask-RCNN的发展历程
    FasterR-CNN的发展史SelectiveSearch(2012)RCNN(2014)SPPNet(2014)FastR-CNN(2015)FasterR-CNN(2015)总结补充:MaskRCNN7.1、FPN7.2、RPN7.3、ProposalLayer层7.4、DetectionTarget层(预测框匹配groundTrue)7.5、ROIAlign    8.补充:历年主流网络型对比、常用......
  • CNN -- Simple Residual Network
    Smiling&Weeping ----我爱你,从这里一直到月亮,再绕回来说明:1.要解决的问题:梯度消失2.跳连接,H(x)=F(x)+x,张量维度必须一致,加完后再激活。不要做pooling,张量的维度会发生变化 1#先是1个卷积层(conv,maxpooling,relu),然后Res......
  • CNN --Inception Module
    Smiling&Weeping ----祝你想我在平静的湖面不止在失控的雪山之前说明:InceptionModule1.卷积核超参数选择困难,自动找到卷积的最佳组合2.1x1卷......
  • CNN --入门MNIST识别
    Smiling&Weeping----下次你撑伞低头看水洼,就会想起我说雨是神的烟花。 简介:主要是看刘二大人的视频讲解:https://www.bilibili.com/video/BV1Y7411d7Ys/?spm_id_from=333.337.search-card.all.click题目及提......
  • m基于Faster-RCNN网络的人员吸烟行为检测系统matlab仿真,带GUI操作界面
    1.算法仿真效果matlab2022a仿真结果如下:  2.算法涉及理论知识概要         人员吸烟行为检测系统在公共场所如学校、医院、公共交通工具等广泛使用。这类系统通常通过图像或视频分析来检测人员是否有吸烟行为。其中,基于Faster-RCNN网络的吸烟行为检测是一种常......
  • 深度学习入门——卷积神经网络CNN基本原理+实战
    beginning今天给小伙伴们介绍一个高级的分类方法——卷积神经网络CNN,并学习用CNN实现图像的分类。作为深度学习的基础,CNN可太重要了呐,在图像分类、目标检测、目标跟踪、语义分割、实例分割等领域随处可见它的身影。废话不多说啦,如果你也对CNN感兴趣的话,赶紧跟我一起愉快的看下去叭......