首页 > 其他分享 >神经网络之卷积篇:详解计算机视觉(Computer vision)

神经网络之卷积篇:详解计算机视觉(Computer vision)

时间:2024-07-31 10:06:22浏览次数:20  
标签:计算机 卷积 神经网络 Computer 64 视觉 1000 vision 图片

详解计算机视觉

计算机视觉是一个飞速发展的一个领域,这多亏了深度学习。深度学习与计算机视觉可以帮助汽车,查明周围的行人和汽车,并帮助汽车避开它们。还使得人脸识别技术变得更加效率和精准,即将能够体验到或早已体验过仅仅通过刷脸就能解锁手机或者门锁。当解锁了手机,猜手机上一定有很多分享图片的应用。在上面,能看到美食,酒店或美丽风景的图片。有些公司在这些应用上使用了深度学习技术来向展示最为生动美丽以及与最为相关的图片。机器学习甚至还催生了新的艺术类型。深度学习之所以让兴奋有下面两个原因,想也是这么想的。

第一,计算机视觉的高速发展标志着新型应用产生的可能,这是几年前,人们所不敢想象的。通过学习使用这些工具,也许能够创造出新的产品和应用。

其次,即使到头来未能在计算机视觉上有所建树,但发现,人们对于计算机视觉的研究是如此富有想象力和创造力,由此衍生出新的神经网络结构与算法,这实际上启发人们去创造出计算机视觉与其他领域的交叉成果。举个例子,之前在做语音识别的时候,经常从计算机视觉领域中寻找灵感,
并将其应用于文献当中。所以即使在计算机视觉方面没有做出成果,也希望也可以将所学的知识应用到其他算法和结构。就介绍到这儿,让开始学习吧。

这是本篇博客将要学习的一些问题,应该早就听说过图片分类,或者说图片识别。比如给出这张64×64的图片,让计算机去分辨出这是一只猫。

还有一个例子,在计算机视觉中有个问题叫做目标检测,比如在一个无人驾驶项目中,不一定非得识别出图片中的物体是车辆,但需要计算出其他车辆的位置,以确保自己能够避开它们。所以在目标检测项目中,首先需要计算出图中有哪些物体,比如汽车,还有图片中的其他东西,再将它们模拟成一个个盒子,或用一些其他的技术识别出它们在图片中的位置。注意在这个例子中,在一张图片中同时有多个车辆,每辆车相对与来说都有一个确切的距离。

还有一个更有趣的例子,就是神经网络实现的图片风格迁移,比如说有一张图片,但想将这张图片转换为另外一种风格。所以图片风格迁移,就是有一张满意的图片和一张风格图片,实际上右边这幅画是毕加索的画作,而可以利用神经网络将它们融合到一起,描绘出一张新的图片。它的整体轮廓来自于左边,却是右边的风格,最后生成下面这张图片。这种神奇的算法创造出了新的艺术风格。

但在应用计算机视觉时要面临一个挑战,就是数据的输入可能会非常大。举个例子,一般操作的都是64×64的小图片,实际上,它的数据量是64×64×3,因为每张图片都有3个颜色通道。如果计算一下的话,可得知数据量为12288,所以特征向量\(x\)维度为12288。这其实还好,因为64×64真的是很小的一张图片。

如果要操作更大的图片,比如一张1000×1000的图片,它足有1兆那么大,但是特征向量的维度达到了1000×1000×3,因为有3个RGB通道,所以数字将会是300万。如果在尺寸很小的屏幕上观察,可能察觉不出上面的图片只有64×64那么大,而下面一张是1000×1000的大图。

如果要输入300万的数据量,这就意味着,特征向量\(x\)的维度高达300万。所以在第一隐藏层中,也许会有1000个隐藏单元,而所有的权值组成了矩阵 \(W^{[1]}\)。如果使用了标准的全连接网络,这个矩阵的大小将会是1000×300万。因为现在\(x\)的维度为\(3m\),\(3m\)通常用来表示300万。这意味着矩阵\(W^{[1]}\)会有30亿个参数,这是个非常巨大的数字。在参数如此大量的情况下,难以获得足够的数据来防止神经网络发生过拟合和竞争需求,要处理包含30亿参数的神经网络,巨大的内存需求让人不太能接受。

但对于计算机视觉应用来说,肯定不想它只处理小图片,希望它同时也要能处理大图。为此,需要进行卷积计算,它是卷积神经网络中非常重要的一块。

标签:计算机,卷积,神经网络,Computer,64,视觉,1000,vision,图片
From: https://www.cnblogs.com/oten/p/18334015

相关文章

  • 位运算卷积学习笔记
    位运算卷积学习笔记位运算卷积,即快速沃尔什变换\(\text{FWT}\)和快速莫比乌斯变换\(\text{FMT}\),但事实上最常用的是\(\text{FWT}\),因为\(\text{FMT}\)所求解的内容是\(\text{FWT}\)的子集。位运算卷积首先要知道位运算卷积指的是\[c_i=\sum_{j\odotk=i}a_jb_k\]形......
  • 数论函数集与狄利克雷卷积在群论上的证明
    狄利克雷卷积\((f*g)(n)=\sum\limits_{d|n}f(d)g(\dfrac{n}{d})\)。数论函数集上的运算将函数加法视为数论函数集上的加法,狄利克雷卷积视为乘法,则\((G,+,*)\)是一个整环。\((G,+)\)是阿贝尔群封闭性、结合律、交换律是显然的。单位元是常数函数\(f(x)=0\),逆元显然存在。......
  • Crash Course Computer Science
    【计算机科学速成课】[40集全/精校]-CrashCourseComputerScienceep1.EarlyComputingCharlesBabbageEnglishmathematicianandinventorconceivedthefirstautomaticdigitalcomputerAdaLovelaceEnglishmathematicianthefirstcomputerprogramme......
  • 如何使用我的 CoreML 模型在 Vision 中获取 MLMultiArray 输出
    我正在尝试在swift中将我的CoreMl模型与Vision框架结合使用。我的模型输出一个MLMultiArray。当我通过Vision运行它时,我确实得到了一个输出,但是输出的类型是VNObservation,我无法使用它,也无法将其转换为MLMultiArray。有谁知道如何获取MLMultiArray作为输出,或将VNOb......
  • TorchVision 对整个模型与主干模型使用预训练权重
    TorchVision检测模型有一个weights和一个weights_backbone参数。使用预训练weights是否意味着模型在幕后使用了预训练weights_backbone?我正在训练RetinaNet模型,我不确定应该使用这两个选项中的哪一个以及它们之间有什么区别。这正是......
  • Solution - Atcoder ARC114F Permutation Division
    令\(a\)为题目中的\(P\)。首先考虑后手的重排策略是什么。因为\(a\)是个排列,元素互不相同,那么肯定就是按照每一段的第一个数的大小,越大的放在越前面。那么当\(a_1\lek\)的时候,显然先手会把以\(1\simk\)开头来划分段。因为否则存在一个开头\(>k\)的段,后手把其放......
  • 卷积神经网络
    深度学习之卷积神经网络1、前言在卷积神经网络之前,较流行的是多层感知机,多层感知机适合处理表格数据,其中行对应样本,列对应特征。对于表格数据,我们寻找的模式可能涉及特征之间的交互,但是我们不能预先假设任何与特征交互相关的先验结构。此时,多层感知机可能是最好的选择,然而对于......
  • Python实现基于卷积神经网络的恶意代码分类系统(设计思路概述)
    这个设计是关于一个基于卷积神经网络(CNN)的恶意代码分类系统,其主要目标是对恶意代码进行自动分类,帮助用户识别并防范不同类型的恶意软件。以下是该系统的设计思路、方法及实现过程的详细解释:设计思路恶意代码图像化:由于直接对恶意代码的源代码或二进制形式进行分类难度较......
  • Python实现基于卷积神经网络的恶意代码分类系统
    目录摘要IABSTRACTII1绪论11.1研究背景与意义11.2国内外研究现状21.3技术路线32相关知识背景52.1恶意代码检测概述52.2深度学习技术基础62.2.1卷积神经网络基本结构72.2.2激活72.2.3池化83基于卷积神经网络的恶意代码分类方法103.1卷......
  • 使用 Azure Vision AI 的预训练模型分析货架图像时检测货架中的物体和间隙
    我正在做货架产品识别,其中webApp(使用Flask构建)使用AzureVisionAI的预训练模型分析货架图像。我为此使用了AzureVM实例。我需要检测对象以及空白区域即这些对象之间的间隙以下代码app.py标记检测到的对象以及它们之间的间隙:importo......