一文读懂计算机视觉

标签：视频计算机像素读懂算法图像视觉一文

前言

计算机视觉（Computer Vision），通常简称CV，是一个通过技术帮助计算机“看到”并“看懂”图像的研究领域，例如使计算机理解照片或视频的内容。

这篇文章将对计算机视觉进行整体介绍。本文章共分为六个部分，分别是：

·计算机视觉为什么重要

·什么是计算机视觉

·计算机视觉的基本原理

·计算机视觉的典型任务

·计算机视觉在日常生活中的应用场景

·计算机视觉面临的挑战

计算机视觉为什么重要

在生理学上，视觉（Vision）的产生都始于视觉器官感受细胞的兴奋，并于视觉神经系统对收集到的信息进行加工之后形成。我们人类通过视觉来直观地了解眼前事物的形体和状态，大部分人依靠视觉来完成做饭、越过障碍、读路牌、看视频以及无数其他任务。事实上，如果不是盲人这类特殊群体，绝大多数人对外界信息的获取都是通过视觉完成的，而这个占比高达80%以上——这个比例并不是没有根据的，著名实验心理学家赤瑞特拉（Treicher）曾通过大量的实验证实：人类获取的信息的83%来自视觉，11%来自听觉，剩下的6%来自嗅觉、触觉、味觉。所以，对于人类来说，视觉无疑是最重要的一种感觉。

不仅人类是“视觉动物”，对于大多数动物来说，视觉也都起到十分重要的作用。通过视觉，人和动物感知外界物体的大小、明暗、颜色、动静，获得对机体生存具有重要意义的各种信息，通过这些信息能够得知，周围的世界是怎样的，以及如何和世界交互。

一文读懂计算机视觉_计算机视觉_02

而在计算机视觉出现之前，图像对于计算机来说是黑盒的状态。

一张图像对于计算机来说只是一个文件、一串数据。计算机并不知道图片里的内容到底是什么，只知道这张图片是什么尺寸，占多少内存大小，什么格式的等等。

一文读懂计算机视觉_人工智能_03

如果计算机、人工智能想要在现实世界发挥重要作用，就必须看懂图片！

因此，半个世纪以来，计算机科学家一直在想办法让计算机也拥有视觉，从而产生了“计算机视觉”这个领域。

一文读懂计算机视觉_计算机视觉_04

网络的迅速发展也令计算机视觉变得尤为重要。下图是2020年以来网络上新增数据量的走势图。灰色图形是结构化数据，蓝色图形是非结构化数据（大部分都是图片和视频）。可以很明显的发现，图片和视频的数量正在以指数级的速度疯狂增长。

一文读懂计算机视觉_人工智能_05

互联网由文本和图像组成。搜索文本相对简单，但为了搜索图像，算法需要知道图像包含的内容。在很长的一段时间内，人类没有足够的技术来理解图像和视频的内容，只能依靠人工标注来获取图像或视频的描述。如何能让计算机更好地理解这些图像信息，便是当今计算机技术面临的一大挑战。为了充分利用图像或视频数据，需要让计算机“查看”图像或视频，并理解内容。

什么是计算机视觉

计算机视觉是人工智能领域的一个重要分支，简单来说，它要解决的问题就是：让计算机看懂图像或者视频里的内容。

比如：

图片里的宠物是猫还是狗？

图片里的人是老张还是老王？

视频里的人在做什么事情？

更进一步的说，计算机视觉就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等，并进一步做图形处理，得到更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取高层次信息的人工智能系统。从工程的角度来看，它寻求利用自动化系统模仿人类视觉系统来完成任务。

计算机视觉的最终目标是使计算机能像人那样通过视觉观察和理解世界，具有自主适应环境的能力。但能真正实现计算机能够通过摄像机感知这个世界却是非常之难，因为虽然摄像机拍摄的图像和我们平时所见是一样的，但对于计算机来说，任何图像都只是像素值的排列组合，是一堆死板的数字。如何让计算机从这些死板的数字里面读取到有意义的视觉线索，是计算机视觉应该解决的问题。

计算机视觉的基本原理

用过相机或手机的都知道，计算机擅长拍出有惊人保真度和细节的照片，从某种程度上来说，计算机的人工“视觉”比人类与生自来的视觉能力强多了。但正像我们平日所说的“听见不等于听懂”一样，“看见”也不等于“看懂”，要想让计算机真正地“看懂”图像，那就不是一件简单的事情了。

图像是一个大像素网格，每个像素有颜色，颜色是三种基色的组合：红，绿，蓝。通过组合三种颜色的强度——即叫做RGB值，我们可以得到任何颜色。

最简单的、最适合拿来入门的计算机视觉算法是：跟踪一个有颜色的物体，比如一个粉色的球，我们首先记下球的颜色，保存最中心像素的RGB值，然后给程序喂入图像，让程序找最接近这个颜色的像素。算法可以从左上角开始，检查每个像素，计算和目标颜色的差异。检查了每个像素后，最贴近的一部分像素，很可能就是球所在的像素。这个算法并不限制于在这单张图片上运行，我们可以把算法运行在视频的每一帧图像上，跟踪球的位置。当然，因为光线、阴影和其他因素的影响，球的颜色会有变化，不会和我们存的RGB值完全一样，但会很接近。不过在一些极端的情况下，比如晚上进行足球比赛，追踪效果就可能会非常差；而且如果其中一队的球衣颜色和球的颜色一样，算法就完全“晕了”。因此，除非环境可以严格控制，这类颜色跟踪算法很少会被真正投入使用。

而如今更多使用的计算机视觉算法一般都会涉及“深度学习”（Deep Learning）的方法和技术，其中，卷积神经网络（CNN）因为其优越的性能，使用最为广泛。由于“深度学习”所涉及的知识过于广泛，本篇就不对其进行更详细的叙述了。如想了解更多关于“深度学习”的相关知识，不妨看下AI入门课程——《英特尔® OpenVINO™工具套件初级课程》。它从AI的基本概念开始，介绍人工智能与视觉应用的相关知识，帮助用户快速理解英特尔®OpenVINO™工具套件的基本概念及应用场景。整个课程包含了视频的处理，深度学习的相关知识，人工智能应用的推理加速，以及英特尔®OpenVINO™工具套件的Demo演示，由浅入深，一步一步带你掌握深度学习。

计算机视觉的典型任务