8月31日晚上,一个名为“ZAO”的AI换脸APP刷爆朋友圈!
一场技术人员的狂欢又拉开帷幕。APP原理很简单,用户只需要上传一张照片,就能把自己或其他人替换为“吴彦祖”、“彭于晏”、“玛丽莲梦露”以及你想要看到的任何人。你懂的!当然,也由此诞生了一场舆论的漩涡!
今天我们不讨论舆论,我们聊聊技术!
在人工智能发展迅速的今天,机器越来越“聪明”了!
机器跟人一样,有了获取信息的能力。能轻松的把一张图片替换为另一张图片,具体原理是如何发生的呢?我们得先从图像识别开始说起!
我们人类识别图像都是依靠图像所具有的本身特征而先将这些图像分类,然后通过各个类别所具有的特征将图像识别出来的。每个图像都有它的特征,如字母A有个尖,P有个圈、而Y的中心有个锐角等。
A P Y
当我们看一个物体时,视线总是集中在图像的主要特征上,也就是集中在图像轮廓曲度最大或轮廓方向突然改变的地方,这些地方的信息量最大。而且眼睛的扫描路线也总是依次从一个特征转到另一个特征上。由此可见,在图像识别过程中,抽出关键特征,排除无关信息是最重要的。
机器的图像识别技术也是如此,通过分类并提取重要特征而排除多余的信息来识别图像。图像识别技术的过程分以下几步:
信息获取,预处理基本就是字面意思,特征抽取和选择前文已经提到过。这里就着重谈谈分类器设计。
分类器设计是指通过训练而得到一种识别规则,通过此识别规则可以得到一种特征分类,使图像识别技术能够得到高识别率。分类决策是指在特征空间中对被识别对象进行分类,从而更好地识别所研究的对象具体属于哪一类。
比如卷积神经网络图像识别技术是一种比较新型的图像识别技术,是在传统的图像识别方法和基础上融合神经网络算法的一种图像识别方法。这里的神经网络是指人工神经网络,也就是说这种神经网络并不是动物本身所具有的真正的神经网络,而是人类模仿动物神经网络后人工生成的。
卷积神经网络也是通过一些可供“调教”的参数,分层处理图片以便实现某些目的,例如目前应用最为广泛的物体识别,图片分类,也可以用于图片降噪或去模糊。
也正如其他的人工智能神经网络一样,卷积神经网络的运行方式是前向分层处理。一张图片相继通过神经网络的各个分层,最后一层产生的图片即为最终结果。每一层都有一组参数,在运行过程中被不断训练。这些可调教的参数决定了每个“过滤层”的功能。图像每经过一个“过滤层”都会产生一组“滤后图像”,每一张“滤后图像”都代表了原始图像的某一特征(边缘、角度、轮廓等)。
通常,当一张图像经过了多层过滤之后,后面留下的特征会越来越抽象。
例如,如果卷积神经网络被训练用于物体识别,更深层次的“过滤层”更能“感知”到物体的存在而非具体的像素值。
经过多年发展,用于物体识别的卷积神经网络表现已经越来越好,挑战门槛也越增越高。机器学习在互联网应用中已经无处不在:
Facebook利用它来决定哪条新闻出现在你的时间线上;
Google图片用它来做面部识别;
微软的Skype Translator利用机器学习把演讲实时转换成不同的语言;
Google还利用DeepMind 为它昼夜运行的数据中心节能降耗。
而基于深度神经网络的人脸识别技术已经广泛应用于线下的身份认证。
图像识别及图像处理等应用目前占据了人工领域领域80%左右的市场份额。针对很多准备切入人工智能领域的程序员来说,图像领域确实是一个起步门槛相对较低的方向。之前我们也分享了很多关于图像识别领域的技术分析文章,大体上跟大家讲解了一些图像识别涉及到的技术要点。