1966年,人工智能学家Minsky在给学生布置的作业中,要求学生通过编写一个程序让计算机告诉我们它通过摄像头看到了什么,这也被认为是计算机视觉(Computer Vision,CV)最早的任务描述。到了21世纪,计算机视觉进入快速发展阶段,尤其近几年,计算机视觉迅猛发展。
相关统计结果显示,2020年计算机视觉在中国地区容量高达753亿元,比2019年增长超过120%,远高于人工智能53%的预期增长率。预计到2022年,CV在中国地区有高达48.2%的年复合增长率。
2021年10月27日,美国AI创企Cogniac宣布已融资2000万美元。该公司聚焦计算机视觉,为政企提供自动化服务。据统计,目前全球计算机视觉初创公司的外部投资已经远远超过麦肯锡2016年估计的35亿美元。随着企业在新冠疫情爆发期间更加关注自动化技术,对计算机视觉初创公司的投资正在增加,这继续给全球劳动力市场带来了压力。调查结果表明,计算机视觉市场可能会从2019年的109亿美元增长到2024年的174亿美元。
对于个人而言,全球劳动力市场的压力意味着职场中的机遇,计算机视觉的岗位需求将持续增加。
什么是计算机视觉?
“计算机视觉是一门借助计算机实现人类视觉功能的学科。人类视觉过程可看作一个复杂的从感觉(感受到的是对3D世界进行2D投影得到的图像)到知觉(由2D图像认知3D世界的内容和含义)的过程。视觉的最终目的从狭义上说是要对场景做出对观察者有意义的解释和描述,从广义上讲,还要基于这些解释和描述,根据周围环境和观察者的意愿做出行为规划。计算机视觉是人工视觉或人造视觉,用计算机实现人的视觉功能,希望能根据感知到的图像对实际的目标和场景做出有意义的判断。”清华大学章毓晋教授在新书中给出这样的回答。
3D计算机视觉:原理、算法及应用
本书是一本介绍3D 计算机视觉基本原理、典型算法和实用技术的专业图书。
本书在选材上主要覆盖了计算机视觉的进阶级内容,自成体系,主要针对信息类相关专业,同时兼顾了具有不同专业背景的学习者及自学读者的需求。读者可据此开展科研工作并解决实际应用中一些具有一定难度的问题。
本书在编写上比较注重实用性,没有过多强调理论体系,尽量减少公式推导,着重介绍常用的方法。书中有较多的示例,能通过直观的解释帮助读者理解抽象的概念。书末附有术语索引(文中标为黑体),给出了对应的英文,方便读者查阅及搜索相关资料。
本书提供了大量的自我检测题(包括提示和答案)。从目的来说,一方面,这便于自学者判断自己是否掌握了重点内容;另一方面,这便于教师开展网络教学,在授课时加强师生互动。题目类型为选择题,可用计算机方便地判断正误。从内容来看,很多题把基本概念换一种说法进行表达,补充了正文,使学习者能加深理解;有些题列出了一些相似但不相同(甚至含义相反)的描述,通过正反辩证思考,使学习者能深入领会本质。所有自我检测题都附有提示,读者可获得更多的信息以进一步理解题目的含义。同时,在有提示的基础上,如果读者能在看到提示后完成自我检测题,则表明基本掌握了学习内容;如果不看提示就能完成自我检测题,则表明内容掌握得比较好。
全书内容概览
本书从结构上看,包括12 章正文、1 个附录及自我检测题、自我检测题答案、参考文献和术语索引。在这17 个一级标题下,共有66 个二级标题(节),再之下有135 个三级标题(小节)。全书共有文字(包括图片、绘图、表格、公式等)50 万字,共有编了号的图228 个、表格22 个、公式565 个。为便于教学和理解,本书给出示例68 个、自我检测题157 道(全部附有提示和答案)。另外,书末列出了直接相关的100 多篇参考文献和用于索引的500 多个术语(中英文对照)。
本书的先修课程知识涉及三个方面。一是数学,包括线性代数和矩阵理论,以及有关统计学、概率论和随机建模的基础知识;二是计算机科学,包括对计算机软件技术的掌握、对计算机结构体系的理解,以及对计算机编程方法的应用;三是电子学,包括电子设备的特性原理及电路设计等内容。