本篇主要介绍一些基本概念和知识,包括大数据的概念、数据挖掘与大数据的关系、数据挖掘的内容、数据挖掘的应用领域、数据挖掘的过程等内容。由于本书以MATLAB为工具介绍数据挖掘的技术实现,所以在基础篇中还介绍了MATLAB的快速入门技术,即使是从来没有用过MATLAB的读者,也可以顺利阅读本书,同时也能大大提高读者对MATLAB的使用水平。
认识大数据挖掘
大数据同过去的海量数据有所区别,其基本特征可以用4个V来总结( Volume、Variety、Value和Velocity),具体含义为:
Volume,数据体量巨大,可以是TB级别,也可以是PB级别。
Variety,数据类型繁多,如网络日志、视频、图片、地理位置信息等。物联网、云计算、移动互联网、车联网、手机、平板电脑、PC以及遍布地球各个角落的各种各样的传感器,无一不是数据来源或者承载的方式。
Value,价值密度低。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。
Velocity,处理速度快,这一一点与传统的数据挖掘技术有着本质的不同。
简而言之,大数据的特点是体量大、多样性、价值密度低、速度快。