第二节 大数据
1.大数据的概念
麦肯锡公司对大数据的定义: 大数据是指大小超出常规的数据库工具获取、存储、管理和分析能力的数据集。
维基百科对大数据的定义: 大数据是指利用常用软件工具来获取、管理和处理数据所耗时间超过可容忍时间限制的数据集。这并不是一个精确的定义,因为无法确定常用软件工具的范围,可容忍时间也是个概略的描述。
2.大数据的特点
大数据具有5V特点(IBM提出),即: Volume(规模大)、Variety (种类多) 、Velocity (处理速度快)、Value (价值密度低)、Veracity (真实性)
2.大数据的特点
规模大: 数据规模大是大数据的基本属性。大数据已经从TB级别跃升到PB级别
种类多: 大数据来自多种数据源,数据种类和格式日渐丰富,如网络日志、视频、图片、地理位置信息等
速度快: 数据处理速度快是大数据区别于传统数据挖掘的显著特征。
价值密度低: 数据价值密度的高低与数据总量成反比。
真实性: 数据真实性是指数据的质量和保真性
根据数据是否具有一定的模式、结构和关系,数据可分为三种基本类型:结构化数据、非结构化数据、半结构化数据
其中,非结构化数据越来越成为数据的主要部分
结构化数据: 指遵循一个标准的模式和结构,以二维表的形式存储在关系型数据库里的行数据。
半结构化数据:是指有一定的结构性,但本质上不具有关系性介于完全结构化数据和完全非结构化数据之间的数据。
非结构化数据:没有固定的数据结构,通常用于保存不同类型的文件,如文本文档、图片、音频和视频。
1.数据的采集
数据采集是指从真实世界中获得原始数据的过程。它是大数据分析的入口,所以是相当重要的一个起始环节。没有高质量的数据,就没有高质量的数据挖掘结果。要尽可能收集异源,甚至是异构的数据,还可与历史数据对照多角度验证数据的全面性和可信性。因此,大数据采集不是采样,而是要获取全部的数据.
2.数据预处理
(1)数据集成:数据集成是将多个数据源中的数据进行合并处理。
(2) 数据清洗:数据清洗用于提高数据的质量,即使数据具有一致性、精确性、完整性、时效性和实体同一性。数据清洗的方法有缺失值填充平滑噪声、识别和去除离群点、不一致检测与修复、实体识别与真值发现等
(3) 数据归约: 数据归约指在减小数据存储空间的同时,尽可能保证数据的完整性
(4) 数据变换:数据变换是采用数学变换方法将多维数据压缩成较少维数的数据
3.数据处理与分析
大数据的复杂性使得其难以用传统的方法描述与度量,需要将高维图像等多媒体数据降维后进行度量与处理。
大数据分析注重分析数据的相关关系,而不是因果关系
4.数据可视化与应用
数据可视化是指将大数据分析与预测结果以计算机图形或图像的直观方式显示给用户的过程,并可与用户进行交互
考点9 大数据的应用
1.大数据在电子政务的应用:依托大数据的发展,节约政府投入,及时有效地进行社会监管和治理
2.大数据在医疗行业的应用: 医疗业务活动、健康体检、公共卫生、传染病监测、人类基因分析等医疗卫生服务过程中将产生海量高价值的数据
3.大数据在能源行业的应用: 能源行业企业对大数据产品和解决方案的需求
4.大数据在零售行业的应用: 对顾客群体细分
5.大数据在气象行业的应用: 气象卫星、天气雷达