一、什么是大数据
1.1 定义
麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征
我自己的定义:大数据是一门旨在研究如何在巨大的数据集中高效地存储、处理、分析和提取价值的学科
百度百科节选:大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换言之,如果把大数据比作是一种产业,那么这种产业实现盈利的关键在于,提高对数据的加工能力,通过加工实现数据的增值
1.2 特点
用4个V来表示:(案例建议联想微博、抖音、12306等场景)
Volumn-大量(1V): 像现在的一些大电商、大的社交平台、自媒体平台等他们的数据都是海量的,数据量大到远超过当前传统数据库工具的处理能力。以我们最为常用的Mysql数据库为对比,HBase组件设计的目的是为了存储以及检索数百万行*数十万列 的巨量数据集。这样量级的数据集,对于MySQL数据库来说,就算是分库分表,也很难处理如此大的数据集
Velocity-高速(2V): 这也是大数据区分于传统数据挖掘最为显著的特征。这里的【高速】是指数据量增长特别快
Variety-多样性(3V): 这个不同于我们的刻板印象,这里的多样性是指:数据形式的多样性。这是因为我们的数据来源比较多,它不只是说Mysql、Redis里面存储的结构性、非结构性业务数据,还指图片、音视频等数据
Value-价值(4V): 准确的说,这里其实指的是:数据【呈高密度低价值】状态。海量数据里面,很多时候真正有价值的数据就那么一点
综上4个大数据的特征,我们再回头联想一下【大数据的定义】,我们应该能理解,为什么说【大数据是一门旨在研究如何在巨大的数据集中高效地存储、处理、分析和提取价值的学科】了吧。
1.3 数据结构
大家不要把大数据的【数据】拘泥于我们过往接触的,存储在关系型或者非关系型数据库里面的结构化和半结构化数据中,它其实还包括其他非结构化数据,我在【1.2 特点】的【Variety-多样性(3V)】里面已经提到过了。
根据IDC调查报告显示:企业中80%的数据都是非结构化数据,这些数据每年都按指数增长60%。
1.4 补充总结
到了这里,我想结合【定义】跟【特征】额外补充说明一点,也是我在学习的时候,一直在纠结的问题:多大的数据量,才算大呢?
我知道大家心里想要的是一个具体的量化标准,比如说1TB算大,10TB才算大这样子。但其实上面的【1.1 定义】中可以看出,比较权威的定义是指【大到传统数据库软件无法有效地、在合理时间内实时得到结果的量】就是大,并没有具体的量化标准。
另外我们还得结合上面提到的其他3个特征——高速、多样、高密度低价值等去理解这个【大】。这说明,大数据的【大】不仅仅是体现在【量】上。
如果硬要说一个具体的量化数值,根据阿里通义千问的回答,是这样:
TB级别:数据量达到TB(Terabyte,太字节)级别通常被认为是大数据的入门门槛
PB级别:数据量达到PB(Petabyte,拍字节)及以上通常被认为是大数据的典型规模
EB级别:数据量达到EB(Exabyte,艾字节)及以上则是极其庞大的数据量
二、大数据能用来干什么
2.1 应用方向
下面这些是我培训课老师说的,综合对比之后我觉得比较合理的应用方向(宏观方向):
数据挖掘/分析方向:
定义:通俗地讲,数据挖掘是将原始数据转化为实用的知识。其目标不是提取或挖掘数据本身,而是对已有的大量数据,提取有意义或有价值的知识。另外,数据分析是指根据分析目的,用适当的统计分析方法及工具,对收集来的数据进行处理与分析,提取有价值的信息,发挥数据的作用。百度百科认为,狭义的数据分析与数据挖掘本质是一样的,都是发现有价值的信息。然后狭义的数据分析+数据挖掘==广义的数据分析
定位: 这个方向更注重于对已有数据进行整合,并通过数据挖掘深入体现出数据的内在价值,从而为各单位、企业的业务决策提供数据支持
例子:用户画像、餐厅画像、大型数据报表、个人征信报告、业务风控系统、电商行业就近分发的物流仓储系统等
数据预测方向:
定义:简单地说,就是利用历史数据和统计模型来预测未来的趋势、行为或事件。多用在金融、医疗、制造等领域(PS:我比较倾向于把【推荐】也作为【预测】的一种)
定位:这个方向主要是基于机器学习对未来变化进行预测
例子:金融股票预测、医疗健康风险预测、医疗辅助诊断、制造业机器故障预测、交通流量预测等
数据决策方向:
定义:与预测差不多,他也是利用历史数据和统计模型来对单位、企业的业务决策提供数据支撑(科学依据)
定位:这个方向主要是基于模型来对行为决策提供数据支撑
例子:农业、畜牧业的精细化管理以及经营决策、体育赛事战术决策
忘了是08年还是10年了,当时猪肉价格狂涨,一度到了牛肉的价格。紧接着有意思的事情来了,一堆人开始追涨养猪,结果是,到了明年全体扑街。倘若,他们有一点市场供需意识,或者有大数据提供数据支撑(通过在饲料供给端埋点),就能在高维【看到】有多少人养殖、又会引起怎样的市场供需变化,或许就不会亏的裤衩子都不剩了
业务创新方向:
定义:比较宽泛,大概的思路是用大数据凝练的经验去解放生产力
定位:这个方向主要是用来替代一些重复性的工作,解放人类的生产力
例子:自动驾驶汽车,各种各样的机器人等
2.2 应用场景(简述)
序号 行业 过程(包括,不限于) 行为
1 医疗行业 各种报告 =》挖掘/分析 =》疾病数据库 =》治疗方案 决策
2 金融行业 信贷记录 =》挖掘/分析 =》个人征信报告 =》风险管控 决策
3 电商/零售行业 消费数据 =》挖掘/分析 =》消费习惯 =》营销短信 预测(推荐)
4 农牧行业 农产品消费数据 =》挖掘/分析 =》供应量 =》平衡供需/种植、养殖建议 预测、决策
5 交通运输 车辆通行数据 =》挖掘/分析 =》车辆通行密度 =》规划通行路线 预测、决策
6 … … …
2.3 总结
我在学习了之后,其实整体总结下来,大数据的应用无非就围绕【挖掘/分析】、【预测】、【决策】这三个点上。而他们之间其实存在着前后关联关系,即:
【挖掘/分析】==》【预测】
【挖掘/分析】==》【决策】
无论是预测也好,决策也罢,其实都需要先经过【挖掘/分析】得到【有价值的信息】之后,才能进一步做【预测】、【决策】
三、大数据一般性过程
大数据的一般性过程我觉得还是有必要提一嘴,因为这个基本上预示了,围绕这个过程存在对应的产业布局或者技术应用,以及一些规范。大致过程有如下:
采集与处理:数据采集与处理是大数据的关键技术之一,它从互联网、传感器和信息系统等来源获取的大量带有噪声的数据进行预处理,包括数据清洗、填补和规范化等流程,使无序的数据更加有序,便于处理,以达到快速分析处理的目的
存储与管理:数据存储与管理是指将处理前或处理后的数据以特定格式记录在计算机内部或外部存储介质上,并对数据进行管理和调用的过程。此过程有助于减少数据孤岛现象,并确保数据的可靠性、安全性、可用性和可扩展性
挖掘与分析:通俗地讲,数据挖掘是将原始数据转化为实用的知识。其目标不是提取或挖掘数据本身,而是对已有的大量数据,提取有意义或有价值的知识。另外,数据分析是指根据分析目的,用适当的统计分析方法及工具,对收集来的数据进行处理与分析,提取有价值的信息,发挥数据的作用。百度百科认为,狭义的数据分析与数据挖掘本质是一样的,都是发现有价值的信息。然后狭义的数据分析+数据挖掘==广义的数据分析
可视化与呈现:数据可视化是使用图表、图形或地图等可视元素来表示数据的过程。该过程将难以理解和运用的数据转化为更易于处理的可视化表示。数据可视化工具可自动提高视觉交流过程的准确性并提供详细信息,以便决策者可以确定数据之间的关系并发现隐藏的模式或趋势
治理与应用:这里其实就是根据挖掘与分析后,得到的有价值信息,然后给出对应的解决方案
安全与合规:根据《中华人民共和国数据安全法》,数据是指任何以电子或者其他方式对信息的记录。数据安全是指通过采取必要措施,确保数据处于有效保护和合法利用的状态,以及具备保障持续安全状态的能力。各地区、各部门对本地区、本部门工作中收集和产生的数据及数据安全负责
四、给自己的作业
差点忘了这个。我在前言中已经提到了,我学大数据其实是想知道,【我能用大数据技术给我公司做什么】,到这里,其实我已经有一点点构思了。
首先,我们公司主营业务是提供【智慧食堂解决方案】的,从作业标准上来说我们提供的方案已经涵盖了前厅到后厨的采购、库存、营销、收银、会员中心等全场景流程。那么, 围绕着【挖掘/分析】、【预测】、【决策】这三个点,我认为我们公司业务可以和大数据技术做如下结合:
用户画像:宏观上,可以从年龄、性别、地域给出用户饮食上的偏好;微观上,可以做针对每个用户的营养分析
餐厅画像:宏观上,可以从地区上描述智慧食堂分布情况、盈利情况、营业情况等;微观上对每个餐厅做具体分析
食谱/食谱BOM画像:宏观上,可以做地区食谱受欢迎榜单;微观上可以从BOM分析出,怎样的物料配比既能让用户满意,又能让餐厅盈利最大化
经营决策:上面提及的食谱BOM画像说到的,科学的食材配比;利用历史数据预测未来需求量、客流量,进而调整库存或者采购量;通过分析顾客点餐偏好优化每日经营菜谱;根据顾客历史消费记录精准推荐菜品
…还没想好…