大数据平台是什么?
大数据处理的基础平台
数仓建设和数据管理的平台
贴合业务、面向应用的数据分析和使用的工具
面临的问题?
如何管理一个大的单体集群,如何接入数据
数据接入之后如何存储和查询数据,如何管理数据
怎样保障数据安全、如何将数据展示给客户。
大数据平台的能力
数据存储&构建数仓
大数据平台所面临的数据种类多种多样,包括结构化和非结构化数据
对不同类型的数据提供对应的存储模型和查询方式
快速计算
- 离线批处理
- 实时流计算
- 机器学习预测分析
数据接入
-
数据具有来源多、类型杂、数据量大等特点
-
大数据平台需要能够对接各种来源和各种类型的海量数据
保障数据安全
-
不仅需要考虑平台本身的安全,更重要的是数据的安全问题
-
对数据进行隔离和访问授权、对用户进行访问控制
数据管理&数据治理
- 随处可见的数据不统一
- 难以完成的数据质量
- 难以完成的数据模型梳理
数据查询&可视化
优秀快速的数据查询引擎可以帮助我们的数据平台接纳更多的用户
数据的核心价值在于通过对历史数据的分析,展现出数据的趋势
集群的监控和管理
面对很多服务器以及部署的很多大数据组件和服务
对集群进行完善的管理和监控可以提高数据平台的稳定性
为什么需要大数据平台
量变引起质变
数据量越来越大、维度越来越多
海量数据下,交互难度和技术难道越来越大
用户专业程度逐步提升,老的方案无法满足需求
为了解决哪些问题?
- 企业对数据、效率的要求提高,从而开展大数据平台建设
- 大数据平台建设即为构建企业的数据资产运营中心
- 大数据平台的目标是发挥数据的价值,支持企业的发展
为什么要有大数据?
3个解决和2个提升
-
解决“坐井观天”问题
-
解决“一叶障目”问题
-
解决“瞎子摸象”问题
-
提升“一叶知秋”的能力
-
提升“运筹帷幄,决胜千里”的能力
大数据平台设计
稳定性:大数据平台支持量级较大的数据处理和程序计算
可扩展性:随着数据和业务的增加,可扩展是必修课
安全性:保障数据安全是大数据平台不可忽视的问题
Step1 工具化:以业务维度对常用操作工具化,避免重复劳动
Step2 平台化:将多种组件和工具集合起来,做成统一平台
Step3 产品化:在平台的基础上提高易用性,达到产品级输出
大数据技术栈
各大名企技术栈
- 美团
- 七牛云
- 知乎
- 滴滴