首页 > 其他分享 > 一图看懂企业大数据平台核心架构,值得参考!

一图看懂企业大数据平台核心架构,值得参考!

时间:2022-11-07 14:46:57浏览次数:72  
标签:HDFS 架构 参考 数据 数据共享 实时 Spark 一图 日志

​我们先来看看这张图,这是某公司使用的大数据平台架构图,大部分公司应该都差不多:

从这张大数据的整体架构图上看来,大数据的核心层应该是:数据采集层、数据存储与分析层、数据共享层、数据应用层,可能叫法有所不同,本质上的角色都大同小异。

所以我下面就按这张架构图上的线索,慢慢来剖析一下,大数据的核心技术都包括什么。

一、数据采集

数据采集的任务就是把数据从各种数据源中采集和存储到数据存储上,期间有可能会做一些简单的清洗。

数据源的种类比较多:

  • 网站日志:

作为互联网行业,网站日志占的份额最大,网站日志存储在多台网站日志服务器上,一般是在每台网站日志服务器上部署flume agent,实时的收集网站日志并存储到HDFS上;

  • 业务数据库:

业务数据库的种类也是多种多样,有Mysql、Oracle、SqlServer等,这时候,我们迫切的需要一种能从各种数据库中将数据同步到HDFS上的工具,Sqoop是一种,但是Sqoop太过繁重,而且不管数据量大小,都需要启动MapReduce来执行,而且需要Hadoop集群的每台机器都能访问业务数据库;应对此场景,淘宝开源的DataX,是一个很好的解决方案,有资源的话,可以基于DataX之上做二次开发,就能非常好的解决。

当然,Flume通过配置与开发,也可以实时的从数据库中同步数据到HDFS。

  • 来自于Ftp/Http的数据源:

有可能一些合作伙伴提供的数据,需要通过Ftp/Http等定时获取,DataX也可以满足该需求;

  • 其他数据源:

比如一些手工录入的数据,只需要提供一个接口或小程序,即可完成;

二、数据存储与分析

毋庸置疑,HDFS是大数据环境下数据仓库/数据平台最完美的数据存储解决方案。

离线数据分析与计算,也就是对实时性要求不高的部分,在笔者看来,Hive还是首当其冲的选择,丰富的数据类型、内置函数;压缩比非常高的ORC文件存储格式;非常方便的SQL支持,使得Hive在基于结构化数据上的统计分析远远比MapReduce要高效的多,一句SQL可以完成的需求,开发MR可能需要上百行代码;

当然,使用Hadoop框架自然而然也提供了MapReduce接口,如果真的很乐意开发Java,或者对SQL不熟,那么也可以使用MapReduce来做分析与计算;

Spark是这两年非常火的,经过实践,它的性能的确比MapReduce要好很多,而且和Hive、Yarn结合的越来越好,因此,必须支持使用Spark和SparkSQL来做分析和计算。因为已经有Hadoop Yarn,使用Spark其实是非常容易的,不用单独部署Spark集群。

三、数据共享

这里的数据共享,其实指的是前面数据分析与计算后的结果存放的地方,其实就是关系型数据库和NOSQL数据库;

前面使用Hive、MR、Spark、SparkSQL分析和计算的结果,还是在HDFS上,但大多业务和应用不可能直接从HDFS上获取数据,那么就需要一个数据共享的地方,使得各业务和产品能方便的获取数据;和数据采集层到HDFS刚好相反,这里需要一个从HDFS将数据同步至其他目标数据源的工具,同样,DataX也可以满足。

另外,一些实时计算的结果数据可能由实时计算模块直接写入数据共享。

四、数据应用

  • 业务产品(CRM、ERP等)

业务产品所使用的数据,已经存在于数据共享层,直接从数据共享层访问即可;

  • 报表(FineReport、业务报表)

同业务产品,报表所使用的数据,一般也是已经统计汇总好的,存放于数据共享层;

  • 即席查询

即席查询的用户有很多,有可能是数据开发人员、网站和产品运营人员、数据分析人员、甚至是部门老大,他们都有即席查询数据的需求;

这种即席查询通常是现有的报表和数据共享层的数据并不能满足他们的需求,需要从数据存储层直接查询。

即席查询一般是通过SQL完成,最大的难度在于响应速度上,使用Hive有点慢,可以用SparkSQL,它的响应速度较Hive快很多,而且能很好的与Hive兼容。

当然,你也可以使用Impala,如果不在乎平台中再多一个框架的话。

  • OLAP

目前,很多的OLAP工具不能很好的支持从HDFS上直接获取数据,都是通过将需要的数据同步到关系型数据库中做OLAP,但如果数据量巨大的话,关系型数据库显然不行;

这时候,需要做相应的开发,从HDFS或者HBase中获取数据,完成OLAP的功能;比如:根据用户在界面上选择的不定的维度和指标,通过开发接口,从HBase中获取数据来展示。

  • 其它数据接口

这种接口有通用的,有定制的。比如:一个从Redis中获取用户属性的接口是通用的,所有的业务都可以调用这个接口来获取用户属性。

五、实时计算

现在业务对数据仓库实时性的需求越来越多,比如:实时的了解网站的整体流量;实时的获取一个广告的曝光和点击;在海量数据下,依靠传统数据库和传统实现方法基本完成不了,需要的是一种分布式的、高吞吐量的、延时低的、高可靠的实时计算框架;Storm在这块是比较成熟了,但我选择Spark Streaming,原因很简单,不想多引入一个框架到平台中,另外,Spark Streaming比Storm延时性高那么一点点,那对于我们的需要可以忽略。

我们目前使用Spark Streaming实现了实时的网站流量统计、实时的广告效果统计两块功能。

做法也很简单,由Flume在前端日志服务器上收集网站日志和广告日志,实时的发送给Spark Streaming,由Spark Streaming完成统计,将数据存储至Redis,业务通过访问Redis实时获取。

六、任务调度与监控

在数据仓库/数据平台中,有各种各样非常多的程序和任务,比如:数据采集任务、数据同步任务、数据分析任务等;

这些任务除了定时调度,还存在非常复杂的任务依赖关系,比如:数据分析任务必须等相应的数据采集任务完成后才能开始;数据同步任务需要等数据分析任务完成后才能开始;

这就需要一个非常完善的任务调度与监控系统,它作为数据仓库/数据平台的中枢,负责调度和监控所有任务的分配与运行。

参考:http://lxw1234.com/archives/2015/08/471.htm

近期热文推荐:

1.1,000+ 道 Java面试题及答案整理(2022最新版)

2.劲爆!Java 协程要来了。。。

3.Spring Boot 2.x 教程,太全了!

4.别再写满屏的爆爆爆炸类了,试试装饰器模式,这才是优雅的方式!!

5.《Java开发手册(嵩山版)》最新发布,速速下载!

觉得不错,别忘了随手点赞+转发哦!

标签:HDFS,架构,参考,数据,数据共享,实时,Spark,一图,日志
From: https://www.cnblogs.com/javastack/p/16865890.html

相关文章

  • 京东云开发者|软件架构可视化及C4模型:架构设计不仅仅是UML
    软件系统架构设计的目标不在于设计本身,而在于架构设计意图的传达。图形化有助于在团队间进行高效的信息同步,但不同的图形化方式需要语义一致性和效率间实现平衡。C4模型通......
  • 初识微服务(技术栈、单体、分布式架构)、SpringCloud
    (目录)微服务技术栈从单体架构过度到微服务架构,需要一系列中间技术支撑,其中重要的部分包括:注册中心:Eureka、Zookeeper、Nacos服务网关:Zuul、Gateway微服务远程调......
  • api网关 & 微服务架构 & 延迟服务
     ----------------------网关-----------------------字节跳动kube-apiserver高可用方案KubeGateway EnvoyGateway会成为网关现有格局的冲击者吗?|专访Envoy创始......
  • 云运维核心技术应知应会-01_主流平台架构
    什么是云服务?基于网络相关服务的增加、使用和交互的模式,通过互联网来提供动态、易拓展、虚拟化的资源。服务模式云服务提供的方式主要有Iaas、Paas、Saas三种Iaas:提......
  • 【博学谷学习记录】超强总结,用心分享|狂野架构kafka消费者分配策略
    消费者分配策略一个consumergroup中有多个consumer,一个topic有多个partition,所以必然会涉及到partition的分配问题,即确定哪个partition由哪个consumer来消费,Kafka提供了......
  • nginx 进程模型-整体架构
    title:"Nginx进程模型-整体架构"date:2021-04-10T14:26:32+08:00draft:falsetags:["nginx","进程"]从网上找了一个非常好的图片,从图中可以看到很多东西Nginx......
  • Intel GPU Gen 9 架构
    *参考spec:the-compute-architecture-of-intel-processor-graphics-gen9-v1d0.pdf SOC架构   Gen9架构是早期用在igpu中的,igpu集成在在整个cpu的basedie上。......
  • 架构遗留应用程序和现代化方案
    架构遗留应用程序和现代化方案     毫无疑问,我们所有从事软件工程师或架构师工作的人都曾在任何时候接触过遗留应用程序。在这篇文章中,我们的目标是了解遗留系统和重......
  • 抛弃 IaaS PaaS SaaS 架构的云操作系统 sealos - 像使用 PC 一样用云
    什么是sealos开源地址sealos是一个以kubernetes为内核的云操作系统发行版。sealos希望做一个通用的云操作系统,让用户不管是私有云还是公有云都可以非常低门槛的用云......
  • 分布式架构碎片
    转载:https://www.cnblogs.com/imyalost/p/15318976.html异地多活定义:广域的分布式架构;目的:容量扩展,资源弹性;实质:多个不同地域不同规模的数据中心;收益:更强的容灾能力,用......