首页 > 其他分享 >数据中台开源解决方案(二)​

数据中台开源解决方案(二)​

时间:2022-10-12 18:31:30浏览次数:45  
标签:数据分析 解决方案 数据仓库 开源 可视化 Atlas 数据


前文提到数据中台商业的解决方案有很多,开源框架种类繁多,每一个模块都有很多开源的套件。可供选择的解决方案太多,重点推荐开源解决方案,框架图如下图所示。​

数据中台开源解决方案(二)​_数据


6.数据仓库

在数据平台选择好后,下一步的重要工作是实现企业的数据资产化,满足前端业务对数据应用的需求。数据资产化的关键举措是对企业的原始数据进行清洗和规整,将其转化为价值数据,然后从中抽象出主数据,进一步构建不同主题的数据标签体系。这些关键举措离不开数据仓库的标准化、存储、计算和建模体系化的支撑。目前,主流的数据仓库分为离线数据仓库和实时数据仓库,两者的典型区别是数据服务时间粒度。传统的离线数据仓库一般的数据服务时间粒度是天,实时数据仓库的数据服务时间粒度是分钟,甚至秒。从数据仓库存储和计算框架开源解决方案来看,目前行业的离线数据仓库普遍采用Hive+Spark的综合方案,而实时数据仓库当前的主流方案之一是HDFS+Flink+Kafka。目前,大部分企业在建设数据仓库时,综合考量性能、健壮性、投入产出比和运维复杂度,主要策略是以离线数据仓库的批处理计算为主,以实时数据仓库为辅助。​

7.可视化自助数据分析

数据分析是实现数据价值的关键举措之一。透过错综复杂的数据关系发现价值点是一项费力、费时的工作。好的工具能够使这项工作事半功倍。为了提高数据分析的效率,行业涌现了多种解决方案,集中体现在自助取数、自助分析、多维分析、分析可视化这几个方面,目标是实现可视化自助数据分析。可视化自助数据分析的核心功能是支持多数据源接入、权限管理、高性能计算和可视化多维分析。目前,自助​

8.规则引擎

规则引擎是常用的实现数据价值的基础工具之一,常用的应用场景有风险管理、动态定价、精准营销、监控预警等。笔者过去一直使用开源工具Drools 结合二次开发搭建规则引擎,其优点是语法规则简单、支持动态规则配置、社区热度高、网上落地案例丰富、功能丰富且不断升级迭代,缺点是相对较重、应用门槛较高、聚合计算效率低等。对于实时规则应用场景,建议使用流式计算引擎计算复杂的聚合规则,而简单的规则计算使用Drools内核。​

9.机器学习引擎

要从错综复杂的数据中挖掘出核心价值离不开算法的支持。智能化的真谛是使用机器学习算法、Al算法和其他算法不同程度地实现用机器替代人工。目前, 各种开源的算法包特别多, 当建模数据行数在千万级别时, 笔者常用 Anaconda 包和 XGBoost 包。当建模数据行数在亿级别时,笔者常用Spark MLlib。笔者使用的Al算法框架是TensorFlow。在自然语言处理方面,笔者常用的是百度的ERNIE框架,该框架在多个公开中文数据集下的性能比Google的BERT框架略好。​

10.元数据管理

Atlas和Hadoop无缝连接,能有效地支持元数据管理、数据资产分类、元数据搜索、血缘关系可视化和数据治理。Atlas支持对元数据添加标签,然后通过标签对数据资产进行分门别类的管理,并基于标签进行统一权限控制和数据资产的安全管理。同时,Atlas还可以捕获各种元数据信息(如数据的产生、表的建立和执行、数据交互、数据ETL执行、数据存储、数据安全访问、数据的使用等),并支持查看元数据和血缘的可视化,便于及时发现数据的变化,快速定位数据问题。数据具有时效性,Atlas支持数据全生命周期管理(如在过了数据时效后,临时表被自动删除)。Atlas 还支持和多个外部平台(如Hive、SAS等)的元数据互联互通。我们可以将这些平台的元数据导入Atlas中,然后应用Atlas进行元数据管理和数据治理。​

11.工作流调度和监控

数据应用百花齐放,系统后台需要对这些数据应用的工作流进行合理调度和监控,确保数据应用的及时性和稳定性。当任务运行失败时,系统要能及时发现并实时通知相关数据运维人员。这些功能是对工作流调度和监控工具的基本要求。目前,行业常用的开源工作流调度和监控工具主要是Oozie和Azkaban。两者的工作原理的最大区别是前者的工作流运行靠捕捉和监控更加细粒度的MapReduce批处理任务执行级别信息,而后者的工作流运行仅仅靠捕捉和监控较粗粒度的操作进程级别的信息。这会导致在任务出现失败或者断电后,Azkaban需要重新执行工作流,而Oozie可以基于失败的工作流重新执行。不过Azkaban的这个功能可以通过二次开发进行优化。Azkaban的优势是有完善的权限控制,支持对工作流的读写进行权限控制。​

整体而言,​

总之,通过上述介绍的开源工具的部署、应用和整合,企业可以低成本且快速地搭建一套大数据平台,支持数据资产化,实现高性能的数据分析和数据应用,高效地支持业务的数字化和智能化转型。​





标签:数据分析,解决方案,数据仓库,开源,可视化,Atlas,数据
From: https://blog.51cto.com/u_15735635/5751280

相关文章

  • 一文剖析PolarDB HTAP的列存数据压缩
    简介: PolarDBMySQL是阿里云自研的云原生数据库,主要处理在线事务负载(OLTP,OnLineTransactionalProcessing),深受企业用户的青睐。前言数据库迁移上云是大数......
  • 数据库优化学习笔记_主从分离(主改从查)
    查询分离适用场景:1.数据量大2.所有数据都需要写3.无法分离冷热数据4.即使是冷数据,依然要读写保持更新因此没法冷热分离查询分离从三个方式去建设:1)同步建立2)异步建......
  • python基础--简单数据类型预览
    为了适应更多的使用场景,将数据划分为多种类型,每种类型都有各自的特点和使用场景,帮助计算机高效的处理和展示数据。(比如数字用于数学运算、字符串用于信息传递、页面文字展......
  • 数据中台开源解决方案(一)
    数据中台商业的解决方案有很多,开源框架种类繁多,每一个模块都有很多开源的套件。以查询引擎为例,可以使用的开源工具有MySQL、Redis、Impala、MongoDB、PgSQL等。可以根据实......
  • 150-《大数据架构师》Flink StreamTask 的逻辑执行和数据流转_ev
              超时时间策略          为了环境复用       ......
  • 【杂谈】当前模型量化有哪些可用的开源工具?
    模型量化属于模型优化中的重要技术之一,是非常有效地提升模型推理速度的技术方案,那么当前有哪些可用的模型量化工具呢?作者&编辑|言有三1 TensorflowLiteTensorFlowLite......
  • 实验5:开源控制器实践——POX
    一、基础要求1、使用tcpdump验证Hub模块h1pingh22、使用tcpdump验证Switch模块L2_learning模块代码流程图h1pingh2h1pingh3二、进阶要求1、重新搭建......
  • 数据结构第二次上机
    #include<stdio.h>#include<stdlib.h>typedefstructLinkNode{  intdata;  structLinkNode*next;}LinkNode,*LinkList;voidInitLinkList(LinkList&L)/......
  • VS102-416型振弦传感器无线数据采集仪
    VS102-416型振弦传感器无线数据采集仪是结合多年的项目实际使用,安装方便、实用性强、性能稳定、数据远传、成本低廉的振弦型数据采集仪产品。VS102-416型振弦传感器无线采集......
  • 文件下载 数据流方法
    1/**2*getblob下载文件方法3*@param{Number}time4*@return{String}5*@returns{Object}{time:Number,unit:any}6*/7exportfunct......