首页 > 其他分享 >九、DataArts Studio

九、DataArts Studio

时间:2023-07-19 19:33:33浏览次数:30  
标签:建模 指标 Studio DataArts 维度 数据

功能总览:

  •  

基本概念:


  •  主题设计:通过分层架构表达对数据的分类和定义,帮助理清数据资产,明确业务领域和业务对象的关联关系。 
  • 主题域分组:基于业务场景对主题域分组。
  • 主题域:互不重叠数据的高层面的数据分类,用于管理其下一级的业务对象。
  • 业务对象:指企业运作和管理中不可缺少的重要人、事、物信息。
  • 数据标准:用于描述公司层面需共同遵守的数据含义和业务规则。其描述了公司层面对某个数据的共同理解,这些理解一旦确定下来,就应作为企业层面的标准在企业内被共同遵守。
  • SDI:Source Data Integration (SDI)又称贴源数据层。SDI是源系统数据的简单落地。
  • DWI:Data Warehouse Integration (DWI)又称数据整合层。DWI整合多个源系统数据,源系统进来数据会有整合、清洗,基于三范式关系建模。
  • DWR:Data Warehouse Report (DWR)又称数据报告层。 DWR基于多维模型,和DWI层数据粒度保持一致。
  • DM:Data Mart (DM) 又称数据集市。DM面向展现层,数据有多级汇总。
  • 关系建模:关系建模是用实体关系(Entity Relationship,ER)模型描述企业业务,它在范式理论上符合3NF,出发点是整合数据,将各个系统中的数据以整个企业角度按主题进行相似性组合和合并,并进行一致性处理,为数据分析决策服务,但是并不能直接用于分析决策。
  • 维度建模:维度建模是从分析决策的需求出发构建多维模型,它主要是为分析需求服务,因此它重点关注用户如何更快速地完成需求分析,同时具有较好的大规模复杂查询的响应性能。多维模型是由数字型度量值组成的一张事实表连接到一组包含描述属性的多张维度表,事实表与维度表通过主/外键实现关联。在DataArts Studio数据架构中,维度建模是以维度建模理论为基础,构建总线矩阵、抽象出事实和维度,构建维度模型和事实模型,同时对报表需求进行抽象整理出相关指标体系,构建出汇总模型。
  • 指标(数据架构):指标是衡量目标总体特征的统计数值,是能表征企业某一业务活动中业务状况的数值指示器。指标一般由指标名称和指标数值两部分组成,指标名称及其涵义体现了指标质的规定性和量的规定性两个方面的特点,指标数值反映了指标在具体时间、地点、条件下的数量表现。
  • 维度:维度是用于观察和分析业务数据的视角,支撑对数据汇聚、钻取、切片分析,用于SQL中的GROUP BY条件。多数维度具有层级结构,如:地理维度(其中包括国家、地区、省以及城市等级别的内容)、时间维度(其中包括年度、季度、月度等级别的内容)。
  • 原子指标:原子指标中的度量和属性来源于多维模型中的维度表和事实表,与多维模型所属的业务对象保持一致,与多维模型中的最细数据粒度保持一致。原子指标中仅含有唯一度量,所含其它所有与该度量、该业务对象相关的属性,旨在用于支撑衍生指标的敏捷自助消费。如:零售门店数量(包含门店名称、门店等级等属性)。
  • 衍生指标:衍生指标是原子指标通过添加口径/修饰词、维度卷积而成,口径/修饰词、维度均来源于原子指标中的属性。例如:促销员门店覆盖率。
  • 复合指标:复合指标由一个或多个衍生指标叠加计算而成,其中的维度、口径/修饰词均继承于衍生指标(不能脱离衍生指标维度和口径/修饰词的范围,去产生新的维度和口径/修饰词)。
  • 数据资产:由企业拥有或者控制的,能够为企业带来未来经济利益的,以物理或电子的方式记录的数据资源。在企业中并非所有的数据都构成数据资产,数据资产是能够为企业产生价值的数据资源。
  • 数据地图:以数据搜索为核心,通过可视化方式,综合反映有关数据来源、数量、分布、标准、流向、关联关系、数据质量。让用户找到数据、读懂数据、消费数据,致力于为用户提供高效率的数据消费产品。
  • 元数据:元数据是关于数据的组织、数据域及其关系的信息,简言之,元数据就是关于数据的数据。元数据包括元数据实体和元数据元素。元数据元素是元数据的基本单元,若干个相关的元数据元素构成了元数据实体。
  • 数据服务:数据服务是基于数据分发、发布的框架,将数据作为一种服务产品提供,满足客户的实时数据需求,能复用并符合企业和工业标准,兼顾数据共享和安全。
  • API网关:API网关(API Gateway)提供API托管服务,涵盖API发布、管理、运维、售卖的全生命周期管理。帮助您简单、快速、低成本、低风险地实现微服务聚合、前后端分离、系统集成,向合作伙伴、开发者开放功能和数据。

数据架构:数据建模可视化、自动化、智能化


DataArts Studio数据架构践行数据治理方法论,将数据治理行为可视化,打通数据基础层到汇总层、集市层的数据处理链路,落地数据标准和数据资产,通过关系建模、维度建模实现数据标准化,通过统一指标平台建设,实现规范化指标体系,消除歧义、统一口径、统一计算逻辑,对外提供主题式数据查询与挖掘服务。

 

DataArts Studio数据架构主要包括以下三个部分:

  • 主题设计:构建统一的数据分类体系,用于目录化管理所有业务数据,便于数据的归类,查找,评价,使用。通过分层架构对数据分类和定义,可帮助用户厘清数据资产,明确业务领域和业务对象的关联关系。
  • 数据标准:构建统一的数据标准体系,数据标准流程化、系统化。用户可基于国家标准或行业标准,对每一行数据、每一个字段的具体取值进行标准化,从而提升数据质量和易用性。
  • 数据建模:构建统一的数据模型体系,通过规范定义和数据建模,自顶向下构建企业数据分层体系,沉淀企业数据公共层和主题库,便于数据的流通、共享、创造、创新,提升数据使用效率,极大的减少数据冗余,混乱,隔离,不一致以及谬误等。

DataArts Studio数据架构支持的数据建模方法有:

  • 关系建模:关系建模是用实体关系(Entity Relationship,ER)模型描述企业业务,它在范式理论上符合3NF,出发点是整合数据,将各个系统中的数据以整个企业角度按主题进行相似性组合和合并,并进行一致性处理,为数据分析决策服务,但是并不能直接用于分析决策。
  • 维度建模:维度建模是以维度建模理论为基础,构建总线矩阵、抽象出事实和维度,构建维度模型和事实模型,同时对报表需求进行抽象整理出相关指标体系,构建出汇总模型。

数据质量:可控可检验


数据质量模块支持对业务指标和数据质量进行监控,数据质量可检验,帮助用户及时发现数据质量问题。

  • 业务指标监控:业务指标监控是对业务指标数据进行质量管理的有效工具,可以灵活的创建业务指标、业务规则和业务场景,实时、周期性进行调度,满足业务的数据质量监控需求。
  • 数据质量监控:数据质量监控是对数据库里的数据质量进行质量管理的工具,您可以配置数据质量检查规则,在线监控数据准确性。

数据质量可以从完整性、有效性、及时性、一致性、准确性、唯一性六个维度进行单列、跨列、跨行和跨表的分析,也支持数据的标准化,能够根据数据标准自动生成标准化的质量规则,支持周期性的监控。

 

数据服务:提升访问查询检索效率


DataArts Studio数据服务旨在为企业搭建统一的数据服务总线,帮助企业统一管理对内对外的API服务,支撑业务主题/画像/指标的访问、查询和检索,提升数据消费体验和效率,最终实现数据资产的变现。

数据服务为您提供快速将数据表生成数据API的能力,同时支持您将现有的API快速注册到数据服务平台以统一管理和发布。 

 

产品优势


  • 一站式数据运营平台:贯穿数据全流程的一站式治理运营平台,提供全域数据集成、标准数据架构、连接并萃取数据价值、全流程数据质量监控、统一数据资产管理、数据开发服务等,帮助企业构建完整的数据中台解决方案。
  •  全链路数据治理管控:数据全生命周期管控,提供数据架构定义及可视化的模型设计,智能化的帮助用户生成数据处理代码,数据处理全流程质量监控,异常事件实时通知。
  • 丰富的数据开发类型:支持多人在线协作开发,脚本开发可支持SQL、Shell在线编辑、实时查询;作业开发可支持CDM、SQL、MRS、Shell、Spark等多种数据处理节点,提供丰富的调度配置策略与海量的作业调度能力。
  • 统一调度和运维:全面托管的调度,支持按时间、事件触发的任务触发机制,支持分钟、小时、天、周和月等多种调度周期。可视化的任务运维中心,监控所有任务的运行,支持配置各类报警通知,便于责任人实时获取任务的情况,保证业务正常运行。
  • 可复用行业知识库:提供垂直行业可复用的领域知识库,涵盖行业数据标准、行业领域模型、行业数据主题库、行业算法库和行业指标库等,支持智慧政务、智慧税务、智慧园区等行业,帮助企业快速定制数据运营端到端解决方案。
  • 统一数据资产管理:全局资产视图、快速查看、智能管理、数据溯源和数据开放共享,从业务视角管理和查看数据,定义业务架构、业务分类和业务术语,统一管理资产访问权限。
  • 数据运营全场景可视:数据治理运营过程可视,拖拉拽配置,无需编码;处理结果可视,更直观,便于交互和探索;数据资产管理可视,支持钻取、溯源等。

数据治理框架


 

数据是企业核心资产,企业需要建立起数据字典,有效管理其日益重要的数据和信息资源;同时建立数据持续改进机制,来不断提升数据质量。本李概要介绍了数据治理框架、数据治理组织架构和数据治理度量评估体系,然后结合华为数据治理案例和新冠疫情简单描述了数据治理的应用,最后描述了DAYU方法论在DataArts Studio产品上的落地以及详细的落地指导文档。

DAYU方法论产品落地


 DAYU数据治理方法论已经在华为云云服务数据治理中心DataArts Studio上落地实现,包括流程落地和功能落地。流程落地是指有一套详细的流程规范(需求、设计、实施、验证、发布等阶段)指导用户使用DataArts Studio开展数据治理工作;功能落地是指DataArts Studio平台提供自动化、智能化的工具帮助用户高效完成数据治理工作。

 

示例场景:在DataArts Studio平台完成端到端的全流程数据运营


本案例基于某市的出租车出行数据,选择MRS(MapReduce Service) Hive作为数据湖底座,使用DataArts Studio实施全流程数据治理,然后经过数据安全将标准化数据脱敏后,最后通过数据服务进行数据开放。期望通过实施数据治理达到以下目标:

  • 数据标准化、模型标准化
  • 统一统计口径,提供高质量数据报告
  • 数据质量监控告警
  • 统计每天收入
  • 统计某月收入
  • 统计不同支付类型收入占比

DataArts Studio使用流程

  •  

流程设计: 

  •  

表1 出租车行程数据

数据架构: 

数据架构中提供了丰富的自定义选项,统一通过配置中心提供,您可以根据自己的业务需要进行自定义配置。
在数据架构控制台,单击左侧菜单栏的“配置中心”,进入配置中心页面。进入“功能配置”页签,如下图所示,设置“模型设计业务流程步骤”。

主题设计:

标准设计:

 1、建立付款方式、供应商、费率代码 3个码表:

 

  2、新建数据标准并发布

  • 新建数据标准目录
  • 新建数据标准:

 

参考


标签:建模,指标,Studio,DataArts,维度,数据
From: https://www.cnblogs.com/tgzhu/p/16913101.html

相关文章

  • Visual Studio 2022 Net6.0 无法发现testcase, 也无法执行test case
         解决办法:      <PropertyGroup>                  <CopyLocalLockFileAssemblies>false</CopyLocalLockFileAssemblies>         <GenerateAssemblyInfo>false</GenerateAssemblyInfo>     ......
  • 在 Visual Studio 中规范化文件编辑
    代码中常会出现缩进空格数量不规范、多余空格等问题。为解决这一痛点,研发模板项目中引入了文件编辑器的配置文件,来规范化管理所有在编辑器中进行编辑的文件的格式、样式、编码约定等。1配置文件存放生成了对应的.editorconfig文件,存放在仓储的根目录。即对整个仓储所有的用V......
  • CANoe执行vTESTstudio测试用例
    来源CANoe执行测试用例_哔哩哔哩_bilibili 打开对应的CANoe工程,在主菜单中选择Test 可以看到有TestUnits和TestModules,两者有什么区别呢?如果是CANoe创建测试节点编写的测试用例,需使用TestModules执行测试,若使用vTESTstudio编写的测试用例,则须使用TestUnits执行测试。1......
  • android studio自动换行
    AndroidStudio自动换行在AndroidStudio开发中,自动换行是一项非常方便的功能。它可以使代码更易读,减少水平滚动的需求,并且可以提高代码的可维护性。本文将介绍如何在AndroidStudio中使用自动换行功能,并提供一些代码示例来演示其用法。什么是自动换行?自动换行是指当一行代码长......
  • android studio统一管理jar
    AndroidStudio统一管理jar作为一名经验丰富的开发者,你需要教会新手开发者如何在AndroidStudio中统一管理jar文件。下面将详细介绍整个流程,包括每一步需要做的事情以及相应的代码。流程概述为了统一管理jar文件,我们将使用AndroidStudio的依赖管理工具Gradle。通过Gradle,我们可......
  • Power BI外挂级辅助工具 - DAX Studio 入门 第一篇(共两篇)
    今天早上又是美好的一天,进公司刚落座。隔壁部门的Tony哥直接杀了过来,“米高米高,我们组开发了一个PBI报告,但是现在有点小问题,帮我们看下怎么解决?”是否有方法非常灵活把PBI报告里面的基础数据导出成平面文件分享给其他同事?是否有方法非常方便的查询和验证PBI报告中的数据准确性?......
  • vTESTstudio工程创建
    来源vTESTstudio工程创建_哔哩哔哩_bilibili  打开vTESTstudio整个界面如下图所示 项目试图:显示项目的层级目录,包括创建的测试用例文件,测试参数文件Libraries库视图:可导入其它可复用的文件编辑区域:编辑测试用例及测试参数输出窗口:判断编译用例是否成功数据视图:导入工程......
  • Visual Studio 2022 .NET 7读取程序集版本
    如果你也像我一样是从.NetFramwork升级到.Net7版本,那大概率会碰到不能正常读取Assembly下的正确程序集版本号,利用asm.GetName().Version读到的是0.0.0.0,解决方法是新建一个项目,并将“AssemblyInfo.cs”复制到你的项目下Properties内。一些产品名称、公司信息等自行修改,Guid可......
  • 数据标注工具 Label-Studio
    文档抽取任务LabelStudio使用指南目录1.安装2.文档抽取任务标注2.1项目创建2.2数据上传2.3标签构建2.4任务标注2.5数据导出2.6数据转换2.7更多配置3.注意items["text"]=line["data"]["text"]Label-Studio导出数据后可通过label_studio.py脚本轻松......
  • Visual Studio 中,Release、Debug、x86和x64 四个不同的概念
    Release和Debug是编译的不同配置,用于控制编译器生成的代码和符号信息的方式。Release配置用于生成最终发布版本的代码。在Release模式下,编译器会进行各种优化,以提高程序的性能和执行效率。此外,Release模式下会禁用一些调试相关的功能,如断言和运行时错误检查。它适用于最......