首页 > 其他分享 >数仓优劣指标化判断

数仓优劣指标化判断

时间:2023-08-01 09:55:39浏览次数:30  
标签:数仓 指标化 优劣 次数 判断 引用 数据 用户数

  如何评价数仓的优劣,众说纷纭,其实数仓的优劣评价可以从内部、外部两个方面来评估,也可以从业务角度和技术层面来看。评价的理论很多,实际上我们可通过osm的指标体系来衡量数仓的优劣。

O:数仓优劣判断;
S:数据监控、元数据管理、业务流程的理解、预先计算好的中间表或者应用表;
M:核心度量指标;

  

  内部的评价标准主要是通过跨层引用率、表引用数、引用链路长度、表命名规范率、表迭代次数、数据泄露率、数据准时率、数据正确率等指标来判断,外部主要通过”三易”来判断,易找、易查、易用,既数据找起来容易,无歧义,数据查询效率高,数据使用安全便捷,质量靠谱,具体可考虑通过以下指标来判断:数据查阅数、数据用户数占比、数据授权人数、数据服务业务数、自助取数平均耗时、自助取数生成平均耗时等。

  假设数仓分层分为ods,dwd,dws,dm,ads共5层。

分类 指标名 指标定义 作用
内部

跨层引用率

dws,dm,ads有跨层引用的的表个数和总表数的比例

判断数仓是否按照规范进行分层以及数据分层是否合理

表引用数

表被其他表引用的次数

判断表的重要性,如果被引用的次数多,说明这个表服务的应用多,可判断为核心重点表

引用链路长度

生成目标表前串行生成的表个数

判断是否生成过多中间结果表,比如ads层的表如果是串行调度,最多5层

表命名规范率

表名的命名按照规则命名的和总表名数的比例

判断命名是否规范

表迭代次数

针对单个表的上线次数进行统计

判断表的指标定义是否清晰,迭代次数多,说明该表的稳定性有待评估

数据泄露率

统计数据泄露或者安全事故次数与数据提取出的总次数比例

判断数据安全体系的完善度

外部

数据准时率

表数据按时输出次数与总输出次数的比例

评估集群及任务失败情况

数据正确率

表数据正确输出次数与表输出总次数的比例

评估指标定义是否明确,数据质量

数据查阅数

应用层表被用户或者探索的次数

评估表的使用情况,是否有意义

数据用户数占比

使用数据用户数和授权用户数比例

方便权限管理

数据授权用户数

统计应用表授权的用户数  

数据表服务业务数

统计数据表服务的业务数

数据表提供的业务方数,评估相关表是否可以下线

自助取数平均耗时

统计用户从探索到提交语句耗时

方便评估表是否易于业务理解

自助取数生成平均耗时

统计用户提交语句到数据展示耗时

方便评估数据生成效率,集群资源情况

 

标签:数仓,指标化,优劣,次数,判断,引用,数据,用户数
From: https://www.cnblogs.com/beststrive/p/17595662.html

相关文章

  • 17-数仓基础理论
    1.数据仓库数据仓库(DataWarehouse,简称数仓、DW)是一个用于存储、分析、报告的数据系统。数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(DecisionSupport)。数据仓库本身并不“生产”任何数据,其数据来源于不同外部系统;同时数据仓库自身也不需要“消费”任何的......
  • 数仓建模—Inmon范式建模与Kimball维度建模
    数仓建模—Inmon范式建模与Kimball维度建模在数据仓库领域,有两位大师,一位是“数据仓库”之父BillInmon,一位是数据仓库权威专家RalphKimball,两位大师每人都有一本经典著作,Inmon大师著作《数据仓库》及Kimball大师的《数仓工具箱》,两本书也代表了两种不同的数仓建设模式,这......
  • 数仓知识07:数据增量更新的几种方式
    数仓知识07:数据增量更新的几种方式1、增量更新的几种方式增量更新的本质,其实是获取源表中数据变化的情况(增、删、改),然后将源表中发生的变化同步至目标表中。不同的方式,获取源表中数据变化的情况不一样,受技术的限制、表结构的限制,某些方式可能无法获取到完整的数据变化情况,因......
  • Hive数仓项目之需求分析、建模分析、优化方案Hive数仓项目之访问咨询主题看板增量的流
     往期内容:Hive数仓项目架构说明、环境搭建及数据仓库基础知识Hive数仓项目之数仓分层、数仓工具的使用Hive数仓项目之访问咨询主题看板:数据的采集、转换、分析导出Hive数仓项目之访问咨询主题看板增量的流程今日内容:访问咨询主题看板_增量的流程(操作)1.1:数据的采集1.2:数据......
  • 多领域应用落地,火山引擎ByteHouse加速云数仓升级
     更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 近日,火山引擎数智平台VeDI直播活动「超话数据」在线举办,来自火山引擎的产品及解决方案专家分享了以ByteHouse为代表的云数仓产品在字节跳动的演进过程、关键技术以及最佳实践,并通过......
  • python excel 模块优劣
    '''xlrd库:从excel中读取数据,支持xls、xlsxxlwt库:对excel进行修改操作,不支持对xlsx格式的修改xlutils库:在xlw和xlrd中,对一个已存在的文件进行修改openpyxl:主要针对xlsx格式的excel进行读取和编辑xlwings:对xlsx、xls、xlsm格式文件进行读写、格式修改等操作xlsxwriter:用来生......
  • 数仓性能调优:大宽表关联MERGE性能优化
    摘要:本文主要为大家讲解在数仓性能调优过程中,关于大宽表关联MERGE性能优化过程。本文分享自华为云社区《GaussDB(DWS)性能调优:大宽表关联MERGE性能优化》,作者:譡里个檔。【业务背景】如下MERGE语句执行耗时长达2034sMERGEINTOsdifin.hah_ae_line_sr_t_02_8663Event_1u18ol......
  • 微仓智能柜应用于机加工刀具管理的优劣势
    优势:减少浪费:微仓智能柜能够精确地记录刀具的使用情况和库存数量,有效防止刀具的过量使用和浪费,节约成本。提高效率:员工可以迅速找到所需的刀具,避免了在寻找刀具过程中浪费大量时间,提高生产效率。数据追溯:智能柜可以实时记录刀具的使用、领用、归还等操作信息,便于企业进行数据追溯和......
  • 数仓数据接入心得
    分成三种类型:状态表、流水表、配置表状态表比如账户表、用户表、订单表,记录账户额度,使用金额,订单当前流转状态,这些数据通常很大,但是又不会所有的数据都更新,因此使用增量更新的方式获取数据并更新数仓里对应的数据表。一般会使用快照表的方式展示。很少用到拉链表的形式。流水......
  • 美团买菜基于 Flink 的实时数仓建设
    摘要:本文整理自美团买菜实时数仓技术负责人严书,在FlinkForwardAsia2022实时湖仓专场的分享。本篇内容主要分为四个部分:背景介绍技术愿景和架构设计典型场景、挑战与应对一、背景介绍美团买菜是美团自营生鲜零售平台,上面所有的商品都由美团亲自采购,并通过供应链物流体系,运输到......