数据质量-评估纬度
实际做质量评估时,不一定对每个纬度每个指标都进行分析,可根据实际情况酌情选择
类型 | 详情 |
---|---|
Completeness 完整性 |
完整性指数据的记录和信息是否完整,是数据集对具体业务对象的覆盖程度,是否存在缺失的情况,主要包括记录的缺失和记录中某个字段信息的缺失。 记录的丢失。例如: ·交易支付中每天都有100万笔订单,某天订单突降至10万笔,很可能就是记录丢失; ·用户覆盖度,某业务目标用户600万,但数据集只覆盖了350w,则用户覆盖度为350/600*100%=58.3% 记录中字段的丢失,例如: ·对于商品订单来讲,订单的商品id、卖家id必然存在,字段的空值个数必然为0,否则的话违背完整性约束 |
Accuracy 准确性 |
准确性指在数据有效的前提下,数据汇总记录的信息和数据是否准确,即数据表中记录的信息与业务过程中真实发生的事实要一致。数据质量解决方案应能够在针对不同领域特定数据的已定义准确性参数下量化数据准确性。 在某些情况下,数据有效,但对于给定的业务场景而言数据不准确。 例如: ·不正确的日期:日期的格式可以有效,但是日期对于数据摄取日期可能不正确 ·产品代码不正确:分配给错误类别的产品代码 数据集是否能够精准无误的反应真是业务情况,准确性是数据质量的重要组成部分。常见指标有缺失值占比、错误值占比、异常值占比 ·抽样偏差:因统计抽样而带来的样本特征和整体特征之间的偏差 ·数据噪声:数据流通过程中因数据转化而产生的信息损失,如关键信息加密、四舍五入等 |
Consistency 一致性 Integration 关联性 |
一致性指对于同一份数据,在不同的存储位置必须保证一致性。 如用户 ID,从在线业务库加工到数据仓库,再到各个消费节点,必须都是同一种类型,长度也需要保持一致;在有些情况下,可以通过公共层的建立确保数据的一致性。 DQ工具/解决方案应该能够针对定义的上下文针对另一个数据集计算数据的一致性。 一致性度量可洞悉不同系统或流程之间相似信息集的差异。例如: ·联接关系:以计数/百分比识别联接或孤立记录,以防止在数据集成和迁移方案中丢失数据记录 ·依赖关系:一个产品代码映射到多个类别 数据的关联是不缺失的。例如两张表建立的关联关系存在,不丢失数据。 |
Validity 有效性 |
应测量与业务有关的数据有效性以及特定于域的有效性。必须支持以下验证: ·值列表(城市,国家,产品,货币,项目值等的列表) ·数据格式(GTIN格式,项目类型ID等) ·日期格式 数据格式(精度,小数位) |
Timeliness 及时性 |
及时性指数据要能及时产出,主要体现在数据应用上,要及时产出给到需求方。 及时性是数据可用性和延迟的度量。 一般决策支持分析师希望当天就能看到前一天的数据,而不是等三五天才能看到某一个数据分析结果;否则就已失去了数据及时性的价值,如阿里 “双 11” 的交易大屏数据,就要做到秒级; 一般对比数据处理与数据输入时间差定义及时性 |
Uniqueness 独特性 |
数据的唯一性是通过在过程数据的子集集中不存在重复的数据条目来定义的。 数据质量工具/解决方案应该能够借助定义为唯一标识数据集中重复信息的标准,识别出数据流中流动的重复项。 |
Conformity 规范性 |
数据是规范统一的。例如时间信息都以yyyy-mm-dd格式存储。 |