首页 > 其他分享 >数据质量

数据质量

时间:2023-05-17 16:33:53浏览次数:30  
标签:是否 明细 核对 质量 一致 维度 数据

一、规划

  1. 长期:基于Spark RDD,统一封装框架,支持多种监控项的配置,减轻数据核对的成本;
  2. 短期:需要梳理核心监控指标,以HQL为主,保证当前的数据质量;
  3. 范围:只包括基础事实表、维度表的数据质量验证;

二、校验类型

  1. 数据量是否一致(统计):比如:传统数仓比大数据多了多少条?差异是什么?
  2. 度量值汇总是否一致(统计):比如:交易金额(借贷记两个方向)的合计是否一致?差异是什么?
  3. 关联结果检验(统计):事实表与相关维度表join后的统计值是否一致,比如:fact表与dim_filesource关联后,groupby境内外标识,做聚合操作;
  4. 数据明细是否一致(明细):同一维度表,传统数仓与大数据数仓随机抽样50~100条,字段信息描述是否一致,如果不一致,需描述根因;
  5. 跨层清洗一致性(流程):同一事实表,ODS、DWD、DWS数据条数是否一致(文件级别)?三层字段映射是存在问题?
  6. 数据标准检测(标准):如:差错类型码、交易处理码、mcc等标准码值,需分析出是否与标准定义有差异?并定位差异根因,涉及维度表与事实表;
  7. 关键业务指标(流程 & 统计):联合BSA(KIKI年前已提供),完善基础核心指标的分层实现,并校验结果是否一致;
  8. 数据匹配是否一致(明细):如:交易类型,抽样约100条数据,跨库访问验证是否存在差异,需提供测试案例进行自动化对比(例如:Junit工具);
  9. 终态 vs 拉链(流程):是否存在终态值在scd中不存在的情况?拉链表是否存在断链的情况?
  10. 脏数据检验(基础):是否存在空字符串?电话号码非法?时间字段非法?
  11. 数据重复性检验(基础):同一文件是否存在数据重复?原因是什么?同一维度表是否存在业务主键重复的情况;
  12. ???其它

三、工具要求

  1. 统计分析类要求:需完成相关任务的开发,定时运行产出统计分析结果;
  2. 流程监控类要求:需完成相关任务的开发,定时运行产出统计分析结果;
  3. 明细核对类要求:需联合sqoop,同步抽样的数据到hive,并自动核对结果;
  4. 标准类核对要求:需从spec中,采集相关标准定义的码值,并实现从事实表、维度表中,自动采集数据模型中的实际码值,做交叉核对;
  5. 基础架构要求:长期来看,尽量采用开源已有框架,做二次封装,基于Spark Job来做,短期人工为主,需要梳理核心校验项;
  6. 自动化要求:需完全自动化;定时发送质量报告;

标签:是否,明细,核对,质量,一致,维度,数据
From: https://www.cnblogs.com/angelawu0220/p/17409213.html

相关文章

  • 动手学深度学习(十) NLP 语言模型与数据集
    语言模型一段自然语言文本可以看作是一个离散时间序列,给定一个长度为的词的序列,语言模型的目标就是评估该序列是否合理,即计算该序列的概率:本节我们介绍基于统计的语言模型,主要是元语法(-gram)。在后续内容中,我们将会介绍基于神经网络的语言模型。语言模型假设序列中的每个词是依次生......
  • 淘宝关键词搜索 API 接口分析商品价格走势(商品列表,销量,价格接口,分类 ID 精准商品数据
    淘宝OpenAPI(Openapplicationprogramminginterface)是一套REST方式的开放应用程序编程接口。淘宝网根据自己提供的电子商务基础服务,抽象并做成一系列的API接口。通过这些接口,可以让外部用户能够通过程序的方式访问淘宝网的数据和平台。淘宝OpenAPI是淘宝开放平台的重要组......
  • SpringBoot项目预加载数据——ApplicationRunner、CommandLineRunner、InitializingBe
    0、参考、业务需求参考:https://www.cnblogs.com/java-chen-hao/p/11835120.html#_label1https://zhuanlan.zhihu.com/p/541268993业务需求:缓存数据字典数据、初始化线程池、提前加载好加密证书1、方式实现ApplicationRunner接口实现CommandLineRunner接口实现In......
  • 条码打印软件如何根据需求筛选打印Excel表中的数据
    在条码打印软件中,通过导入Excel表格到数据库的方式可以批量打印标签。但是,如果Excel表格中的数据并不需要每条都打印出来,只是根据实际要求筛选打印部分数据,这种情况需要怎么做呢?今天就以珠宝标签的制作为例给大家介绍一下筛选打印Excel表格中的数据的具体方法。在条码打印软件中......
  • 删除数据文件
    用户在rac环境当中添加数据文件时文件存放位置没有存放到asm磁盘组存放到文件系统上,上去处理时文件已处于offline状态,expdp导出某张表时报ORA-31693,ORA-01110错误导致某张表没有备份出来查看需要恢复的数据文件select*fromv$recover_file118OFFLINEOFFLINE 18248608502......
  • 如何提高你的代码质量?
    1可读性1.1准确命名每种编程语言都有自己的命名规范,不同语言的风格差异有大有小,下面以Java为例:Java整体命名风格为UpperCamelCase或lowerCamelCase形式。不管是类还是变量命名要见名知意,切勿使用缩写或中文;风格统一,尽量使用英文名词,切勿中英文混合;尽量避免和Java自带类库重名......
  • python实现数据库备份与恢复
    1.概述首先,数据库的备份理论上只是一句命令的事,但是也可以通过循环遍历数据库的表实现备份,但是无疑那样会使代码量提升很多,不过就是用SQL语句,原理倒是非常简单。当然,现在市面上用的最多的还是用命令的,这条命令如果手动操作应该是在命令窗口就可以实现的,用代码的话不过是拼接下字......
  • mysql 底层数据存储结构
    内存和磁盘每次交互都是完整的页,数据页里面存放的是行(不仅仅是数据库的数据行,还有行格式等)页(16k,计算机与内存的最小单位)的上层单位还有区(一个区存放64个页,64*16k=1024k,刚好1M),区上面是段(一个或多个区组成),段上面是表空间(一个或多个段组成)行格式showtablestatuslike't_u......
  • pb中删除事件, ue_del 删除数据窗口某列的值或全部行
    //删除“开松工艺单”Longll_rowCount,ll_temp=1,ll_row,ll_idStringls_openCraftls_openCraft=this.tab_1.tabpage_1.dw_1.Object.open_craft[1]ll_id=Tab_1.Tabpage_1.dw_1.Object.order_id[1]ll_rowCount=this.tab_1.tabpage_1.dw_4.RowCount()ll......
  • Oracle客户端导出服务端数据(数据泵)生成DMP文件并导入
    1.首先了解下EXPDP和EXP的区别   1)EXP和IMP是客户端工具程序,它们既可以在可以客户端使用,也可以在服务端使用。   2)EXPDP和IMPDP是服务端的工具程序,他们只能在ORACLEQ服务端使用,不能在客户端使用   3)IMP只适用于EXP导出文件,不适用于EXPDP导出文件......