数据质量

数据质量

时间：2023-05-17 16:33:53浏览次数：32

标签：是否明细核对质量一致维度数据

一、规划

长期：基于Spark RDD，统一封装框架，支持多种监控项的配置，减轻数据核对的成本；
短期：需要梳理核心监控指标，以HQL为主，保证当前的数据质量；
范围：只包括基础事实表、维度表的数据质量验证；

二、校验类型

数据量是否一致（统计）：比如：传统数仓比大数据多了多少条？差异是什么？
度量值汇总是否一致（统计）：比如：交易金额（借贷记两个方向）的合计是否一致？差异是什么？
关联结果检验（统计）：事实表与相关维度表join后的统计值是否一致，比如：fact表与dim_filesource关联后，groupby境内外标识，做聚合操作；
数据明细是否一致（明细）：同一维度表，传统数仓与大数据数仓随机抽样50~100条，字段信息描述是否一致，如果不一致，需描述根因；
跨层清洗一致性（流程）：同一事实表，ODS、DWD、DWS数据条数是否一致（文件级别）？三层字段映射是存在问题？
数据标准检测（标准）：如：差错类型码、交易处理码、mcc等标准码值，需分析出是否与标准定义有差异？并定位差异根因，涉及维度表与事实表；
关键业务指标（流程 & 统计）：联合BSA（KIKI年前已提供），完善基础核心指标的分层实现，并校验结果是否一致；
数据匹配是否一致（明细）：如：交易类型，抽样约100条数据，跨库访问验证是否存在差异，需提供测试案例进行自动化对比（例如：Junit工具）；
终态 vs 拉链（流程）：是否存在终态值在scd中不存在的情况？拉链表是否存在断链的情况？
脏数据检验（基础）：是否存在空字符串？电话号码非法？时间字段非法？
数据重复性检验（基础）：同一文件是否存在数据重复？原因是什么？同一维度表是否存在业务主键重复的情况；
？？？其它

三、工具要求

统计分析类要求：需完成相关任务的开发，定时运行产出统计分析结果；
流程监控类要求：需完成相关任务的开发，定时运行产出统计分析结果；
明细核对类要求：需联合sqoop，同步抽样的数据到hive，并自动核对结果；
标准类核对要求：需从spec中，采集相关标准定义的码值，并实现从事实表、维度表中，自动采集数据模型中的实际码值，做交叉核对；
基础架构要求：长期来看，尽量采用开源已有框架，做二次封装，基于Spark Job来做，短期人工为主，需要梳理核心校验项；
自动化要求：需完全自动化；定时发送质量报告；

标签：是否,明细,核对,质量,一致,维度,数据
From： https://www.cnblogs.com/angelawu0220/p/17409213.html

动手学深度学习(十) NLP 语言模型与数据集
语言模型一段自然语言文本可以看作是一个离散时间序列，给定一个长度为的词的序列，语言模型的目标就是评估该序列是否合理，即计算该序列的概率：本节我们介绍基于统计的语言模型，主要是元语法（-gram）。在后续内容中，我们将会介绍基于神经网络的语言模型。语言模型假设序列中的每个词是依次生......
淘宝关键词搜索 API 接口分析商品价格走势（商品列表，销量，价格接口，分类 ID 精准商品数据
淘宝OpenAPI（Openapplicationprogramminginterface）是一套REST方式的开放应用程序编程接口。淘宝网根据自己提供的电子商务基础服务，抽象并做成一系列的API接口。通过这些接口，可以让外部用户能够通过程序的方式访问淘宝网的数据和平台。淘宝OpenAPI是淘宝开放平台的重要组......
SpringBoot项目预加载数据——ApplicationRunner、CommandLineRunner、InitializingBe
0、参考、业务需求参考：https://www.cnblogs.com/java-chen-hao/p/11835120.html#_label1https://zhuanlan.zhihu.com/p/541268993业务需求：缓存数据字典数据、初始化线程池、提前加载好加密证书1、方式实现ApplicationRunner接口实现CommandLineRunner接口实现In......
条码打印软件如何根据需求筛选打印Excel表中的数据
在条码打印软件中，通过导入Excel表格到数据库的方式可以批量打印标签。但是，如果Excel表格中的数据并不需要每条都打印出来，只是根据实际要求筛选打印部分数据，这种情况需要怎么做呢？今天就以珠宝标签的制作为例给大家介绍一下筛选打印Excel表格中的数据的具体方法。在条码打印软件中......
删除数据文件
用户在rac环境当中添加数据文件时文件存放位置没有存放到asm磁盘组存放到文件系统上，上去处理时文件已处于offline状态，expdp导出某张表时报ORA-31693，ORA-01110错误导致某张表没有备份出来查看需要恢复的数据文件select*fromv$recover_file118OFFLINEOFFLINE 18248608502......
如何提高你的代码质量？
1可读性1.1准确命名每种编程语言都有自己的命名规范，不同语言的风格差异有大有小，下面以Java为例：Java整体命名风格为UpperCamelCase或lowerCamelCase形式。不管是类还是变量命名要见名知意，切勿使用缩写或中文；风格统一，尽量使用英文名词，切勿中英文混合；尽量避免和Java自带类库重名......
python实现数据库备份与恢复
1.概述首先，数据库的备份理论上只是一句命令的事，但是也可以通过循环遍历数据库的表实现备份，但是无疑那样会使代码量提升很多，不过就是用SQL语句，原理倒是非常简单。当然，现在市面上用的最多的还是用命令的，这条命令如果手动操作应该是在命令窗口就可以实现的，用代码的话不过是拼接下字......
mysql 底层数据存储结构
内存和磁盘每次交互都是完整的页，数据页里面存放的是行（不仅仅是数据库的数据行，还有行格式等）页（16k，计算机与内存的最小单位）的上层单位还有区（一个区存放64个页，64*16k=1024k，刚好1M），区上面是段（一个或多个区组成），段上面是表空间（一个或多个段组成）行格式showtablestatuslike't_u......
pb中删除事件, ue_del 删除数据窗口某列的值或全部行
//删除“开松工艺单”Longll_rowCount,ll_temp=1,ll_row,ll_idStringls_openCraftls_openCraft=this.tab_1.tabpage_1.dw_1.Object.open_craft[1]ll_id=Tab_1.Tabpage_1.dw_1.Object.order_id[1]ll_rowCount=this.tab_1.tabpage_1.dw_4.RowCount()ll......
Oracle客户端导出服务端数据（数据泵）生成DMP文件并导入
1.首先了解下EXPDP和EXP的区别 1)EXP和IMP是客户端工具程序,它们既可以在可以客户端使用,也可以在服务端使用。 2)EXPDP和IMPDP是服务端的工具程序,他们只能在ORACLEQ服务端使用,不能在客户端使用 3)IMP只适用于EXP导出文件,不适用于EXPDP导出文件......

一、规划

二、校验类型

三、工具要求

相关文章

赞助商

阅读排行