首页 > 其他分享 >数据标准

数据标准

时间:2024-04-25 12:13:12浏览次数:23  
标签:管理 业务 标准 企业 数据 进行

什么是数据标准

1.数据标准的概念

首先,我们要明白什么是数据标准概念,根据中国通信院的定义:数据标准,是指保障数据的内外部使用与交换的一致性和准确性的规范性约束。

我们可以简单理解,数据标准,就是组织内部各个部门,各个数据相关人,共同使用的一个语言,达成的一个共识。

比如一个部门内部在开会,有人说方言,有人说英语,有人说普通话,大家由于语言不一致,导致沟通费时费力。而如果制定统一的标准,比如统一使用普通话,那么沟通会顺畅很多。

秦始皇统一六国之后,要求国内统一文字,货币,度量衡,本质就是制定社会的标准规范,目的是让社会能够更加高效运转。

所以,对于企业来说,数据标准,为业务运营和管理决策提供相应的保障。如果没有标准,那么企业的运营管理将会混乱不堪。

2.数据标准管理不善导致3大问题

很多组织在发展初期,因为数据量不足,导致数据标准缺乏整体规划,等组织发展壮大,发现各个部门的各个系统由不同厂商和商品搭建,导致数据共享困难,理解歧义,无法有效分析。

组织,通常因为没有制定严格的数据标准,管理不善出现以下3种问题:

(1)数据共享难以实现

由于各个系统的数据存储结构不一致,分布在多个系统的不同数据,没有统一的标准,无法关联整合和分析,影响不同系统之间的数据共享。

比如一家大型企业,老部门使用老的A系统,新部门使用新的B系统,不同系统的存储结构不同,导致数据共享困难。

(2)数据名称,标准不规范,语义不清

没有数据标准,不同系统对同一种数据,有不同的命名,业务含义,取值范围,容易造成同义不同名,同名不同义,让数据使用者产生误解的情况。

比如同一银行的不同网点,有的系统把客户叫做用户,有的把客户叫做客户,有的把客户叫做开卡客户,指的都是同一含义,但因没有数据标准,导致有不同名称,让业务数据统计分析,部门之间沟通理解费时费力。

(3)数据理解沟通成本高

数据没有统一规范和标准,对于同一数据,不同人员的理解不一致,导致沟通交流成本增加,降低企业组织内部的运转效率。

比如同一家公司的北京和武汉业务部门,北京部门把消费金额超过10万的客户设定为vip客户,武汉部门把消费超过5万的设定为vip客户。两个部门对vip客户的理解不一致,也导致总部系统管理分析用户数据混乱,无法对用户进行系统归类运营。

3.数据标准规范3大分类

在企业日常管理和业务发展中,我们一般会从业务,技术,管理维度去分析和拆解数据标准。

(1)业务标准规范

业务标准规范,一般包括业务的定义,标准的名称,标准的分类等。比如企业的CRM系统,要判断客户是否为老客户,我们要通过用户消费金额,消费频率,消费日期等维度做判断,这个维度就是数据判断标准。

对于业务人员而言,数据标准化建设,可以提升业务的规范性,提升自己的工作效率;同时,保障了数据含义的一致性,降低了沟通成本,给业务的数据分析,挖掘,信息共享提供了便利。

(2)技术标准规范

技术标准规范,是从技术角度,看待数据标准包括了数据的类型,长度,格式,编码规则等。比如企业员工要在公司系统填写客户信息,那么客户的姓名,手机号这些数据,都需要设定相应类型,长度规范,如果你把姓名输入手机号框,系统就会显示错误。

对于技术人员来说,有了数据标准规范,工作效率可以大幅度提升,降低系统的出错率,有助于提升数据质量。

(3)管理标准规范

管理标准规范,是从管理角度,看待数据标准。比如数据标准的管理者是谁,如何增添,如何删减,访问标准条件等,都是一个数据规范要求。

对于管理人员来说,数据标准建设,保证了数据的完整,准确,为数据安全,经营决策都提供了支持和保障。

 

 02 

数据标准3大作用价值

我们知道了数据标准的概念和以及治理不善的3个问题,明白了它的重要性。数据标准建设管理,是数据治理中重要的一环,对于企业来说,主要有这3大作用:

1.保证数据的统一规范和完整

拥有统一的数据标准,企业内部的业务数据,管理数据,技术数据,都有一个流程和规范,保证了数据定义和使用的一致性,降低企业内部的数据沟通成本。

2.数据标准,提升数据质量

拥有了数据标准,企业内部就可以对数据进行判断,核查,删减,减少了无效数据的转换,促进了数据更好地集成,提高了企业内部整体的数据质量。

3.数据标准,为后续发展做保障

不少企业在不断发展壮大的过程中,数据量会不断增大,数据系统会增多,这个时候往往需新建系统,而之前的数据标准,可以为后续的数据标准规划做基础,大大减少系统数据标准建设的工作量,为企业后续的发展做保障。

 03 

数据标准管理实施6部曲

既然企业数据标准管理这么重要,对业务,技术和管理三个方面都有很大的帮助,那么企业如何把数据标准具体实施管理呢?数据标准管理落地实施,主要有6大步骤:

 

数据标准实施流程图

1.制定目标和界定范围

首先,第一步是组织需要制定数据标准目标,需要达到什么水平,数据标准管理要达到到什么程度,战略方向目的要明确。

接着我们需要界定数据标准的范围,根据企业自身的管理和业务发展需求制定数据标准,比如业务场景需求,管理需求,产品功能需求等,制定客户标准,产品标准等。

2.数据标准调研

第二步,组织需要对整个组织的数据标准管理情况进行调研和汇总。通过调研企业数据标准现状,弄清哪些系统的数据标准问题比较严重,哪些字段不符合标准,为后续的数据标准落地提供支撑和指导。

数据标准管理调研,通常有3个步骤;

第一步,用调研表的方式,去调研企业内部组织标准,名称规范情况,业务系统表等情况

第二步,分析收集的资料问题,与国标,行标,企业内部需求标准进行对比

第三步,制定数据标准落标策略,比如哪些标准非强制,哪些是强制的,对哪些字段,表名称需要进一步统一。

 

3.明确组织和流程

把数据标准目标与企业内部情况了解后,第三步,企业需要明确组织和管理流程制度,这样才能使数据标准项目推进落实。

(1)数据标准管理角色制定

数据标准管理组织,是数据标准治理项目的重要推手,不可或缺,很多企业的数据治理项目失败,就是没有相应的组织推动,最后不了了之。

数据标准管理角色,通常有数据治理管控委员会,数据标准管理岗,数据标准管理专员,IT项目组这4个。

数据治理管控委员会,是组织领导层承担的,主要目的是领导各个部门的工作,负责组织协调和推进,落实监督的作用。

数据标准管理岗,是由IT部门负责人担任,需要总体协调和管理数据标准工作,负责数据标准项目的工作开展。

数据标准管理专员,是由各个业务部门业务员担任,主要作用是对数据标准的执行,根据实际情况,提出优化新的变更需求。

IT项目组,是由企业内部的IT项目人员造成,主要负责数据标准落地执行,也是需求提出方。

企业可根据自己实际情况,灵活调整组织架构,制定出适合自身的数据标准管理部门。

(2)管理流程制度制定

确定了数据治理相关组织人员后,接下来企业需要结合自身实际业务和管理场景,制定相应的管理流程制度。

常见管理流程有:

①标准变更流程。如果数据标准发生变化,相应的变更申请,审批,通过的流程制度是什么。

②标准落地执行。标准制定后,是如何随着业务,技术,管理流程落实到具体的场景需求上。

③数据标准管理制度。平时数据标准是如何管理,什么时候检核,什么时候定期分析管理效果,如何提出完善修改建议等。

 

4.数据标准编制与发布

治理目标,企业内部调研,组织架构和流程制度搭建好后,第四步,就是企业需要根据实际情况,制定自己的数据标准,并且发布使用到具体的管理,业务场景中。

数据标准编制,通常有4个步骤:

(1)制作数据标准管理文档

第一步,收集国标,行标要求,并且结合企业自身管理和业务要求,形成自己独特的数据标准管理文档。

(2)制定初版数据标准

企业业务和管理需求与IT数据管理岗协调沟通,制定出初版的数据标准管理文档。

(3)数据标准审核

数据管理专员,逐条与数据标准管理部门讨论,是否符合数据标准,是否能落标,是否符合业务发展等,从多个角度对标审核,最终得到定版标准。

(4)定版数据标准发布

标准制定好后,我们需要向数据治理委员会汇报定版标准,内部发布,收集反馈,以及后续对数据标准进行维护和更新。

5.数据标准宣贯

数据标准定版后,企业需要向内部组织一场数据标准的宣贯会。宣贯会主要有3个目的:

①阐述数据标准的意义和价值,提升企业内部人员对数据标准管理的重视程度

②数据标准管理方法的宣贯,研读管理方法,为后续数据标准提供制度依据

③数据标准的落标培训,提高使用人员的熟练度,让数据标准可以更好更快实行,发挥价值

6.数据标准平台落地运营

宣贯会结束后,最后一步就是数据标准在数据标准平台进行落地,主要分为4个步骤:

(1)数据标准录入

第一步,企业需要把已经制定好的数据标准,直接录入到相应的数据标准平台系统。

(2)数据标准评估

系统用新的数据标准,应用于之前陈旧的数据中,测试数据效果是否明显。通过管理,技术,业务的维度查看效果,进行适当修改后,满足大部分要求后,投入使用到实际场景中。

(3)数据标准效果跟踪

企业需要定期评估,持续跟踪数据标准管理的落地情况,它是否提高了企业运营管理效率,为业务辅助做提升。

(4)数据标准管理日常运营提升

最后就是数据标准管理的日常运营提升。数据使用人员通过不断深入接触到新的场景和需求,数据标准需要新增,修改,删减,变更等,不断完善,达到更加适应企业管理经营的目的。

 04 

数据标准治理平台

我们已经知道了数据标准在企业数据治理的重要性,它是企业管理经营顺畅的必修课,而想要实现良好的数据标准,企业需要一个功能丰富强大的数据治理平台。

睿治数据治理平台提供了一套完整的数据标准管理流程及办法,通过统一的数据标准制定和发布等一系列的活动,结合制度约束、系统控制等手段,实现企业大数据平台 数据的完整性、有效性、一致性、规范性、开放性和共享性管理,为后续数据质量检查、 数据安全管理等提供标准依据。

睿治平台的数据标准管理功能,有4大特点:

1.配置灵活的数据标准属性

企业有业务,技术,管理不同的需求场景,可能存在需要录入不同属性的数据标准。

为了满足不同项目对数据标准的设计,睿治数据治理平台提供了数据标准集管理,内置了业务属性、技术属性、管理属性、质量属性、主数据属性、生命周期属性等供用户选择使用,并支持自定义属性,全方位满足用户需求。

新建标准集

2.完备的数据标准审批

当企业有新的数据标准需求,可以新建数据标准保存,并发起审批。

审批支持通过、退回操作, 可采用邮件或任务提醒的方式通知参与审批的用户。同时睿治还支持审批列表的搜索,快速定位数据标准,操作数据一览无遗。

数据标准发布审批

3.智能精确的数据标准落地评估

数据标准制定后,企业管理者想查看执行效果怎么办?

睿治平台提供对数据标准进行落地评估工,并支持多种方式评估,包括单条数据标准、标准集进行评估,同时支持通过数据标准和元数据双向评估标准落地情况,每个数据标准效果反馈轻松了解。

数据标准落地评估结果

4.灵活有效的数据标准监控

数据标准的变更,使用,删减情况,会影响整个组织的运营管理,如此重要所以企业需要对数据标准进行监控。

睿治的数据标准监控功能可以对数据标准的 KPI 指标进行监控,包括已生成标准个数,失效个数, 提交个数,通过个数,退回个数等指标。另外,监控表可根据客户需求进行二次改造,让管理者实时了解数据标准的使用,变更,删减情况。

数据标准监控

 

 

--------------------------

 

数据标准是指为特定领域或行业制定的一套规范,用于定义数据的结构、格式、约束和内容。数据标准旨在确保数据在不同系统、组织以及业务场景之间的一致性和互操作性。 数据标准可以包括以下内容: 

1. 数据模型:定义了数据的结构和关系,包括实体、属性和关系等。 

2. 数据格式:规定了数据的表示方式,如文本、数字、日期等。 

3. 数据元素和命名约定:定义了数据元素的名称、定义、长度、数据类型和其他属性。 

4. 数据字典:提供了对数据元素的详细定义和描述,包括数据的来源、含义、用途等。 

5. 数据编码和分类:用于对数据进行分类和编码,以方便数据的组织、检索和分析。 

6. 数据质量规范:定义了数据的质量标准和要求,包括准确性、完整性、一致性等。 

7. 数据安全和隐私规范:规定了数据的访问、使用和保护的规则和要求。 

数据标准的制定和实施有助于解决数据整合、数据质量、数据共享等数据治理方面的挑战,促进数据的有效管理和利用。通过遵循数据标准,组织能够更好地实现数据共享、数据分析和业务流程的协同。

以上是一个非常全面的数据标准的定义,基于以上分析,对于数据标准可以分成3类:

 

图片

 

 

对于业务属性和技术属性一般是到字段级,而管理属性是到表级.

对应于以上的数据标准的分类,我们可以分为数据编码标准,命名标准,数据元标准三类,

1、数据编码标准表达的是一个数据元里面的编码的取值范围,例如,中国的省份有56个,那么用不同的数字或者编码代表不同省份名称,为后期不同业务域使用提供了统一的标准,方便后期数据仓库在进行数据融合的时候进行关联融合。

2、命名标准,主要包含库名称标准、表名称标准、字段名称标准,而字段名称标准一般是在数据元标准。库名称标准和表名称标准,为后期识别表建立好的基础

 

3、数据元标准是指每个字段的标准,这时是包含业务属性和技术属性,通过详细的定义业务属性和技术属性,规范到表的创建和建模。

对于标准的执行落地,主要是通过现状调研、标准设计、标准映射、标准执行和标准管理,五个阶段进行执行。

 

图片

 

 

对于标准的映射主要是通过质量管理中将监控的字段和数据标准进行映射,通过质量评分,了解实际数据对标准的满足程度。

而对于标准的执行则需要根据实际情况分为两种情况进行执行

1、从源头控制:各系统建设改造,新建系统的调整(模型、界面、功能、接口)、短期兼容方案、系统长期改造方案、

2、数据清洗:辅助数据补录、历史数据转换、手工调整等

此外,数据标准管理应该制定一个有效的数据标准保护机制。目前,企业通常采用事前、事中和事后的三种模式对数据标准进行管理。事前管控是在项目/系统建设的需求分析阶段介入,以确保系统建设在起始阶段就围绕数据标准进行设计。例如,发布的标准可以为业务系统在系统设计时提供参考。事中管控是在项目/系统开发过程中进行管控,利用数据研发工作站等工具,在数据开发过程中应用数据标准。例如,发布的标准可以供系统或项目调用使用。事后管理是在项目上线阶段进行审核,对不符合标准要求的情况进行说明,并在需要更新数据标准时进行更新。例如,进行质量标准的监督等。

 

----------------

 

导读:提到“标准”二字,我们第一时间能够想到的就是一系列的标准化文档,例如:产品设计标准、生产标准、质量检验标准、库房管理标准、安全环保标准、物流配送标准等,这些标准有国际标准、国家标准、行业标准、企业标准等。而我们所说的数据标准却不单单是指与数据相关的标准文件,数据标准是一个从业务、技术、管理三方面达成一致的规范化体系。

数据标准是什么?

数据标准化是指研究、制定和推广应用统一的数据分类分级、记录格式及转换、编码等技术标准的过程。——维基百科。

笔者理解:数据标准是一套由管理制度、管控流程、技术工具共同组成的体系,是通过这套体系的推广,应用统一的数据定义、数据分类、记录格式和转换、编码等实现数据的标准化。

 

企业数据标准管理的内容

1、数据模型标准,即元数据的标准化。自己从事IT行业10多年,一路走来,曾经做开发的时候一度认为数据模型没什么,只不过就是表结构、存储过程的设计,后来接触了数据集成ETL、ESB,虽然也知道ETL脚本本身也是元模型的一部分,但对其重要程度也没放在心上。

后来慢慢发现之前的想法还过于简单,如果把企业信息化比作是人体的话,数据模型就是其骨架,数据之间的关系和流向是其血管和脉络,数据是其血液,数据模型的标准化是其数据血液能够正常流动和运行的根本。数据模型标准是元数据管理的主要内容,是企业数据治理的基础。请参考《数据治理系列2:元数据管理—企业数据治理的基础》

2、主数据和参照数据标准。主数据是用来描述企业核心业务实体的数据,比如客户、供应商、员工、产品、物料等;它是具有高业务价值的、可以在企业内跨越各个业务部门被重复使用的数据,被誉为企业的“黄金数据”。参考数据是用于将其他数据进行分类或目录整编的数据,是规定数据元的域值范围。参照数据一般是有国标可以参照的,固定不变的,或者是用于企业内部数据分类的,基本固定不变的数据。个人认为主数据与参照数据的标准化是企业数据标准化的核心。请参考《主数据管理实施四部曲概论》

 

 

 

3、指标数据标准。指标数据是在实体数据基础之上,增加了统计维度、计算方式、分析规则等信息加工后的数据。指标数据标准是对企业业务指标所涉及的指标项的统一定义和管理。企业的财务、销售、采购、生产、质量、售后等各业务域均分布都有其相应的业务指标。这些指标不仅需要在业务系统中统计和展现还需要在数据分析系统中展现,有的指标数据需要多个从不同的业务系统中进行获取。

 

没有指标数据标准化,你可以想象在每次数据平台有新分析主题构建或旧的分析主题变革,都需要从所涉及的各个系统、库表中进行分析和定义,需要耗费的成本巨大。同时,目前大数据分析都提倡业务人员的自助化分析,没有指标数据标准,业务人员要从不同系统中拿到自己想要的数据进行分析几乎是不可能的。

 

企业数据标准的梳理

企业数据标准项目的实施,要根据业界经验和企业实际情况确定实施范围,并根据优先级和难易度制定计划。需要从企业业务域、业务活动、对象实体、实体关系等方面层层递进,逐步展开。对于数据梳理的方法主要用到IRP(企业信息资源规划)和数据仓库的数据梳理法。这两种方式我在《主数据管理实施四部曲概论》的文章进行过分享,有兴趣可以关注。

 

企业数据标准梳理一般需要以下步骤:

 

 

 

首先,对企业业务域进行定义,并对每个业务域中的业务活动进行梳理,同时需要收集各类业务单据、用户视图,梳理每个单据和用户视图的数据对象。

 

其次,针对数据对象的进行分析,明确每个数据实体所包含的数据项,同时,梳理并确定出该业务域中所涉及的数据指标和指标项。分析并定义每个数据实体或指标的数据项标准,包括:数据项的名称、编码、类型、长度、业务含义、数据来源、质量规则、安全级别、域值范围、管理部门等。

 

第三,梳理和明确所有数据实体、数据指标的关联关系,并对数据之间的关系进行标准化定义。数据关系也是数据标准管理的内容。

 

第四,通过以上梳理、分析和定义,确定出主数据标准管理的范围。

 

数据标准梳理和建设的方法并不难掌握,关键是建设过程中需要收集并整理大量的业务规范、制度章程、法律法规、监管规定、国家标准,并将这些规定具象到数据标准定义的信息项中。对于一个从未做过数据标准的实施团队而言,这将意味着巨大的工作量。

 

数据标准管理组织

数据标准管理是企业数据治理的一部分,数据标准管理是一个涉及范围广、业务复杂、数据繁杂的工程。数据标准管理的实施绝非是一个部门的事情,不能在企业的单一部门得到解决。需要从整个组织考虑,建立专业的数据治理组织体系,制定企业数据战略和实施路线图,明确各阶段数据标准工作的目标和内容,并监督及考核数据标准的贯彻与执行。

 

数据标准管理组织或数据治理组织从职能划分上可以分为三层,如下图所示:

 

 

1、数据标准管理委员会,即数据治理的决策层,主要负责制定企业数据战略、把控数据治理的总体策略,审查数据标准的贯彻执行情况。

2、数据标准管理办公室,是数据治理的经营管理层,主要负责企业数据标准的制定、审查数据质量,贯彻数据标准落地。

3、数据标准执行层或业务操作层,主要负责数据标准的贯彻执行,并为数据标准的编制和优化提供数据和意见。

 

数据标准设计流程

数据标准的设计从需求发起到落地执行,一般需要经过标准编制、标准审查、标准发布、标准贯彻四个阶段:

 

 

 

1. 数据标准编制:数据标准管理办公室根据数据需求开展数据标准的编制工作,确定数据数据项,数据标准管理执行组根据所需数据项提供数据属性信息,例如:数据项的名称、编码、类型、长度、业务含义、数据来源、质量规则、安全级别、域值范围等。数据标准管理办公室参照国际、国家或行业标准对这些数据项进行标准化定义并提交审核。注:如没有参考标准,则数据标准管理办公室可根据企业情况制定相应的企业级数据标准。

 

2. 数据标准审查:数据标准管理委员会对数据标准初稿进行审查,判断数据标准是否符合企业的应用和管理需求,是否符合企业数据战略要求。如数据标准审查不通过,则有数据标准管理办公室进行修订,直到满足企业数据标准的发布要求。

 

3. 数据标准发布:数据标准审查通过后,由数据标准管理办公室面向全公司进行数据标准的发布。该过程数据标准管理执行组需要配合进行数据标准发布对现有应用系统、数据模型的影响评估,并做好相应的应对策略。

 

4. 数据标准贯彻:把已定义的数据标准与业务系统、应用和服务进行映射,标明标准和现状的关系以及可能影响到的应用。该过程中,对于企业新建的系统应当直接应用定义好的数据标准,对于旧系统应对一般建议建了相应的数据映射关系,进行数据转换,逐步进行数据标准的落地。

 

企业进行数据标准化时,除了对数据本身标准化规则构建外,相当大一部分需要考虑标准化流程的管理。而在管理过程中必然会涉及到新旧系统、不同部门、不同业务的冲突,这些冲突如果解决不好将会直接导致标准化的失败。所以,数据标准落地过程要充分做好影响评估和各干系方的沟通。

 

数据标准管理价值总结:

一个数据一般有业务属性、技术属性和管理属性组成,例如:数据项的业务定义、业务规则、质量规则为该数据的业务属性;数据项的名称、编码、类型、长度等为该数据的技术属性;数据的存储位置、管理部门、管理人员为该数据的管理属性。而数据标准管理的过程就是对数据以及数据的属性信息的标准化定义和应用的过程。

 

数据标准目标是为业务、技术和管理提供服务和支持。

 

业务方面:通过对实体数据的标准化定义,解决数据不一致、不完整、不准确等问题,消除数据的二义性,使得数据在企业有一个全局的定义,减少了各部门、各系统的沟通成本,提升企业业务处理的效率;标准统一的数据指标体系,让业务人员也能够轻松获取数据,并能够自助式的进行数据分析,为基于数据的业务创新提供可能。

技术方面:统一、标准的数据及数据结构是企业信息共享的基础;标准的数据模型和标准数据元为新建系统提供支撑,提升应用系统的开发实施效率;数据标准化清晰定义数据质量规则、数据的来源和去向、校验规则,提升数据质量。

管理方面:通过数据的标准化定义,明确数据的责任主体,为数据安全、数据质量提供保障;统一、标准的数据指标体系为各主题的数据分析提供支持,提升数据处理和分析效率,提供业务指标的事前提示、事中预警、事后提醒,实现数据驱动管理,让领导能够第一时间获取决策信息。

 

数据标准与主数据、元数据、数据质量的关系

 

 

数据治理项目的根本诉求在于提升数据质量

 

数据标准与主数据的关系

从范围上看,数据标准包括数据模型标准、主数据标准、参照数据标准、数据指标标准和其他数据元标准,主数据是数据标准的一个子集;从数据梳理和识别、能力成熟度评估、数据标准编制、数据管理和应用、管理体系建设、实施涉及的业务面等方面,数据标准和主数据都是基本相同的。企业在数据治理项目中,有整体建设的,包含了:元数据、主数据、数据标准等领域;也有分开建设的,例如:主数据项目单独立项,数据标准管理和数据仓库放在一起实施;企业应根据自身的实际情况和需求,明确实施范围和内容,制定适合企业发展需要的数据治理路线图。

 

数据标准与元数据的关系

元数据是数据标准的基础,企业在制定数据标准的时候最先需要明确的就是数据业务属性、技术属性和管理属性,而这三类属性就是我们所说的业务元数据、技术元数据和管理元数据。基于元数据的数据标准管理,为业务实体的定义、关系和业务规则到IT实现之间提供清晰、标准的语义转换,提高业务和IT之间的一致性,保障IT系统能够真实反映业务事实。并为数据标准系统与其他业务系统的集成,提供有关数据标准、数据映射关系和数据规则的描述,为业务系统的集成提供支撑。

数据标准与数据质量的关系

没有标准化就没有信息化,那就更谈不上数据质量了。通过对数据标准的统一定义,明确数据的归口部门和责任主体,为企业的数据质量和数据安全提供了一个基础的保障。通过对数据实体、数据关系以及数据处理阶段,定义统一的标准、数据映射关系和数据质量规则,使得数据的质量校验有据可依,有法可循,为企业数据质量的提升和优化提供支持。

 

------------------

 

1、数据标准的是什么?
在实际的工作生产中,我们一般会参照国家标准、地方标准、行业标准等来进行具体的活动,来确保我们生成过程符合监管要求、便于上下游协同等,于是我们会见到如下的标准指导文件:

 

同样,数据标准也会以文件的形式存在,在除了国标、行标定义的标准外,企业内部为了便于各部门采取同样的数据建设规范,通常会使用文件来定义数据标准,以供各部门达成统一的共识。

虽然文件是标准的一种体现形式,但文件是非结构化的,在实际应用中,我们只有理解、提取文件里的内容,将标准应用于产品设计及流程活动当中去,标准才能起到真正的规范约束作用。

根据信通院发布的《数据标准管理实践白皮书》定义:数据标准(Data Standards)是指保障数据的内外部使用和交换的一致性和准确性的规范性约束。

毫无疑问,这是正确的。但我们还需要将标准践行,以建设数据中台为例,我们知道数据中台强调的是资源整合,在数据层面就是整合多源异构系统中分散在各个孤岛的数据,形成统一的数据服务能力,这是一项艰巨的任务, 很难通过互相约定以及默认信任相关方来保障数据的价值发掘,形成真正的数据资产。

于是,基于此点将数据标准进行扩充,一是对管理范围的扩充,从狭义的数据标准(指对基础数据本身的规范性约束,如数据格式、类型、值域等)扩充到整个数据中台层面的标准(包含治理各阶段的规范性约束);二是对管理手段的扩充,数据标准不再是指一系列的数据标准化文档,而是一套由规范要求、流程制度、技术工具共同组成的体系,通过这套体系完成标准的规划、制定、发布、执行、检查、维护等行为,来完成数据的标准化以及标准的沉淀。

2、数据标准的价值
在说价值之前,我们先聊聊让我们头疼的问题。人人都在谈论数据标准,但数据标准真的被应用起来了么,我们拿着一堆标准文件,期望企业内部宣贯大家要按照这个标准来,但执行的结果如何?

数据集成多源异构数据时,数仓开发人员真的能快速理解这些数据的实际业务含义么?如果理解成本很高,开发人员可能就会出现认识偏差。

终于数据集成进来了,可以开始进行数仓建设了,如何保证每一层的数据都是符合质量要求的,靠开发的个人素质么?比如我们一般在dwd层做数据标准化,那么不同主题域的由不同的负责人进行开发,怎么保证标准化的结果似乎满足规范的?dws的数据可信度还能保证么?还能被叫做公共模型层么?

再后,数仓开发完成后需要对外开放,我们其实开发的不光是其数据,还需要开发它的元数据信息,帮助数据使用方快速的找到需要的数据,如果只是把数据堆在一起,只有研发人员自己知道这个数据是什么、在哪、怎么使用,那是不能够被称为数据资产的。

还有很多问题,这里只列举了些典型。当然这些问题,是可以解决的,解决的方式就是数据标准。解决的的过程可能需要的时间比较长,因为标准从管理到落地执行推进并不是一件容易的事,需要从思想上进行转变,但我们总要正确的做事。

下面列举了一些价值,但在实际的应用过程能够发现更多的可能性。

价值一:建立统一的数据视图

建立通用的元模型规范,支持用户自定义扩展,对多源异构数据表进行信息抽象提取,形成统一的元数据层。所有的数据开发完成后发布到数据标准维护的统一的数据目录,通过不同维度的数据目录进行多维筛选,满足各类用户的检索需要,达到资产的可管、可用、可查的目标。

价值二:建立统一的数据认知

首先利用标准完成对多源异构数据的标准化描述,虽然数据在不同系统中的称呼千奇百怪,但只要进入我们的平台都将赋予统一的名姓,使得管理方、开发方、使用方建立统一认知。对于仓外表将数据标准与表字段进行关联,旨在统一含义以及告知未来数据处理的方向;对于仓内表,模型设计之初就需要引用标准,我们知道将数据项进行组合即可得到模型,数据元即为标准数据项池,模型设计时仅需从池子里选取需要的字段进行组合即可组装成想要的模型。

价值三:建立质量稽核体系

现有的质量稽核一般是由用户根据业务需求手动设置,不同人员的认知偏差将导致数据质量难以控制。数据标准通过数据元的表示类属性,根据其格式、类型等要求自动生成质量稽核规则,当某张表的字段绑定了数据元时,即可根据数据元的质量信息要求自动生成稽核任务,且保证了源头定义的一致性。

价值四:面向未来的数据治理

我们知道,工具的终极目的都是为了降本提效。效率提升是要靠流程规范的,流程足够规范,在某种程度上可实现流程自动流转。因此,未来的数据治理趋势应当侧重于流程自动化以及阶段智能化,而这两点都需要数据标准的支撑。

阶段智能化期望在流程各阶段提供智能识别能力,比如字段的真实含义(挂载数据标准)、资源所属分类、字段枚举值等,减少人工参与。从短期来看,用户从处理者变为审核者,从长期来看,用户干预的行为反哺识别模型,增加识别准确性,可降低人力成本;

流程自动化依赖阶段智能化以及人工干预的结果,将各阶段进行串联,上下游尽可能完美对接,当上游阶段达到下游准入条件时,可自动触发流程运作,当然该过程也需要统一上下游语言(即数据标准),在实际实践中,可通过试运行进行验证。

标准的价值还有很多,限于篇幅不过多赘述,大家可以不断发现标准的应用场景。说完标准的价值了,那么我们该如何建立数据标准呢?

3、如何建立数据标准?
在早期的业务发展过程中,企业为了解决当下的业务问题,各业务条线已建设自己个性化的业务系统,在建设的过程中为了保证内部通信,或多或少都已存在局部的数据标准。因此,建设统一的数据标准很大程度上是对局部标准进行收口,一般来说,可收集现行的国家标准或行业标准,将现有标准与国标或行标进行对标,此过程一是可以满足监管需要,二是可大大节省标准制定的人力;另一方面则是考虑所在行业的特点并结合企业的实际需要,逐步构建标准进行推行。

具体可参考数据标准的建立的6个步骤,分别是:数据标准规划、数据标准制定、数据标准发布、数据标准执行、数据标准检查、数据标准维护。

3.1 数据标准规划
标准的规划首先需对企业业务和数据进行调研和分析,结合实际的数据标准需求,明确数据标准的范围。再根据实际情况的不同,逐步推进。

3.1.1 收集现行标准
可从业务流程出发,圈定参与业务流程的业务实体,通用的业务实体如人,可收集对应现行的国家标准,如对于公民身份证号码应当遵循强制性标准GB 11643 ,对于性别的代码应当参考推荐性标准GB/T 2261.1的规定,行政区划应当参考GB/T 2260的规定等。具备行业属性的业务实体如商业银行担保物,可参考JR/T 0170.1以及JR/T 0170.2的规定等。

3.1.2 从局部标准到全局标准
对于企业各业务条线(部门)已建立的局部标准且不适用于引用现行标准或不存在于现行标准的需要进行收集,对同一业务含义但不同标准描述的项进行评审,在企业内部达成一致,得到最终统一的数据标准。

此过程可包含基础类数据标准统一、参照类标准统一、指标类数据标准统一。

3.1.3 发现更多数据标准
发现更多标准主要应用于以下情况,一是局部标准不明确也无现行标准适用时,二是企业各业务条线垂直系统较多,数据体量较大,缺乏足够的人力及技术手段,但从总体战略的角度期望制定标准时。应对这种情况可依赖数据标准管理平台(第3节将详细介绍)进行标准的识别及拾取。

标准的识别及拾取一般存在两种方式:

第一种有明确制定某项标准的需求,则通过定义数据元概念(第2.2节详细介绍 ),确定该项数据标准描述的对象类及特性,再通过关键词扫描及智能识别技术,扫描存量数据,识别与该数据元概念一致的数据项集合,对该集合进行探查获取字段类型分布、长度范围、值域分布等,从而构建数据元的表示描述,形成完整的数据标准。

第二种是暂无明确制定某项标准的需求,去探索是否需要对某些数据项制定标准。系统对存量数据进行扫描,遍历所选择的数据源类型中的所有字段名,提取达到重复阈值的字段名,对其制定数据标准。

3.2 数据标准制定
3.2.1 元数据标准
元数据标准主要规范了平台对于各类元数据及资产的表示方式和组织方式。

3.2.1.1 元模型的制定

数据中台是企业数字化转型的基础和中枢系统,将企业全域海量、多源、异构的数据整合资产化,但多源异构数据差异化明显,如何保证数据管理者、使用者、开发者对数据具备统一的认知是亟待解决的问题。良好元模型设计,主旨在于屏蔽底层多源异构系统的复杂度,用统一的语言来描述来自不同应用系统、存储在不同种类数据库的各类数据。

我们知道元数据是描述数据的数据,而元模型则是关于模型的数据描述,根据OMG(对象管理组织)提出的四层元模型结构,可以清晰的表达出四层的关系:

 

 

可以看出,元数据是个相对的概念,元模型即为元数据的元数据,为了更方便大家理解,这里提供一个实例解释:

 

 

元模型不仅限于表元模型、字段元模型,还包含指标元模型、标签元模型等,虽然所描述的元数据种类不同,但管理方法上都是一致的,在实践的过程中,可全部纳入数据标准进行管理,也可在对应的子系统中各自维护。

3.2.1.2 命名及编码规则制定

命名规则主要用于规范表名、字段名、任务名称、指标名称、标签名称等,指定某个名称应当使用哪些命名要素组成以及以何种排列顺序组成。编码规则主要用户资产编码、数据元内部标识符、标签编码、指标编码等,指定某个编码应当使用何种编码方式。

因此需要指定命名及编码要素范围,一是选取平台已存在的枚举值,如数据分层、主题域或其他已存在的分类枚举;二是用户可自定义常量、自定义枚举值;三是平台提供的可变位序列。通过上述的命名要素,进行排序组合,形成命名及编码规则。

以数据元为例子:

第一种编码方式可以为“指定标识(常量)+7位自增序列”,可以编码为DE0000001;

第二种编码方式可以按照所在分类进行统一编码,类似于“一级分类编码+二级分类编码+三位自增序列”,比如公民身份号码数据元归属分了为”人员类(01)/信息标识类(001)“,那么可以编码为01001001,其他以此类推。

3.2.1.3 数据目录规范制定

数据目录提供灵活的数据组织方式,比如数仓开发人员使用数据分层、主题域来组织数据,对于数据管理者,可能更关注于资产盘点,希望能够按照来源系统、管理部门以及安全分类等多种方案进行管理。

我们在制定数据目录时,需要分析用户的需求场景,在不同场景下为用户提供更合适的数据视角,便于用户取数用数。一般来说,会先提供数据来源分类、数仓设计分类、数据安全分类,分类的描述信息至少要包含分类名称、英文名称、内部编码,以便于在平台其他模块的应用。且分类方案支持用户在后期的管理过程中进行自定义扩充。

3.2.2 基础数据标准
3.2.2.1 词根的制定

词根是为了标准的命名更加规范统一,最终将被应用到字段命名或其他资产的命名上。

企业可根据自身积累,对词根进行收集,形成自己的词根库,在制定数据元及字典时,可根据输入的中文名称自动根据词根翻译英文名称。

一个完整的词根信息包含英文简称、英文全称、中文全称三个部分,其中文全称支持多个,保证用户在使用词根翻译时相同含义字段能够获取相同的英文简称。另外,为了便于统一管理,需对词根的编码及词根来源进行指定。

3.2.2.2 数据元的制定

数据元是基础类数据标准的具象化体现,也是数据标准管理的核心。根据数据标准规划,制定数据元第一种方式是对现行标准进行结构化提取,使用平台进行管理,第二种则是根据自身需要建立企业自己的专业数据元。

完整的数据元应当由三部分组成,对象类、特性及表示,如下图所示,只有当对象类及其特性绑定了表示时,才能由数据元概念转变为真正的数据元。

对象类:现实世界中的想法、抽象概念或事物的集合,有清楚的边界和含义,并且特性和其行为遵循同样的规则而能够加以标识;,如:车、人、订单等;

特性:对象类的所有个体所共有的某种性质,如颜色、性别、年龄、价格等;

表示:值域、数据类型的组合,必要时也包括度量单位或字符集,如:格式、值域、长度等;

其中,值域可通过名称或码值直接给出、也可通过参考资料给出、也可通过绑定数据字典给出。

 

 

因此完整的数据元名称应当为:“对象类词+特性词+表示词”,如人性别代码。

在理解了数据元的含义后,如何去制定数据元呢?我们可参考GB/T 18391标准的第1~6部分,有兴趣的朋友可以去了解下,这里结合我们的理解给出数据元的结构化描述。

在制定数据元时,我们通常会从6个方面描述数据元的基本属性:标识类属性、定义类属性、关系类属性、表示类属性、管理类属性、附加类属性,如下表,这是一个综合的较为通用的数据元描述模板,在应用过程中需要根据企业实际需要,进行删减补全。

 

 

3.2.2.3 数据字典的制定

数据字典是参照类数据标准的具象体现,一般分为原始字典及标准字典,原始字典指源系统或生产系统中某个原始项数据内容的枚举集合,标准数据字典一般用于作为数据元值域而存在,在数据处理过程中需要完成原始字典到标准字典的映射,完成字典标准化工作。

数据字典核心是其码值列表,码值列表至少要包含两项信息:代码、代码描述,必要时可增加说明字段进行补充。

 

 

获得码表的方式:

原始字典:数据库逆向采集、元数据注册时填写字段枚举值、数据探查时值域分布计算、手动录入;

标准字典:现行标准的结构化提取、标准识别结果分析、手动录入。

3.2.2.4 数据项分类规范制定

数据项分类与数据目录类似,也是为了满足在不同场景下,对不同对象的分类需求。数据项分类即是对字段级进行分类。

在制定数据目录时,需要分析用户的需求场景,在不同场景下为用户提供不同的分类方案。如从管理角度,可以按照描述对象、来源文件进行划分;从数据安全角度可以按照敏感级别、安全级别进行划分等,且分类方案支持用户在后期的管理过程中进行自定义扩充。

在实际应用的过程时,会将具体的分类值关联数据元,再由数据元关联字段,做到快速分类的目的。

3.2.3 技术标准制定
3.2.3.1 数据类型映射关系

主要记录不同数据源间数据类型的映射关系,便于在数据传输、分发等场景下快速建表,提升数据传输任务的配置效率。

3.2.3.2 异构数据开发模板制定

主要管理不同数据源的DDL语句模板,包含新增、删除、更新等,协助数据开发人员选择对应数据库节点时快速根据模板生成语句。

3.3 数据标准发布
一般数据标准建议遵循草案、试用、标准、废止的生命周期流转,但可根据实际情况进行简化。对于数据元、数据字典尽可能遵循此生命周期管理,对于词根、数据分类、元模型等可简化流程,可采取草案、上线、下线的生命周期管理。

数据标准发布是在标准制定完成进入开发完成态后,可提交发布审核,审核通过后将应用于整个系统,若后续需要进行修订,则需修订完成后重新发布最新版本。

另外,发布前需查看版本变化以及影响范围,评估影响后再进行发布生效,并通知相关方进行调整。

3.4 数据标准执行
数据标准执行主要分两块,第一块是正在进行数据治理的各个阶段进行应用,第二块是新建系统和历史存在的业务系统的应用。

数据治理过程的应用主要在(涉及数据标准与各个模块的对接,将在第4节详细介绍):

元数据:需要从业务属性、技术属性、管理属性三个方面对元数据进行描述,需要定义具体的描述项。

数据资产:需要对各类资产进行盘点,需要定义资产编码及命名规范、定义分类依据、上线标准。

数据质量:需要建立稽核规则,需要构建质量检测体系。

数据安全:需要对数据进行分级分类,需要定义数据项分类依据、敏感信息的识别依据。

模型设计:需要定义数据模型、数据指标、维度度量等数据的标准。

数据传输:需要对接不同种数据源、来源系统,需要制定不同系统、数据源间的交换依据。

数据开发:需要定义数据处理依据,字段及字典映射逻辑、各类数据源SQL模板。

新建的业务系统

必须严格按照发布的标准进行设计,通过使用平台提供的模型设计产品进行管控

正在运行的系统

可以通过探查、智能识别的手段建立映射关系

3.5 数据标准检查
数据标准执行后,需要进行落标检查,确认标准执行的情况以及效果。

可参考相关指标,从标准侧进行标准的引用统计、标准化率统计,从质量侧统计表及字段质量评分,多角度去判断指标执行情况及应用效果。

3.6 数据标准维护
维护数据标准:

在实际执行的过程中,可能现行标准发生修订,企业自身业务规则发生变化,都需要对已发布的标准进行修订。

修订要严格按照生命周期流转要求,记录版本变化,评估变更影响,在进行重新发布生效。

沉淀数据标准:

随着标准的累计,我们需要沉淀所在行业的标准。

通过标准沉淀,建立标准资产,形成行业最佳实践,提升企业在所在行业的地位。

4、数据标准产品介绍
在了解了如何建立数据标准后,我们可以着手开始干了。但工欲善其事必先利其器,一个合适的数据标准管理工具可以帮助我们更方便、更高效的制定和管理数据标准。

因此我们基于数据标准管理流程、管理内容的分析,并充分考虑不同行业对标准管理需求的不一致性,对数据标准管理产品进行功能设计,本章将详细介绍产品的各个模块。

4.1 产品总体架构

 


4.2 产品功能模块
4.2.1 数据标准统计首页
主要包含标准资产统计、标准化情况统计、标准流程统计,全方位评估标准建设及使用情况。

 

 

4.2.2 数据标准文件管理
此模块用于管理当前平台参照的各类标准文件,并与已结构化的标准建立联系,保证标准来源的可信。另外,针对已经做过结构化标准提取的文件,将作为平台预置的标准模板,供用户使用。

 

 

 

4.2.2.1 数据元管理

数据元管理是标准管理核心内容,支持表单及批量导入的方式录入数据元,按照标准生命周期草案、试用、标准、废止对数据元进行管理,支持数据元的批量导出,满足不同场景下查看数据元的需求。定义时也将数据元与稽核规则进行绑定,为质量检测提供依据。

另外,支持数据元不同版本之间的比对,获取版本差异,评估标准变更存在的风险。

 

 

 

 

4.2.2.2 数据字典管理

数据字典管理内容包含原始字典及标准字典,可以认为原始字典是原始数据项的值域分布, 标准字典是标准数据项的值域分布。原始字典可主动录入,也可通过数据探查的值域分布进行生成;标准字典满足与数据元同样的生命周期管理,也支持批量导入导出操作。

在后续的实现中,将完成从平台已有数据库中存在的字典表进行拾取,同时维护原始字典与标准字典之间的关系,方便用户在进行数据处理时快速进行字典对标。

 

 

4.2.2.3 词根管理

词根管理旨在定义英文名称、英文简称、中文名称间的映射关系,为标准的命名提供规范的输入。用户在定义数据元、数据字典或模型字段时,将对输入的中文名称进行拆词,依据词根生成英文名称。

除了已支持的词根表单录入外,后续将支持词根的批量导入,帮助用户快速导入已制定好的词根列表。

 

 

4.2.2.4 数据项分类管理

数据项分类管理提供了三个层级目录类型,第一种管理的是分类目录,用户对分类方案进行归类;第二种管理的是分类方案,它是基于某种数据项分类依据(如描述对象)提供的一种分类方式;第三种是分类值,它归属于分类方案,在这一层将与真正的数据元进行挂载。

因此数据项分类支持分类的基本信息管理,也支持对数据元批量进行关联以及解除关联。

 

 

4.2.3 元数据标准管理
4.2.3.1 命名及编码规则管理

命名规则及编码管理要能够将平台中已有的可作为命名要素的枚举值进行收集管理,支持用户添加自定义元素,用户可通过点击或拖拽的方式将元素进行组合形成命名规则及编码规则。

 

 

4.2.3.2 数据目录管理

数据目录管理与数据项分类管理类似,但分类的对象不同,此处分类主要是对平台各类资产的编目,提供多种视角、多种方案对表、指标、标签等进行分类管理,应用于统一的资产目录进行展示,让资产可理解、可识别、易查找。

 

 

4.2.4 技术标准管理
4.2.4.1 数据类型映射关系管理

主要管理不同数据源间数据类型的映射关系,如下表示例,随着数据源种类的增加,此模块支持多数据源类型交叉映射。

 

 

4.2.4.2 DDL模板管理

主要管理不同数据源的DDL语句模板,包含新增、删除、更新等,在模型设计时或离线开发时进行引用,根据选中的信息,替换模板中的参数。以mysql建表为例:

CREATE TABLE IF NOT EXISTS ${table_name}(
${filed_list}
PRIMARY KEY ( ${pk_filed_name} )
)ENGINE=InnoDB DEFAULT CHARSET=utf8;
4.2.5 标准流程管理
4.2.5.1 标准发现

根据标准制定流程,平台提供数据库拾取能力,对标准进行识别,根据识别结果来得出结论 ,即完整的数据元定义。下面是根据数据元概念进行识别的页面参考。

 

 

4.2.5.2 审核管理

审核管理主要是对标准生命周期流转的申请以及标准的发布申请进行操作,审核人员可根据实际情况评估,选择通过或拒绝。

 

 

 

 

4.2.5.3 标准发布

标准发布采取整包发布的方式,若将同一批次的数据元列表发布一个大版本,保证平台的标准参考基线。需要支持查看当前更新的内容,提交发布申请,比对版本差异,支持查看发布历史等。

 

 

4.2.6 标准配置
标准配置主要是对数据元及数据字典的元模型进行配置管理,我们提供了较为全面的数据标准结构化表示方法,但根据不同行业对标准描述的需要,可能并不需要这么多描述项,因此提供数据标准的元模型配置,用户可根据实际情况进行启用、停用或新增标准的描述项。

4.2.6.1 数据元模板配置

 

 

4.2.6.2 数据字典模板配置

 

 

5、数据标准和数据中台的结合实践
在具体实施过程中,我们期望按照“需求-设计-开发-交付”流程进行建设。在需求设计阶段,应对数据现状进行摸排,确定治理范围以及标准的制定范围。从而在后续的设计中能够规范指标及模型设计,从源头上开始控制元数据及数据的质量,指导开发过程的具体实施。

数据标准在治理流程中的位置以及跟各模块产生的交互。

 

 

5.1 数据传输
数据传输承担着将多源异构数据集成到大数据平台以及将平台数据分发到其他库的能力,当目标库无对应表时,需要根据来源表进行建表,但不同数据源间的类型差异,需要人工进行匹配。随着数据源种类的不断增加,靠人的经验进行匹配处理已非常困难。

标准维护的是不同数据源间类型的映射关系,在建立传输任务时,可根据映射关系快速生成目标表结构,达到快速建表、一键建表的能力。

 

 

5.2 元数据
元模型的配置在我们的实践中主要包含对元模型分组管理、系统内置项管理、用户自定义项管理,目前已支持对表、字段、指标、标签的元模型设计。

5.2.1 表元模型设计
5.2.1.1 分组管理

 

 

5.2.1.2 系统内置项管理

 

 

5.2.1.3 自定义项管理

 

 

5.2.2 字段元模型设计

 


5.2.2 指标元模型设计

 


5.2.3 标签元模型设计

 


5.3 模型设计
5.3.1 分层规划
除了系统内置的分层外,用户可添加自定义分层。

 

 

对于分层下的表,需要配置表名设计规范,将选取命名要素按照一定顺序排列,得到命名规则。

 

 

5.3.2 分类规划
利用数据目录管理进行分类规划,在资源目录、资产侧按照场景对数据资源进行编目,满足各类用户查数用数需求。如:主题域划分、来源系统划分、安全分类等。

5.3.3 表结构及数据项标准设计
设计表结构时,一方面根据填写的中文描述,自动推荐对应的数据元(若标准存在),另一方面可直接选择数据元,平台将根据选择的数据元自动回填字段名、字段类型、字段描述以及关联的标准数据字典,如下图所示:

 

 

具体应用一般放在模型设计中心添加字段时进行关联:

 

 

5.4 数据开发
SQL编辑时根据选择的输入输出表,通过表字段关联的数据元信息,将相同含义的字段自动进行映射,快速生成SQL,用户只需对生成的SQL进行确认即可。

在后续的规划中,标准将助力可视化ETL以及自动化ETL,协助用户进行字段映射,根据数据元关联的稽核规则、脱敏规则等,自动获取对应的处理函数,即可生成开发脚本。

5.5 数据质量
数据标准是数据质量稽核规则的主要参考依据,通过将数据质量稽核规则与数据标准关联,一方面可以实现字段级的数据质量校验,另一方面也可以直接构建较为通用的数据质量稽核规则体系,确保规则的全面性和可用性。

 

 

 

5.6 数据安全
数据标准可包含业务敏感数据对象和属性,从而实现对数据安全管理相关规则的定义。通过数据元关联,快速生成字段级加密或脱敏规则。

 

 

6、总结
数据标准的建设及管理任重而道远,后续将逐步扩展标准的应用场景,满足各行业客户的需求。随着管理内容的不断丰富,管理流程的不断完善,标准将作为数据中台的基石,为各模块、各流程阶段提供规范性指导及监督。



标签:管理,业务,标准,企业,数据,进行
From: https://www.cnblogs.com/shan13936/p/18157311

相关文章

  • TapData + 实时数仓:实时数据如何赋能船舶制造业,助力数字化应用升级和科学管理运营
    使用TapData,化繁为简,摆脱手动搭建、维护数据管道的诸多烦扰,轻量代替OGG、DSG等同步工具,「CDC+流处理+数据集成」组合拳,加速仓内数据流转,帮助企业将真正具有业务价值的数据作用到实处,将“实时数仓”方法论落进现实。TapData持续迭代产品能力,优化用户体验的同时,也在不断探......
  • 数据治理之元数据管理
    一、元数据管理概述什么是元数据元数据的3种类型业务元数据技术元数据操作元数据元数据的作用什么是元数据管理元数据管理的目标建立指标解释体系提高数据溯源能力数据质量稽核体系元数据管理的阶段二、元数据管理方法业务目标理解建立企业数据资产目录消除冗余加强数据复用降低因......
  • 数据治理之数据梳理与建模
    一、什么是数据模型二、数据模型的类型概念模型概念模型的3个基本要素概念模型的用途逻辑模型逻辑模型的特征逻辑模型的用途物理模型物理模型特征物理模型用途三、什么是数据梳理数据梳理两种流程自上而下梳理数据域梳理数据主题梳理数据实体梳理设计数据模型优缺点自下而上梳理需......
  • 数据库设计 外键设计 关联表查询 linq efcore
    数据库的设计实体之间的关系图实体EleOrderRowItem.cspublicclassEleOrderRowItem:EleEntity{publicstring?Xxx{get;set;}//外键:一个rowItem属于一个rowpubliclongRowId{get;set;}publicrequiredEleOrderRowRow{get;set;}}......
  • 数据治理之数据质量管理
    一、数据质量概述什么是数据质量数据质量差的危害数据质量维度(数据六大评价标准)什么是数据质量测量数据质量测量必须要有目的数据质量测量必须可重复数据质量测量必须可解释什么是数据质量管理二、数据问题根因分析什么是根因分析为什么要进行根因分析产生数据问题的阶段规划设计......
  • python读取xls表格中指定列或行范围的数据
    importxlrd#打开Excel文件workbook=xlrd.open_workbook('test01.xls')#获取第一个工作表worksheet=workbook.sheet_by_index(0)#指定的行区域#读取第(row_index_x+1)行中,第(start_cols+1)列至第end_cols列范围的数据start_cols=0#第(start_cols+1)列end_cols......
  • 【pytorch学习】之线性神经网络-图像分类数据集
    图像分类数据集MNIST数据集(LeCunetal.,1998)是图像分类中广泛使用的数据集之一,但作为基准数据集过于简单。我们将使用类似但更复杂的Fashion‐MNIST数据集(Xiaoetal.,2017)。%matplotlibinlineimporttorchimporttorchvisionfromtorch.utilsimportdatafromt......
  • blog.admin 查询增加过滤器,添加、删除增加数据审计、统一控制权限操作
    一、查询增加过滤器需求说明:有几张表(医生表、病人表等),有个字段ClinicID都与诊所表主键Id关联。用户登录系统时候,根据所分配的诊所权限,只查看自己诊所的数据。通过查询过滤器,在查询每个表的时候,自动将ClinicID==当前登录用户所属ClinicID,添加上。1、创一个IClinicEntity接口usi......
  • excel 用VBA循环打印数据
    SubPrintData()DimwsAsWorksheetSetws=ThisWorkbook.Sheets("Sheet1")'修改为你的工作表名DimrngAsRangeSetrng=ws.Range("A1:D10")'修改为你的数据区域DimcellAsRangeDimiAsIntegerAp......
  • 开源向量数据库比较:Chroma, Milvus, Faiss,Weaviate
    语义搜索和检索增强生成(RAG)正在彻底改变我们的在线交互方式。实现这些突破性进展的支柱就是向量数据库。选择正确的向量数据库能是一项艰巨的任务。本文为你提供四个重要的开源向量数据库之间的全面比较,希望你能够选择出最符合自己特定需求的数据库。什么是向量数据库?向量数......