元数据、数据元、数据源、源数据,这几意思毫不相干却都带着一个“yuan”词语,让多初学者抓狂。
1. 数据元
先说数据元,数据元用一组属性描述定义、标识、表示和允许值的数据单元,由三部分组成:对象、特性、表示。它是组成实体数据的最小单元,或称原子数据、数据元素,例如,客户联系人方式中的联系人姓名就是就可以理解为一个数据元素,姓名为数据元的对象,“张三”为数据元的值。
2. 元数据
元数据(MateData),官方定义是描述数据的数据,让数据更容易理解、查找、管理和使用。从分类上,元数据分为了业务元数据、技术元数据、管理元数据。
业务元数据,例如:数据的定义、业务规则、质量规则等;
技术元数据:数据表、字段长度,字段编码、字段类型等;
管理元数据:数据的存储位置、管理人员、更新时间、更新频率等。
元数据是业界公认的数据管理中的基础,元数据管理提供的功能诸如数据地图、血缘分析、影响分析、全链路分析、热度分析等,让用户更容易的对数据进行检索、定位、管理、评估。用哲学的思维理解元数据的话,元数据其实解决的是:我是谁,我在哪里,我从哪里来,我要到哪里去的问题。
数据是物料,而元数据是仓库里的物料卡片;
数据是文件夹,而元数据是夹子上的标签;
数据是书,元数据是图书馆中的图书卡。
3. 数据源
数据源(Data Source),顾名思义就是数据的来源,是提供某种所需要数据的器件或原始媒体。在数据源中存储了所有建立数据库连接的信息,通过提供正确的数据源名称,可以找到相应的数据库连接。
10年前我们讲数据源,更多的是说一种数据连接的技术,比如:JDBC、ODBC,或者是指数据库的类型,比如:结构化数据库、非结构化数据库。
而大数据时代,数据呈多样化发展,数据来源的多样化是时代的一个特征。我们现在提到的数据源,除了上述的含义之外,还涉及到图数据源、时序数据源、键值数据源、内存数据源、文档数据源等。每一种数据源不同,其数据的存储、传输、处理和应用的模式、场景、技术和工具也不相同。
4. 源数据
源数据(Source Data),注意:这个词与数据源(Data Source)只是词语换了一个顺序,但是它们代表的含义却是大相径庭了。数据源本质是讲存储或处理数据的媒介,而源数据本质是在讲“数据”本身,强调数据状态是“创建”之后的“原始状态”,也就是没有被加工处理的数据。
在数据管理的过程中,源数据一般是指直接来自源文件(业务系统数据库、线下文件、IoT等)的数据,或者直接拷贝源文件的“副本数据”。