首页 > 其他分享 >元数据管理等相关问题

元数据管理等相关问题

时间:2023-08-10 19:32:02浏览次数:35  
标签:系统 平台 数据仓库 问题 数据管理 相关 工具 数据


http://cio.csai.cn/bi/200610191143031431.htm

希赛网

元数据管理技术及应用现状作者:佚名 2006年10月19日

  朋友老朱在最近惊喜地发现,在营业部的每周例会上,原先各部门针对每日用户数的争吵声,现在逐渐销声匿迹了。原来,老朱所在的这家电信运营商,最近刚刚验收并启用了一个元数据管理平台工具。通过这一平台,IT部门可以在那些曾经引发激烈争吵的数字后面加上详细的注解。这样,即便各部门得出的当日用户数数值不一样,也能在注解中清楚地看到具体的差异在哪里。如此,自然再没有了吵来吵去的必要。

  元数据,最常见的定义是:“关于数据的数据”。更准确一点说:元数据是描述流程、信息和对象的数据。这些描述涉及像技术属性(例如,结构和行为)这样的特征、业务定义(包括字典和分类法)以及操作特征(如活动指标和使用历史)。早在上世纪末,元数据的概念和相关工具就已经出现,但限于当时的数据量还不够大,而元数据本身又包含太多的内容,以至于它并未得到充分利用。而在今天看来,元数据正在成为解决诸多数据问题时必须要抓住的一个“精髓”要素。

  消弭争吵

  在此前一年中,老朱所在的那家电信运营商,各部门之间经常就每日用户数这类问题的指标数值不一致而吵得面红耳赤。其实,在其他电信公司或者其他行业中也都存在着类似问题。简单来讲,这些公司通过各个时期的IT建设,形成了很多个独立分开的系统。以电信运营商为例,就有计费系统、网络系统、OA系统、财会系统和客服系统等等。在这些系统中,存有不同的客户信息,具体体现就是不同格式的表。

  两年前,公司的数据仓库项目建设完成,本以为这会大步提升IT系统的“智能性”,没想到,基层的反映却是根本没法用。而其中的原因就在于,数据质量没法保证,也即:在业务逻辑上并不准确,各部门对于指标的定义不能统一。

  以当日用户数为例。对于这一指标,市场部、网络部、计费部等部门给出的定义并不一样。按照元数据技术的术语来讲,就是在业务元数据上,大家对于业务的认识并不统一。比如:计费部门认为,一个用户当天曾拨打电话,就可以计入到当日用户数;而财务部门则认定,只有在发生费用之后才能计入;至于网络部,则认为当天开机的用户就可以算作当日用户。如此一来,各部门的当日用户数数值自然就不一样:计费中心的系统显示,当日用户数有6000;市场部的系统显示却只有4000;到了财务部门的系统中,显示仅有3000个。在这种情况下,担负着业务压力的业务人员很可能谁也说服不了对方来接受自己的数字,导致大家对数据仓库系统本身的可信度也就打了折扣。

  事实上,类似问题在目前已经建成的数据仓库项目中还有很多。其中的一大难题就是,原先未能统一的定义导致了某种指标的不一致,而要搞清楚为什么不一致,就得反查数据仓库中的这些表在一开始的时候是如何定义的,表与表之间的联络关系是怎样的。这种反查工作自然要求IT部门的人员就得详细查阅原先软件的设计。但问题是,现在的软件开发一般都是迭代式开发,每个阶段都有不同的人在做。回查一个表,很可能需要涉及到这个过程中的每一个开发人员。事实上,很少有人能做到这一点。即便费尽心机终于查到了,一个月的时间也过去了。

  元数据管理平台的建设就是为了避免继续出现类似问题。在元数据管理平台建成之后,其一,可以实现对技术元数据的抽取,把相关的字段放到平台上来。在这个平台上,就能清晰地看到这些表或字段之间的关联关系,有一个很清晰的视图。其二,还会把业务元数据抽取出来,确定要做哪些应用,就把相关的指标、流程在平台上建立起来。把这些元数据抽取出来后,用户可以通过平台很方便地修改数据仓库中的数据,调整业务中的统计指标等等。其三,就是要把技术元数据和业务元数据两种数据对应起来。比如对于当日用户数来讲,它在数据仓库中对应的都是哪些表,让技术元数据和业务元数据联系起来。这样,在把各种定义统一之后,元数据管理平台就可以给出一个更为详细的指标。比如在数值之后做出注解,注明具体开机的有多少,发生费用的又有多少。如此,老朱所在公司的争吵也就不复存在了。

  第三方工具的魅力

  虽然元数据至今尚未引起业界的广泛重视,但是与元数据相关的管理工具其实早就存在,而专业的元数据管理工具则在2000年左右开始出现,比如像IBM、CA、DAG、Informatica、BEA等公司都有自己专门的元数据管理工具。

  总起来看,目前国内的元数据管理工具大概有三类。一是像IBM、CA等公司都提供的专门工具,比如IBM收购Ascential得到的Metastage,CA的DecisionBase都是如此;二是像DAG的Metacenter,它不依托于某项BI产品,是一种第三方的元数据管理工具;三是像亚信、石竹这样的集成商也在开发自己的元数据管理工具。

  “各种元数据管理工具有很多。理论上讲,用户可以用其中一种管理其他系统中的数据,比如选择数据仓库系统厂商提供的元数据管理工具来管理其他层面的元数据。但实际应用中的管理效果如何呢?一般情况是,这些专门工具管理自己本系统的元数据尚可,一旦跨系统管理,效果就不尽如人意了。” 亚信产品及解决方案咨询部总监薛森这样表示。

  从国内的实际应用来看,DAG的Metacenter这一工具使用最多,目前所看到的在电信、金融领域建设的元数据管理项目基本上都是应用了这一产品。至于像CA等公司的工具,在国内基本上没有成功案例。记者在对CA公司提出采访要求的时候,该公司在回复中则称没有合适人员接受采访,看来像CA公司在元数据管理技术上似乎还比较滞后。

  石竹商业智能软件部产品支持经理薛勇认为,Metacenter能够为很多用户所采用,主要因为这一产品的几项优势:一是它是第三方提供的工具。二是在技术上确有过人之处,可以实现动态元数据管理,实时获取元数据。而其他非第三方工具可能对自己数据仓库中的数据看得很快,但是对于其他系统就不行了。三是可以提供的应用多。比如像血统分析和影响分析、表重要程度和表无关程度分析等都可以提供。

  此外,还有两个产品使得SOA和元数据的紧密关系迅速凸显出来。首先是IBM的WebSphere元数据服务器将于今年年底作为IBM WebSphere信息集成(WII)平台Hawk版的组成部分正式上市。

  WebSphere元数据服务器将为WII平台中的产品提供元数据管理,并为其他IBM软件品牌中的元数据项目提供通用的元数据服务基础设施。同在今年底,WebMethods公司将在12月份发布的Fabric产品下一版本也融合了Cerebra公司的语义元数据管理功能,从而来为IT部门提供了软件资源的单一视图。或许,只有当SOA战略充分认识到元数据管理的重要性之后,企业信息资源的业务价值才能实现最大化。

  元数据管理工具现状一览表

 

 

  “这样一个平台不是仅仅把元数据抽取出来,我们把元数据管理平台定位为两个应用层次。”亚信产品及解决方案咨询部总监薛森指出了目前元数据管理平台的两个主要应用层次,即系统维护和应用分析。从系统维护来看,元数据管理平台使得数据仓库以及业务系统中的各种修改变得省心省力。比如对数据库中表的修改,小的数据仓库模型的修改等等,都可以通过元数据管理平台来实现。同时对数据仓库、OLAP、ETL等各个层面进行修改。而在以前,这些工作需要DBA自己来完成。

  那时虽然也有一些工具,但是都分散在不同的系统中。一个DBA要完成全部修改必须要求精通所有工具才能实现。而如果是多个DBA协作完成,同样需要通知所有人在数据仓库、OLAP、前端展现、ETL等系统中依次修改,耽误时间不说,修改是否准确也不能保证,而业务在这个修改阶段也会陷于停滞。从应用分析上看,目前可见的应用主要有三类。

  其一,作为即席查询工具做指标的管理,即通过基于元数据的指标管理,掌控各种指标的异常波动情况。据薛森介绍,像亚信公司建设的吉林移动的元数据管理平台,现在就已经开放了一些接口给业务人员。他们只需通过拖拽一些业务元数据就可以得到他们想要的东西。比如,要找出某项业务的前十大用户,业务人员通过元数据平台提供的即席查询工具,几次操作就可得到结果。而在过去,这需要业务人员首先提出请求,然后计费中心会制作一个工单,再把工单传给集成厂商,厂商再把这个工单分解开来,让某人做ETL层,某人做OLAP层。等这些都做完,半个月的时间也就搭进去了。

  当然,薛森也表示,目前这种应用接口还比较有限,因为如果每个业务人员都在用,数据仓库就承受不住了。其二,血统分析和影响分析。血统分析是指,发现某报表中的指标不正常就需要查出问题可能出在哪里。通过血统图就可以很快找出问题是在BOSS系统中,还是在ODS层或者是DW层中。影响分析则和血统图相反,主要看在修改一个表之后,可能会影响到上游的哪些数据。其三,表重要程度分析和表无关程度分析。主要就是针对现在数据仓库提供的表的数量太多(上万个)。这些表中有的使用频率特别高,就需要加倍小心,多做优化。通过元数据管理平台就可以列出不同重要程度的表。

  据石竹商业智能软件部产品支持经理薛勇介绍,目前,像四川移动的元数据管理平台上,以上三类应用基本上都已存在。但是,他也表示,目前针对元数据管理平台的应用大都还在探索阶段。亚信薛森也认为,更重要的应用还在于更复杂的分析上。此外,据说目前国内迄今为止最为全面的一个元数据管理平台项目正在中国银行总行抓紧实施,现在尚未开始验收,其中还将出现哪些新的应用尚且不得而知。

  编看编想

  不够成熟,但足够重要!
 
  “你在做元数据管理平台项目时,最大的工作量是花在哪里?”这是笔者对每位被访者都会问的一个问题,而两位采访者不约而同提到的一点就是,整理元数据。事实上,这一问题也正彰显着目前国内的元数据管理项目尚不够成熟。

  “说不成熟,是因为数据不成熟。”薛森表示。作为企业,从一开始就没有完整的规划,比如当初指标的含义,现在几乎都需要倒着往回推,要获得那些元数据自然就比较困难。薛勇也认为,各部门都有各自的描述方式,比如对于男女,有的分成F和M,有的分成0和1。如果把这些整理出来,是个很麻烦的过程。而要克服这种困难,只能靠熬时间一点一点解决。而像管理工具本身的不成熟也是一个方面。薛勇就认为,目前的元数据管理工具还不能自动把不同系统元数据之间的关系自动映射出来,还需要人工去做。

  此外,目前平台导入的元数据范围也还很有限。比如在电信企业中,大多仅仅导入了经营分析系统的元数据。而像BOSS系统,动辄都有几千个业务控制点,导入元数据弄不好就要影响业务。也正是因为顾及到这一点,所以目前的元数据管理平台只是选择了在经营分析系统这样一个准实时的分析系统上做试点,然后再逐步推广。

  总起来看,目前国内大型行业企业做元数据管理项目虽然不成熟,但是技术发展很快;见效虽然不快,但是早晚要做,而且早做比晚做遇到的困难相对要少些。对于那些有条件的大型行业用户,早点入手无疑更好一些。(CCW-CNW) 

 

 元数据管理工具 

 

http://www.chinabi.net/blog/user1/1/archives/2006/867.html

元数据是关于数据的数据,元数据主要用来收集,排序,更新和寻找业务和技术的数据。在商业智能项目中,元数据的有序管理是保证项目顺利进行的基础。
数据:存储在数据库中实际数据。
业务元数据:与业务有关的数据信息,被多个业务部门使用(统计分析,管理者……)
技术元数据:与技术有关的数据信息,被多个技术团队使用(DBA,开发)

比较流行的元数据工具:

工具名称     公司
Rochade     ASG
Metatrieve     Metatrieval
Datamapper     Exeros
Metacenter     Data Advantage Group
Meta Data Integration Framework      Info Librarian
SuperGlue     Informatica
Metastage     Ascential

 

http://dw.colcool.com/new.php?id=273

Informatica发布最新的元数据管理软件 作者:adong 日期:2003年08月25日 浏览次数:1620

       业界领先的数据整合和BI软件提供商Informatica公司,发布了Informatica SuperGlue,这是第一个完全基于网络的元数据管理解决方案,它可以对企业的数据和系统的信息进行聚合,使其可视化并且对其进行分析。
    由于受商业效率,公司管理等因素的驱动,今天的企业需要加强它们所拥有的信息以及处理信息过程的透明化。CEO和 CFO在遵循象Sarbanes Oxley 和 Basel II之类的规则时会遇到一定的困难,因此CIO在努力的做出他们所需要的文档。当在理解和管理数据是如何驱动、它们潜在的联系以及它们是如何利用的时候,元数据或者说是数据的数据是非常必需的。
    SuperGlue是第一个为商业管理者提供个性化的观点元数据管理解决方案,使得管理者能够更好的理解也更加容易的把握复杂的信息流。这也是第一个利用可视化的图表系统来管理企业元数据,这样一来就使得IT部门的管理者能够更加方便的了解系统和业务流程的改变所带来的影响,从而增强了运作性能,只是产生了少许的数据冗余,但同时增加了重新利用的机会。
    SuperGlue在三个主要的方面为企业提供了极大的方便:降低了商业风险,提高了商业运作效率,节约了商业成本。企业可以利用SuperGlue对企业系统和数据源中的信息进行归类,整合以及查询。由于每条信息的来源都被动态的记录,企业就可以通过追踪它们业务流程中精确的信息来将风险最小化。与此同时,管理者也能够了解到怎样修改商业规则或业务流程来影响另外的系统和流程,并且可以对商业中的变化做出更加明智和有效的反应。最重要的是SuperGlue通过信息的可视化并追踪它的来源可以降低IT的费用成本。
SuperGlue最主要的的特征包括:
  1、 智能。这项功能捕获目前的信息流并将其图形化,进行智能化的信息跟踪,这样一来就可以回答诸如这样的问题:“这些数据是从哪里来的?”,“这样的结果识通过怎样的计算过程得来的?”管理层就可以清楚的知道做出的决策结果是否是自己可以承受的,所进行的分析是否是正确的。
  2、 直觉的分析和报表。用户可以利用基于Web的表格和别的可视化技术来监控和分析他们的数据和数据的整合过程。管理者能够得到象数据质量和数据使用情况这样实时的可视化报表。
  3、 个性化的向导。SuperGlue包括一个对企业信息可查找的目录。
  4、 整合引擎。。SuperGlue的内核是实时的整合引擎,它可以收集企业中来自不同数据源的元数据,并按照日期用一致的格式将它永久的保存。数据源包括Informatica软件和第三方的元数据管理工具,BI软件,应用软件,数据库,平面文件或者是XML和CWM/XML格式的数据源。
  5、 100%的基于Web的框架设计。和以前的功能有限的元数据解决方案不同,SuperGlue是100%由基于Web的框架所支撑。它有着完全的开放性和高度的可扩展性,可以处理任何的信息、元数据模型。同时SuperGlue支持门户(portal)配置和Web services的使用。

标签:系统,平台,数据仓库,问题,数据管理,相关,工具,数据
From: https://blog.51cto.com/u_11326739/7039313

相关文章

  • 如何将 Google Ads 与 Google Analytics(分析)相关联
    将GoogleAds帐号与GoogleAnalytics(分析)媒体资源相关联,以便洞悉从首次互动到转化的完整客户周期将GoogleAds帐号与GoogleAnalytics(分析)媒体资源(包括子媒体资源和总览媒体资源)相关联,便可以洞悉完整的客户周期,从用户如何与您的营销内容互动(比如点击广告),到他们最后如何在您的......
  • openGauss学习笔记-36 openGauss 高级数据管理-TRUNCATE TABLE语句
    openGauss学习笔记-36openGauss高级数据管理-TRUNCATETABLE语句清理表数据,TRUNCATETABLE用于删除表的数据,但不删除表结构。也可以用DROPTABLE删除表,但是这个命令会连表的结构一起删除,如果想插入数据,需要重新建立这张表。它和在目标表上进行无条件的DELETE有同样的效果,但由于......
  • Hadoop集群启停命令以及Web UI界面的相关介绍
    1、Hadoop集群的启停命令(我是将文件都配置好了,直接使用最方便的启停命令就能进行使用)start-all.shstop-all.sh2、HDFS集群的WebUI界面主要是通过命令行:ifconfig获取到本虚拟机的ip地址,然后输入:ip:9870进行访问即可3、YARN集群的WebUI界面可以使用以下命令访问:ht......
  • layui - table 回填 - 相关
    table.render({elem:'#userTable',url:'../sysRole/getUserList',title:'用户列表',page:true//开启分页,cols:[[{type:'checkbox'},{......
  • 记录一个奇葩的huggingface数据加载问题
    使用dataset=datasets.load_dataset("beyond/rlhf-reward-single-round-trans_chinese")下载数据集会报错:FileNotFoundError:[Errno2]Nosuchfileordirectory:'C:/Users/Chenxm/.cache/huggingface/datasets/beyond___rlhf-reward-single-round-trans_chinese......
  • 防火墙双机热备之主备和主主相关知识
    参考:https://kb.hillstonenet.com/cn/ha-dual-redundancy-inspection/https://support.huawei.com/hedex/hdx.do?docid=EDOC1100149311&id=ZH-CN_CONCEPT_0178924792https://www.h3c.com/cn/d_201405/922032_30005_0.htmActive-Passive模式Active-Passive(A/P)模式:在HA簇中配置两台设......
  • 解决vscode行注释快捷键不可用问题
    之前vscode的注释快捷键ctrl+/一直没法使用,查阅了大量资料都是改这个快捷键,但是这个快捷键用习惯了,所以没改,最后靠自己解决了,分享一下。首先在vscode中ctrl+shift+p,输入行注释,点击第一项旁边的齿轮图标。。然后会跳转到它的快捷键,右键,点击显示相同的按键绑定。,然后就会显示冲突......
  • CPU过载问题
    ##物理CPU个数cat/proc/cpuinfo|grep'physicalid'|sort|uniq|wc-l##每个物理CPU中的核数cat/proc/cpuinfo|grep'cpucores'|uniq##逻辑CPU的个数cat/proc/cpuinfo|grep'processor'|wc-l##查看内存[dev@jkshv-oa-app1-0~]......
  • 【GIS - 地理信息系统】经纬度计算 ( 经度、纬度概念 | 地球周长计算 | 地球经线周长
    文章目录一、经度、纬度概念二、地球周长计算1、地球半径、周长计算2、地球经线周长计算3、地球纬线周长计算三、经纬度相关计算1、经纬度坐标距离计算公式2、经纬度与实际距离换算1米对应经度1米对应纬度3、实际距离与经纬度换算1度经度对应东西距离1度纬度对应南北距离四、......
  • [学习笔记] JS验证API相关知识
    checkValidity()会检查元素是否有任何输入约束条件,并且检查值是否符合约束条件。 如下所示,Input元素下限为4上限为20:···<inputid="password"type="number"min="4"max="20">···<script>functionmyFunction(){varx=document.getElementById(&quo......