首页 > 其他分享 >数据仓库时实践

数据仓库时实践

时间:2023-07-05 11:22:28浏览次数:55  
标签:模型 主题 数据仓库 实践 信息 业务 数据

数据仓库建设

近年来,随着银行业务日益发展、监管要求不断深化,银行逐步将数据分析、数据应用、数据挖掘作为金融业务发展和管理决策的重要支撑手段,将数据作为行内的核心资产,不断拓展数据应用场景,提升数据资产管理能力。烟囱式系统建设模式会给数据建设带来严重后果,数据标准、数据规范无法按预期实施,数据质量提升与预期相距甚远。中小银行原有的数据平台(简称ODS)系统已经不能满足业务部门日益旺盛的数据分析需求,同时也面临着一些其它问题,如:数据架构混乱,数据存储分散、数据冗余严重、数据网状结构,缺乏统一的数据模型和数据管控等,迫切需要对ODS系统进行重构,对数据进行统一整合,构建全行数据标准化体系,满足行内业务快速发展及数据辅助应用等需求,能够在激烈的数字化转型竞争中发挥应有的价值。

一、 建设思路

1.1数据标准先行

数据标准是一整套数据规范,是开展数据治理工作的必要先行和重要基础。数据标准是为了规范数据在行内外共享和使用的一致性和准确性,对数据分类、业务属性、技术属性、管理属性等所做的统一规定。数据标准实施分为数据标准制定和数据标准执行两个阶段,依托数据仓库需求调研过程梳理现有元数据,并以此为基础借鉴同业和厂商实施经验,制定专属银行内部的数据标准,再经行内各部门协商一致,批准发布一套供各部门遵循使用的规范性数据标准文件,从而确保银行的数据资产在交换和使用过程中具有高度的一致性和准确性,通过数据仓库实施过程去落地,从而完成全行数据流向的标准化和规划化。

1.2数据管控跟进

数据标准解决了数据的入仓问题,使得更多业务系统的接入成为可能,在丰富数据源的同时也带来了新的挑战,即如何保证入仓数据的高质量。这个问题如果不能妥善解决,将会直接影响数据仓库的使用效果,对数据仓库是“企业数据垃圾桶”的抱怨就是该问题的具体体现。

银行在开展数据管控工作中,采用了规划、组织、制度、技术工具等因素相结合的综合数据管控机制,并在这四个层面开展了相应的工作。规划层面完成了数据管理制度与流程体系的整体规划;组织层面建立了由全行专项数据治理机制领导下的数据管控组织;制度层面制定了数据标准管理、数据质量管理、元数据管理、数据模型管理、数据交换管理、报表需求管理等六项数据管控办法和数据管理专项考核指标,为数据管理提供制度保障,保障数据管控制度的落地执行;技术层面完成了数据管控平台的建设,为全行员工参与数据管控工作提供了技术工具。这四个方面缺一不可,任何一方面的缺失或不足难以保证数据管控工作取得实际效果。

在数据仓库建设中,以元数据管理为基础,以管控流程为手段,使数据仓库成为全行可信、可控的数据源。

1.3应用驱动与数据驱动相结合

数据应用不足、数据服务缺乏是当前中小银行数据仓库建设所面临的一个共性问题,由此所导致的后果就是空守“宝山”却不能用,投资的价值得不到体现,而这也影响到管理层经营决策使用,导致投入减少,不足以支持众多数据服务的建设,从而形成不良循环,最终导致整个数据仓库建设失败。

在梳理数据仓库的建设需求时,为了进一步体现数据仓库的应用价值,不仅考虑如何从底层保证数据的入仓,还从数据应用入手,将数据仓库支持的应用按照客户分析营销、风险管控、监管审计、精细化管理分类建设,提升我行经营管理、决策分析和监管报送水平。在数据仓库项目群建设时,将数据仓库、数据集市与数据应用进行协同建设,实现仓库建设与数据应用建设互动,充分体现数据仓库建设价值。

二、 分层规划

稳健的数据仓库体系,需要对数据进行分层存储,既要保证数据模型的稳定又要尽量屏蔽对下游的影响,并且要避免数据链路过长。分层是以数据为驱动,解决当前业务快速支撑并为未来抽象共性框架赋能其他业务线的稳定方法。我行根据自身情况,划分五层数据架构:缓冲层、贴源层、模型层、汇总层、集市层,不同数据层间的数据流向关系如下图所示:

 

2.1缓冲层

数据临时层,这一层不做过多的数据清洗工作,原封不动地接入原始数据,保留明细数据,保留短期历史数据,同时建立全行的历史数据查询系统,可从缓冲层直接获取数据。

2.2贴源层

该层与缓冲层保持一样的数据粒度,对源系统数据不整合不加工,但保留长期的历史数据。

2.3模型层

按照业务主题进行数据分类存储,对数据进行整合,且保留长期的历史数据。在模型层进行数据标准落标,丰富数据资产的要素。

2.4汇总层

按照主题结合维度建模,对数据进行整合汇总加工,保留关键时点历史数据,数据来源模型层。

2.5集市层

以维度建模为主,根据应用需求对数据进行整合加工,保留特定业务需求的历史数据,集市层的数据来源模型层和汇总层。

三、 模型设计

数据仓库模型不只是考虑如何设计和实现功能,还应从访问性能、数据成本、使用成本、数据质量、扩展性等多方面来统筹考虑。

3.1数据仓库模型总体设计原则

3.1.1高内聚、低耦合

即主题内部高内聚、不同主题间低耦合。模型层按照业务划分主题,汇总层按照“实体+ 活动”划分不同分析主题,集市层根据应用需求划分不同应用主题。

3.1.2核心模型和扩展模型要分离

建立核心模型与扩展模型体系,核心模型包括的字段支持常用的核心业务,扩展模型包括的字段支持个性化或少量应用的需要,不能让扩展模型的字段过度侵入核心模型,以免破坏核心模型的架构简洁性与可维护性。

3.1.3公共逻辑下沉及单一

越是底层公用的处理逻辑越应该在数据调度依赖的底层进行封装与实现,不要让公用的处理逻辑暴露给应用实现,不要让公共逻辑多处同时存在。

3.1.4成本与性能平衡

适当的数据冗余可换取查询和刷新性能,不宜过度冗余与数据复制。

3.1.5数据可回滚

适当的数据冗余可换取查询和刷新性能,不宜过度冗余与数据复制。

3.2模型设计方法

常见的模型设计方法有范式建模和维度建模。数据仓库模型设计根据各层的定位分布采用两种建模方式相结合的设计方式,模型层采用范式为主,维度为辅;汇总层采用维度为主,范式为辅;集市层采用维度建模方式。

3.3表设计

3.3.1模型层

模型层表的定位是规避变化,融合数据,规范标准,表设计上至少满足以下几点:

(1) 准确的业务定义。模型层的表字段要求信息调研清晰、业务含义明确,这是数据应用与数据服务的前提与基础。

(2) 整合各系统分散的信息。共性信息进行提炼,可以提高应用的开发效率和准确性。

(3) 建立数据关系形成企业级的数据视图。

(4) 表结构的稳定性要求,避免源业务系统的变化对模型层的致命的冲击,保证源系统数据的可读性。

3.3.2汇总层

汇总层表的定位是面向多个应用提供共享数据服务的一个公共数据集市,设计要求满足一次加工多次使用,构建在数据仓库与应用数据集市之间。汇总层从业务的角度,提取具有共性、可被多个应用所复用的基础数据和汇总指标;按业务组织数据,按照一定的粒度进行数据整合、去规范化处理,并且存储某些关键时点的历史快照数据。

3.3.3集市层

集市层表的定位是面向特定业务的应用集市,设计上更偏向业务的特殊性、个性化内容。

四、 主题划分

按照数据描述的业务活动的信息,将银行在业务活动中的产生的同类数据自然汇集在一起的数据集合称之为主题。结合国内外模型设计理论,借鉴同业金融机构模型设计经验,结合现有业务特点进行主题划分,共包括13个业务主题:客户主题、产品主题、内部机构主题、存款主题、信贷主题、理财主题、票据主题、信用卡主题、资金资管主题、财务主题、渠道主题、支付结算主题、中间业务主题。

4.1客户主题

描述服务的对象和感兴趣进行分析的对象,比如各种个人或团体客户、企业、金融机构、潜在客户等。客户主题存储客户自身属性信息,且每个客户在行内的信息是唯一的。

4.2产品主题

描述所有产品自有属性信息,包括产品分类、产品状态、产品管理信息等。该主题包含存款产品、贷款产品、理财产品、资金产品等行内自有产品,也可包括他行产品信息。产品主题目前包括存款产品、贷款产品、理财产品、保险产品、资金资管产品等及银行提供的非金融服务。

4.3内部机构主题

指银行机构的内部组织和业务单元,如分行、支行等等。在内部机构主题中,更多的反映其作为内部组织机构的职能等特征;内部机构主题也包含了银行内部人员信息,如员工信息、柜员信息、客户经理信息等。

4.4存款主题

描述一个金融机构吸收客户闲散资金、支付客户利息并为客户提供结算服务、账户管理服务的行为。该主题主要包括:存款账户基本信息、账户合约信息、账户限制信息、账户余额及利息信息、账户属性、客户经理揽储比例分配等。此外也包括存款账户发生交易的交易流水信息,存款账户的介质和凭证信息,如借记卡、支票等。

4.5信贷主题

描述一个金融机构作为债权人为债务人提供有使用期限、需要付利息、并到期收回的资金的行为。信贷主题包括贷款申请、授信合同信息、客户授信额度、贷款合同信息、担保合同信息、贷款借据(账户)信息、贷款期限调整信息、抵质押物、还款计划、还款流水、贷款损失准备金信息、资产保全信息等。

4.6理财主题

描述一个金融机构提供给的一种客户可以根据自己的财务状况在风险可以接受范围内实现资产增值的最大化的服务。包含了理财签约、风险评估、理财募集、理财份额、理财交易等信息。理财业务包括传统意义上的保本理财和非保本理财,也包括基金、保险等业务。

4.7票据主题

描述金融机构经营过程中常常使用到的一种有价凭证,有纸质和电子两种介质,我国《票据法》中的票据包括汇票、银行本票和支票。该主题主要包括票据基本信息、票据承兑、票据贴现、转贴现、再贴现、票据质押等信息。

4.8信用卡主题

由持卡人方便快捷地办理支付结算并形成相关消费信息的贷记账户。公务卡作为一种现代支付结算工具,属于信用卡范畴。信用卡主题包含了卡片基本信息、信用卡账户、信用卡申请、交易信息及信用卡账单、逾期催收信息等。

4.9资金资管主题

描述了银行在公开市场或其他交易市场上与交易对手进行的各类金融活动时签订的协议。包含同业拆借协议、债券买卖协议、债券回购协议、债券借贷协议、即期外汇买卖协议、国库定期存款协议、信贷资产转让协议、衍生产品协议等。包括:资金资管包含拆放同业及买入返售、债券、理财直接融资工具、新增可投资资产、非标准化债权类资产、权益类资产、商品类资产、另类资产、公募基金等交易信息等。

4.10财务主题

描述一个金融机构的内部账务情况,体现金融机构的经营状况,主要存储银行科目账务以及预算管理有关的内容,包括科目余额信息、会计分录信息、科目定义等。

4.11渠道主题

描述的是当各种事件发生时,当事双方(主要是指客户和银行)进行交互和接触的手段及方法,通过它,客户与银行进行接触、购买产品、使用服务并交流信息。渠道主题包含渠道自身信息、渠道签约信息、渠道交易信息。

4.12支付结算主题

指单位、个人在社会经济活动中使用票据、卡等凭证,通过汇兑、托收承付、委托收款等业务通过人行、银联、网联及其它支付机构进行货币给付及其资金清算的行为。银行的支付结算信息,包括银联、网联、大小额、超网结算信息,也包括同城结算等信息。

4.13中间业务主题

本主题描述的中间业务是狭义中间业务,银行作为中间介质收取手续费为客户提供的代收代付服务,包括代收代付、非税、国库等信息。

五、 辅助工具

5.1统一数据交换平台

面向全行数据采集、交换、共享和开放的标准化的、规范的、高效的、稳定的、可控的数据服务总线,实现批量、准实时或者实时的数据交换要求,提升业务系统间多样化、可配置、易管理的非实时批量及准实时数据交换能力。包括内部各源业务系统结构化数据、半/非结构化数据和外部数据源,为数据平台提供数据服务。

5.2数据资产管理平台

在数据生命周期的各个阶段(产生、处理、存储、应用、归档直至最终被删除),企业必须完全按照组织的业务需要进行处理、管控、保护和共享。数据资产管理平台包括元数据管理、数据标准管理、数据质量管理、数据资产地图等。数据管控始终贯穿数据平台的整个建设过程,需要规划数据资产管理平台的体系架构,分析梳理行内数据标准化、数据质量、元数据的管理流程,结合数据资产管理平台做好数据管理,提升数据质量。

六、 实际思考

未来的时代是数字化的时代,银行的数字化转型是必然趋势。数据仓库技术能够为数据流分析提供科学的数据支撑,在进行精准营销、综合管理和风险控制时,帮助银行的各层级管理者更好的决策。中小银行因其特殊性,在构建数据建仓要注意以下几点:

(1)确立以业务价值为导向的原则

中小银行的业务对其发展至关重要,数字化转型的主要目的也是为了发展业务,而不是为了建平台而建平台,因此建设数据仓库的每个阶段都必须突出业务导向。

(2)确立数据养护原则

在信息时代,客户资源都体现在数据信息上,因此不论是横向截面数据还是纵向序列数据,在构建合理的数据仓库后,要做好后期的维护和经营。

(3)专注细分领域,聚焦优势资源

中小银行成长于细分领域,未来的发展仍然还在细分领域。因此,在构建数据仓库时要针对自己的优势客户群体,精心打造专业领域的数据仓库。

 

 

原文链接:中小银行数据仓库建设实践 (qq.com)

标签:模型,主题,数据仓库,实践,信息,业务,数据
From: https://www.cnblogs.com/hole/p/17528046.html

相关文章

  • 从GaussDB(DWS)的技术演进,看数据仓库的积淀与新生
    摘要:随着云计算的兴起和渗透,云数仓成为了数仓技术演进的新阶段,并且逐渐成为了众多企业的共同选择。本文分享自华为云社区《从GaussDB(DWS)的技术演进,看数据仓库的积淀与新生》,作者:华为云头条。数据驱动着现代商业的发展今天,无论在制造、零售、物流还是在互联网、金融等行业......
  • 数据仓库MPP架构&分布式架构
    数据仓库MPP架构&分布式架构一、MPP架构1.1MPP架构概述MPP(MassivelyParallelProcessing)架构是一种分布式数据处理技术,能够通过将工作负载分散到多个节点上来提高数据处理性能。与传统的共享架构不同,MPP采用非共享架构(ShareNothing),将单机数据库节点组成集群,每个节点拥有独立......
  • 火山引擎DataLeap数据质量解决方案和最佳实践(三):最佳实践
    更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群最佳实践前面介绍了DataLeap数据质量平台的一些实现方式,下面为大家介绍一些我们在数据量和资源这两个方面的最佳实践。表行数信息-优先HMS获取内部的离线监控中,表行数的监控占比非常......
  • 数据仓库基本概念
    数据仓库基本概念一、数据仓库诞生原因随着互联网的普及,信息技术已经深入到各行各业,并逐步融入到企业的日常运营中。然而,当前企业在信息化建设过程中遇到了一些困境与挑战。1.1历史数据积存过去企业的业务系统往往是在较长时间内建设的,很少进行大面积的改造或者升级,历史数据留......
  • 容器环境下的持续集成最佳实践:构建基于 Drone + GitFlow + K8s 的云原生语义化 CI 工
    云原生(CloudNative)是伴随的容器技术发展出现的的一个词,最早出自Pivotal公司(即开发了Spring的公司)的一本技术小册子MigratingtoCloud-NativeApplicationArchitectures,其中定义了云原生应用应当具备的一些特质,如无状态、可持续交付、微服务化等。随后云原生概念被广......
  • 为什么K8s在阿里能成功过?基于K8s的云原生改造实践过程
    导读:本文描述了阿里巴巴在容器管理领域的技术演进历程,解读了为什么K8s最终能够大获成功的原因,以及到今年双11阿里巴巴内部的K8s应用情况。内容着重描述了阿里巴巴基于K8s的云原生改造实践过程的三大能力升级,在对应能力升级过程中沉淀的技术解决方案,以及通过这些能力升级......
  • FreeWheel基于Go的实践经验漫谈——GC是大坑(关键业务场景不用),web框架尚未统一,和c++性
    Go语言是FreeWheel公司目前主要力推的一个方向,在其看来,面向服务的架构的大环境中,Go非常适合做一些功能相对独立、功能比较明确的微服务的语言。在结合已有的各种编程语言,计算框架(如Hadoop、Java、Ruby、C++)的基础上,FreeWheel把Go语言定位成用来实现轻量级服务或API的缺省编程语言,将......
  • 扫光动效在移动端应用实践
    作者|Seven导读随着移动互联网的快速发展,业界涌现出大量有创意又有趣的交互体验。扫光动效就是其中一种有意思的加载动效,常见的扫光动效有骨架屏扫光、logo扫光。那么这两种扫光动效的原理是什么,如何实现这两种扫光效果,以及在iOS和Andoird双端实现起来有什么差异,本文会为你详细揭......
  • Nginx学习笔记-部署静态页面实践
    目录准备一个静态登录页面demoHTML静态页面-index.htmlCSS样式文件-index.cssNginx配置文件-nginx.conf启动Nginx样例展示准备一个静态登录页面demo需要将下面的两个文件index.html和index.css放到nginx安装目录下html目录中HTML静态页面-index.html<!DOCTYPEhtml><htmll......
  • 火山引擎 DataLeap 构建Data Catalog系统的实践(一):背景与调研思路
    更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群摘要DataCatalog产品,通过汇总技术和业务元数据,解决大数据生产者组织梳理数据、数据消费者找数和理解数的业务场景,并服务于数据开发和数据治理的产品体系。本文介绍了火山引擎DataLeap......