首页 > 其他分享 >数仓

数仓

时间:2023-12-22 18:00:45浏览次数:30  
标签:数仓 数据库 数据仓库 OLTP OLAP 数据 ETL

数据仓库的定义

数据仓库是将多个数据源的数据经过ETL处理之后,按照一定的主题集成起来提供决策支持联机分析应用的结构化数据环境。

ETL:Extract(抽取)、Transform(转换)、 Load(加载)

数据仓库 vs 数据库

数据库是面向事务的设计,数据仓库是面向主题设计的。

数据库一般存储在线交易数据,数据仓库一般是历史数据。

数据库设计是避免冗余,采用三范式的规范来设计,数据仓库在设计是有意引入冗余,采用反范式的方式来设计

OLTP vs OLAP

联机事务处理OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,如银行交易。

联机分析处理OLAP事数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。

为什么要建设数据仓库

各个业务数据格式存在不一致,数据关系混乱

业务系统一般针对OLTP,而数据仓库可以实现OLAP分析

数据仓库是多源的复杂环境,可以对多个业务的数据进行统一分析

数据仓库建设目标

集成多源数据,数据来源和去向可追溯,梳理血缘关系

减少重复开发,保存通用性中间数据,避免重复计算

屏蔽底层业务逻辑,对外提供一致的、结构清晰的数据

如何实现

实现通用性ETL工具

根据业务建立合理的数据分层模型

标签:数仓,数据库,数据仓库,OLTP,OLAP,数据,ETL
From: https://www.cnblogs.com/shine-rainbow/p/17922117.html

相关文章

  • 【活动回顾】Databend 云数仓与 Databend Playground 扩展组件介绍
    2023年12月7日,作为KubeSphere的合作伙伴,Databend荣幸地受邀参与了KubeSphere社区主办的云原生技术直播活动。本次活动的核心议题为「Databend云数仓与DatabendPlayground扩展组件介绍」,此次分享由DatabendLabs的研发工程师尚卓燃担任主讲嘉宾,向与会者呈现了一场......
  • FQS:一种神奇的数仓查询优化技术
    本文分享自华为云社区《根据执行计划优化SQL【绽放吧!GaussDB(DWS)云原生数仓】》,作者:西岭雪山。引言如果您刚接触DWS那一定会好奇想要知道"REMOTE_FQS_QUERY"到底代表什么意思?我们看官网的描述是代表这执行计划已经CN直接将原语句下发到DN,各DN单独执行,并将执行结果在CN上进行汇......
  • 数仓项目总结
    数仓项目总结一、数据采集数据从哪里来的?一般在实际开发中,是业务开发端在业务系统程序中,植入一些收集事件数据的SDK(工具代码),进行各种事件数据的收集,埋点数据可以植入到业务系统的前端程序或者后端程序中。我们作为大数据开发,只需要提出数据埋点需求,对具体实现技术仅作基本了......
  • 数仓调优实践丨多次关联发散导致数据爆炸案例分析改写
    本文分享自华为云社区《GaussDB(DWS)性能调优:求字段全体值中大于本行值的最小值——多次关联发散导致数据爆炸案例分析改写》,作者:Zawami。1、【问题描述】 语句中存在同一个表多次自关联,且均为发散关联,数据爆炸导致性能瓶颈。2、【原始SQL】explainverboseWITHTMPAS......
  • 数仓虚拟化技术:PieCloudDB Database 通过中国信通院 2023 「可信数据库」性能评测的强
    “可信数据库”是国内首个数据库的评测体系,被业界广泛认可为产品能力重要的衡量标准之一。PieCloudDBDatabase在该评测中展现出卓越的数据处理速度、稳定性和可扩展性,为用户提供了强大的数据分析和查询能力。6月15~16日,中国信通院2023上半年“可信数据库”评测专家评审会......
  • 【PostgreSQL 数据库线下沙龙(武汉站)】PieCloudDB Database :云原生分布式虚拟数仓的诞
    2023年6月3日,开源软件联盟PostgreSQL中文社区在武汉举办了技术沙龙活动。本次活动主题围绕未来数据库展开讨论和分享。通过探讨未来数据库的概念和特点,为智能化时代的发展提供更多的支持和服务。同时,通过探讨数据库和AI技术的共生共荣,推动数字经济的发展和创新,开创未来数据库的新......
  • 【PostgreSQL 数据库技术峰会(成都站)】云原生虚拟数仓 PieCloudDB Database 的架构和关
    2023年6月17日,中国开源软件推进联盟PostgreSQL分会在成都举办了数据库技术峰会。此次峰会以“新机遇、新态势、新发展”为主题,结合当下信创热潮、人工智能等产业变革背景,探讨PostgreSQL数据库在这些新机遇下的发展前景。峰会邀请众多行业大咖、学术精英、技术专家、技术爱好者......
  • 拓数派发布新一代云原生虚拟数仓PieCloudDB
    3月14日,2023拓数派「InfinitePossibilities」战略暨新产品发布会在上海圆满落幕,拓数派创始人兼CEO冯雷(RayVon)重磅发布基于新一代云原生数仓虚拟化打造的全新PieCloudDB「云上云」版。拓数派COO陆公瑜、拓数派CTO郭罡、东吴证券投行部联席总经理席平健博士,元禾重元合伙人张文敏,阿......
  • 数仓实践丨常量标量子查询做全连接导致整体慢
    本文分享自华为云社区《GaussDB(DWS)性能调优:常量标量子查询做全连接导致整体慢》,作者:Zawami。问题描述由于SQL中存在标量子查询同另一查询做笛卡尔积使SQL整体慢。标量子查询,即结果集只有一行一列的子查询。这里导致的SQL语句执行慢不只是在于做笛卡尔积慢,也会使后续聚合更慢......
  • 数仓性能调优:row_number() over(p)-rn=1性能瓶颈发现和改写套路
    本文分享自华为云社区《GaussDB(DWS)性能调优:row_number()over(p)-rn=1性能瓶颈发现和改写套路》,作者:Zawami。1、改写场景本套路应用于子查询中含有row_number()over(partitionbyorderby)rn,并仅把rn列用于分类排序后筛选最大值的场景。2、性能分析GaussDB中SQL语句的执......