- 2024-11-20新兴数据仓库设计与实践手册:从分层架构到实际应用(二)
本手册将分为三部分发布,以帮助读者逐步深入理解数据仓库的设计与实践。第一部分介绍数据仓库的整体架构概述;第二部分深入讨论ETL在数仓中的应用理论,ODS层的具体实现与应用;第三部分将围绕DW数据仓库层、ADS层和数据仓库的整体趋势展开;通过这样的结构,您可以系统地学习每一层
- 2024-11-01datax抽取mongodb数据到hive
{"job":{"setting":{"speed":{"channel":3},"errorLimit":{"record":0,"percentage":0.02}},"content":[{"reader":{"name":"mongodbrea
- 2024-10-21数仓模型规范设计
模型架构设计数仓架构一般从宏观上分为三层:操作数据层ODS、公共维度模型层CDM和数据应用层ADS。其中CDM又包含明细数据层DWD、汇总数据层DWS,维度层DIM、根据生产经验这里可在加入数据临时层TMP。架构图如下:ODS把操作系统的数据几乎无处理地存放在数据仓库系统中。支持
- 2024-09-13mysql创建视图
--CreatetablecreatetableODS_QMS.QMS_TRIAL_PROVIDE_BAD_INFORMATION(idVARCHAR2(36),date_tVARCHAR2(30),factoryVARCHAR2(16),provide_codeVARCHAR2(16),provide_nameVARCHAR2(16),marer
- 2024-08-18BI项目中的数据仓库分层
在BI项目中,数据仓库是一个关键的组成部分,其目的是将企业中分散的数据整合到一个中心化的存储库中,并提供一个用于分析和报告的单一来源。为了更好地组织和管理数据,数据仓库通常被分为多个层级。一、分为stg,ods,dw,dm四层1.数据源层(staginglayer)数据源层(stg)是数据仓库的第
- 2024-05-28datax 抽取hive表到doris
datax读取hive表有两种方式,一种是读取hdfs文件路径HDFSReader,因为hive是存储在hdfs上。第二种是读取hive表RDBMSReader。HDFSReader{"job":{"setting":{"speed":{"channel":3},"
- 2024-05-223/5数仓面试必看
压缩就用gzip 汇总数据 TSV 建表语句 全量表设计 null的格式不一样,虽然显示都为空 都用空字符显示增量表13张和业务无关的不用拿过来 ods数据装载脚本 i:4substring方法DIM表的数据源是ods层如果找不到不能从数
- 2024-05-14SQL 复杂查询更新插入
通过现有数据快速插入构造新数据1INSERTINTO`merge`.`ods_binlog_traffic_vehicle_tracks`(2`id`,3`vehicle_no`,4.5.6.7`gps_datetime`,8.9.10.11`update_time`,12.13.14.15)
- 2024-04-22使用iceberg-使用Iceberg数据湖需要注意的点
一、资料准备1、mysql地址选择因为阿里云只读节点binlog保留时间短,需要用读写集群地址。可以登录阿里云控制台查看地址是只读还是读写,不清楚的话可以找dba要读写地址。二、Iceberg概念1、Iceberg选择合适的表版本简述:Iceberg目前有两个表版本(V1和V2),根据数据选择合适的表版本
- 2024-04-22表治理-iceberg表手动治理常用命令
一、登录spark客户端spark-sql--masteryarn\--deploy-modeclient\--queuedefault\--namewang\--driver-memory12G\--num-executors10\--executor-cores4\--executor-memory20G二、sql查询表信息1、查询表快照信息SELECT*FROMspark_catalog.data_lak
- 2024-03-29数仓 - [03] 拉链表
拉链表是一种特殊的数据结构,其应用场景十分广泛,主要如下:1、监控系统:拉链表可以完整地记录系统的运行状态,方便进行监控和分析。2、金融交易:在金融领域,拉链表可以记录每个交易的时间戳、交易金额、交易类型等信息,从而实现对金融风险的监控和控制。例如,可以通过拉链表查询某
- 2024-03-19数据仓库架构
1、数据仓库ODS层数据仓库ODS层也称为操作数据源层,是数据仓库中的一个核心组成部分。该层主要用于保存原始数据,完成数据积存,通常反映了企业业务系统中的最新操作,同时也是进行数据仓库的基础。数据仓库ODS层通常采用可靠的数据仓库ETL工具为数据仓库提供数据,以此使源数据
- 2024-03-15数仓开发之ODS层
优秀可靠的数仓体系,需要良好的数据分层结构。合理的分层,能够使数据体系更加清晰,使复杂问题得以简化。以下是该项目的分层规划。1设计要点(1)ODS层的表结构设计依托于从业务系统同步过来的数据结构(2)ODS层要保存全部历史数据,故其压缩格式应选择压缩比较高的,此处选择gzip(3)ODS层表
- 2024-02-28hdfs文件传输到ods层的脚本
#!/usr/bin/python3#coding=utf-8importsysfrombaseimportget_yesterday,APPimportsubprocessdate=get_yesterday()tables=['ods_log_inc','ods_activity_info_full','ods_activity_rule_full','ods_base_categ
- 2023-12-05datax采集txt文件数据到hive
1、提前创建hive表结构DROPTABLEIFEXISTSods.ods_log_1diu;CREATETABLEIFNOTEXISTSods.ods_log_1diu(SI_NOSTRING,--varchar(10)notnull,主键SEND_TABLESTRING,--varchar(30)notnull,主键SEQSTRING,--varchar(11)notnull,主
- 2023-11-18大数据开发规范
一、数据中台顶层架构二、数据模型架构规范1.模型架构层次划分:分大三层:操作贴源数据层(分为stg和ods)数据仓库层(分为dwd+dws)应用数据层(分为dm+st)操作数据层:OperationalDataStore,操作数据层,在结构上其与源系统的增量或者全量数据基本保持一致。它相当于一个数据准备
- 2023-10-24hive基本操作
间隔几年,又开始频繁写hive的sql,整理一点关于hive常用的基本语句,只有天天写的时候才很熟练,过几年很容易遗忘的东西。hive创建表droptableifexistsods.tb_fdn_testtable;createtableifnotexistsods.tb_fdn_testtable(citystringcomment'地市'
- 2023-08-04ODS层数据同步问题总结
ODS层数据同步问题总结项目中参与到一些贴源层从各个系统同步数据的需求,理论上ODS层是不做任何处理的,应该很简单才对,但是实际还是超出理论的,结合其他同事踩过的坑,总结一些接入的问题。其实大部分问题,都是源表不规范导致的,因此在抽数前,一定要做好调研,下次写一篇如何做调研的总结
- 2023-07-07https://www.zhihu.com/tardis/bd/art/627016379?source_id=1001
1、ODS原始数据层ODS层保存所有操作数据,不对原始数据做任何处理。在业务系统和数据仓库之间形成一个隔离,源系统数据结构的变化不影响其他数据分层。减轻业务系统被反复抽取的压力,由ODS统一进行抽取和分发。记住ODS层数据要保留数据的原始性。处理原则:根据源业务系统表的情况以
- 2023-06-14数据比对通用SQL模版
--********************************************************************----author:xujinchen--createtime:2023-06-1417:51:04--********************************************************************--withods_dcas(selectpt,count(*)
- 2023-06-03数据仓库之商品订单数仓开发
ods层在ods_mall中需要创建以下针对商品订单数据的表表名说明导入方式ods_user用户信息表全量ods_user_extend用户扩展表全量ods_user_addr用户收货地址表全量ods_goods_info
- 2023-05-24同步mysql数据库binlog用户所需要权限
同步mysqlbinlog用户读写权限报错提示doesnothaveREPLICATION_CLENTprivilege 使用场景:常用于阿里云flink同步数据库binlog使用解决方案:fiink cdc 的表用户,需要有Replicationclient,Replicationslave权限。授权命令如下:grantReplicationclienton*.* toods_base@
- 2023-04-21kafka业务数据到ODS层处理小记
kafka业务数据到ODS层处理小记1:kafka消息partition分区,应以表主键为key2:kafka消息落地后,同一批次数据中取主键+offset最大的一条,再删除基础数据中此批次数据,最后将此批次数据按数据处理类型(delete、insert、update),先insert、update,再delete。
- 2023-04-06hive 数据仓库分层
1:为什么要分层 大多数情况下,我们完成的数据体系却是依赖复杂、层级混乱的。如下图,在不知不觉的情况下,我们可能会做出一套表依赖结构混乱,甚至出现循环依赖的数据体系我们需要一套行之有效的数据组织和管理方法来让我们的数据体系更有序,这就是谈到的数据分层。数据分层并不能解
- 2023-04-01sql面试题目
sql逻辑:createtableods.product(product_idint,product_namevarchar(255))ENGINE=InnoDBDEFAULTCHARSET=utf8mb3;insertintoods.productvalues(1,'LCPhone');insertintoods.productvalues(2,'LCT-Shirt');select*fromods.product;cre