- 2025-01-03数据分层 ODS DW DM层级.241203
在数据仓库的设计过程中,数据分层是一种重要的组织方式,能够提高数据处理效率和数据质量。数据分层通常包括原始数据(OperationalDataStore,ODS)、明细数据(DataWarehouse,DW)和汇总数据(DataMart,DM)三个层级。下面将详细介绍这三个层级的作用以及如何优雅地设计它们。一、原始数据层(OD
- 2024-12-15Hive分层数据处理:从ODS到ADS的实现与应用
在大数据开发中,数据分层处理是常见的架构设计模式,尤其在数据仓库建设中,分层架构便于数据组织和管理,提升开发效率。本文将以Hive为例,详细介绍ODS、DWD、DWS、ADS层的设计与实现。一、数据分层的意义解耦数据流:分层将原始数据、清洗数据、分析数据、应用数据分开,避免耦合
- 2024-12-11【Linux】进程的状态和进程优先级
进程状态进程状态的名词解析新建:字面意思重新创建一个进程,但是这个进程的test_struct还没有加载到运行队列中此时的状态成为新建。运行:进程的test_struct结构体被加载到可执行队列中。 阻塞:等待非CPU资源的就绪时的状态就叫做阻塞。
- 2024-09-13mysql创建视图
--CreatetablecreatetableODS_QMS.QMS_TRIAL_PROVIDE_BAD_INFORMATION(idVARCHAR2(36),date_tVARCHAR2(30),factoryVARCHAR2(16),provide_codeVARCHAR2(16),provide_nameVARCHAR2(16),marer
- 2024-08-18BI项目中的数据仓库分层
在BI项目中,数据仓库是一个关键的组成部分,其目的是将企业中分散的数据整合到一个中心化的存储库中,并提供一个用于分析和报告的单一来源。为了更好地组织和管理数据,数据仓库通常被分为多个层级。一、分为stg,ods,dw,dm四层1.数据源层(staginglayer)数据源层(stg)是数据仓库的第
- 2024-05-28datax 抽取hive表到doris
datax读取hive表有两种方式,一种是读取hdfs文件路径HDFSReader,因为hive是存储在hdfs上。第二种是读取hive表RDBMSReader。HDFSReader{"job":{"setting":{"speed":{"channel":3},"
- 2024-05-223/5数仓面试必看
压缩就用gzip 汇总数据 TSV 建表语句 全量表设计 null的格式不一样,虽然显示都为空 都用空字符显示增量表13张和业务无关的不用拿过来 ods数据装载脚本 i:4substring方法DIM表的数据源是ods层如果找不到不能从数
- 2024-05-14SQL 复杂查询更新插入
通过现有数据快速插入构造新数据1INSERTINTO`merge`.`ods_binlog_traffic_vehicle_tracks`(2`id`,3`vehicle_no`,4.5.6.7`gps_datetime`,8.9.10.11`update_time`,12.13.14.15)
- 2024-04-22使用iceberg-使用Iceberg数据湖需要注意的点
一、资料准备1、mysql地址选择因为阿里云只读节点binlog保留时间短,需要用读写集群地址。可以登录阿里云控制台查看地址是只读还是读写,不清楚的话可以找dba要读写地址。二、Iceberg概念1、Iceberg选择合适的表版本简述:Iceberg目前有两个表版本(V1和V2),根据数据选择合适的表版本
- 2024-04-22表治理-iceberg表手动治理常用命令
一、登录spark客户端spark-sql--masteryarn\--deploy-modeclient\--queuedefault\--namewang\--driver-memory12G\--num-executors10\--executor-cores4\--executor-memory20G二、sql查询表信息1、查询表快照信息SELECT*FROMspark_catalog.data_lak
- 2024-03-29数仓 - [03] 拉链表
拉链表是一种特殊的数据结构,其应用场景十分广泛,主要如下:1、监控系统:拉链表可以完整地记录系统的运行状态,方便进行监控和分析。2、金融交易:在金融领域,拉链表可以记录每个交易的时间戳、交易金额、交易类型等信息,从而实现对金融风险的监控和控制。例如,可以通过拉链表查询某
- 2024-03-19数据仓库架构
1、数据仓库ODS层数据仓库ODS层也称为操作数据源层,是数据仓库中的一个核心组成部分。该层主要用于保存原始数据,完成数据积存,通常反映了企业业务系统中的最新操作,同时也是进行数据仓库的基础。数据仓库ODS层通常采用可靠的数据仓库ETL工具为数据仓库提供数据,以此使源数据
- 2024-03-15数仓开发之ODS层
优秀可靠的数仓体系,需要良好的数据分层结构。合理的分层,能够使数据体系更加清晰,使复杂问题得以简化。以下是该项目的分层规划。1设计要点(1)ODS层的表结构设计依托于从业务系统同步过来的数据结构(2)ODS层要保存全部历史数据,故其压缩格式应选择压缩比较高的,此处选择gzip(3)ODS层表
- 2024-02-28hdfs文件传输到ods层的脚本
#!/usr/bin/python3#coding=utf-8importsysfrombaseimportget_yesterday,APPimportsubprocessdate=get_yesterday()tables=['ods_log_inc','ods_activity_info_full','ods_activity_rule_full','ods_base_categ
- 2023-12-05datax采集txt文件数据到hive
1、提前创建hive表结构DROPTABLEIFEXISTSods.ods_log_1diu;CREATETABLEIFNOTEXISTSods.ods_log_1diu(SI_NOSTRING,--varchar(10)notnull,主键SEND_TABLESTRING,--varchar(30)notnull,主键SEQSTRING,--varchar(11)notnull,主
- 2023-11-18大数据开发规范
一、数据中台顶层架构二、数据模型架构规范1.模型架构层次划分:分大三层:操作贴源数据层(分为stg和ods)数据仓库层(分为dwd+dws)应用数据层(分为dm+st)操作数据层:OperationalDataStore,操作数据层,在结构上其与源系统的增量或者全量数据基本保持一致。它相当于一个数据准备
- 2023-10-24hive基本操作
间隔几年,又开始频繁写hive的sql,整理一点关于hive常用的基本语句,只有天天写的时候才很熟练,过几年很容易遗忘的东西。hive创建表droptableifexistsods.tb_fdn_testtable;createtableifnotexistsods.tb_fdn_testtable(citystringcomment'地市'
- 2023-08-04ODS层数据同步问题总结
ODS层数据同步问题总结项目中参与到一些贴源层从各个系统同步数据的需求,理论上ODS层是不做任何处理的,应该很简单才对,但是实际还是超出理论的,结合其他同事踩过的坑,总结一些接入的问题。其实大部分问题,都是源表不规范导致的,因此在抽数前,一定要做好调研,下次写一篇如何做调研的总结
- 2023-07-07https://www.zhihu.com/tardis/bd/art/627016379?source_id=1001
1、ODS原始数据层ODS层保存所有操作数据,不对原始数据做任何处理。在业务系统和数据仓库之间形成一个隔离,源系统数据结构的变化不影响其他数据分层。减轻业务系统被反复抽取的压力,由ODS统一进行抽取和分发。记住ODS层数据要保留数据的原始性。处理原则:根据源业务系统表的情况以
- 2023-06-14数据比对通用SQL模版
--********************************************************************----author:xujinchen--createtime:2023-06-1417:51:04--********************************************************************--withods_dcas(selectpt,count(*)
- 2023-06-03数据仓库之商品订单数仓开发
ods层在ods_mall中需要创建以下针对商品订单数据的表表名说明导入方式ods_user用户信息表全量ods_user_extend用户扩展表全量ods_user_addr用户收货地址表全量ods_goods_info
- 2023-05-24同步mysql数据库binlog用户所需要权限
同步mysqlbinlog用户读写权限报错提示doesnothaveREPLICATION_CLENTprivilege 使用场景:常用于阿里云flink同步数据库binlog使用解决方案:fiink cdc 的表用户,需要有Replicationclient,Replicationslave权限。授权命令如下:grantReplicationclienton*.* toods_base@
- 2023-04-21kafka业务数据到ODS层处理小记
kafka业务数据到ODS层处理小记1:kafka消息partition分区,应以表主键为key2:kafka消息落地后,同一批次数据中取主键+offset最大的一条,再删除基础数据中此批次数据,最后将此批次数据按数据处理类型(delete、insert、update),先insert、update,再delete。