ODS
  • 2024-05-28datax 抽取hive表到doris
    datax读取hive表有两种方式,一种是读取hdfs文件路径HDFSReader,因为hive是存储在hdfs上。第二种是读取hive表RDBMSReader。HDFSReader{"job":{"setting":{"speed":{"channel":3},"
  • 2024-05-223/5数仓面试必看
    压缩就用gzip 汇总数据  TSV 建表语句    全量表设计  null的格式不一样,虽然显示都为空 都用空字符显示增量表13张和业务无关的不用拿过来   ods数据装载脚本 i:4substring方法DIM表的数据源是ods层如果找不到不能从数
  • 2024-05-14SQL 复杂查询更新插入
    通过现有数据快速插入构造新数据1INSERTINTO`merge`.`ods_binlog_traffic_vehicle_tracks`(2`id`,3`vehicle_no`,4.5.6.7`gps_datetime`,8.9.10.11`update_time`,12.13.14.15)
  • 2024-04-22使用iceberg-使用Iceberg数据湖需要注意的点
    一、资料准备1、mysql地址选择因为阿里云只读节点binlog保留时间短,需要用读写集群地址。可以登录阿里云控制台查看地址是只读还是读写,不清楚的话可以找dba要读写地址。二、Iceberg概念1、Iceberg选择合适的表版本简述:Iceberg目前有两个表版本(V1和V2),根据数据选择合适的表版本
  • 2024-04-22表治理-iceberg表手动治理常用命令
    一、登录spark客户端spark-sql--masteryarn\--deploy-modeclient\--queuedefault\--namewang\--driver-memory12G\--num-executors10\--executor-cores4\--executor-memory20G二、sql查询表信息1、查询表快照信息SELECT*FROMspark_catalog.data_lak
  • 2024-03-29数仓 - [03] 拉链表
      拉链表是一种特殊的数据结构,其应用场景十分广泛,主要如下:1、监控系统:拉链表可以完整地记录系统的运行状态,方便进行监控和分析。2、金融交易:在金融领域,拉链表可以记录每个交易的时间戳、交易金额、交易类型等信息,从而实现对金融风险的监控和控制。例如,可以通过拉链表查询某
  • 2024-03-19数据仓库架构
      1、数据仓库ODS层数据仓库ODS层也称为操作数据源层,是数据仓库中的一个核心组成部分。该层主要用于保存原始数据,完成数据积存,通常反映了企业业务系统中的最新操作,同时也是进行数据仓库的基础。数据仓库ODS层通常采用可靠的数据仓库ETL工具为数据仓库提供数据,以此使源数据
  • 2024-03-15数仓开发之ODS层
    优秀可靠的数仓体系,需要良好的数据分层结构。合理的分层,能够使数据体系更加清晰,使复杂问题得以简化。以下是该项目的分层规划。1设计要点(1)ODS层的表结构设计依托于从业务系统同步过来的数据结构(2)ODS层要保存全部历史数据,故其压缩格式应选择压缩比较高的,此处选择gzip(3)ODS层表
  • 2024-02-28hdfs文件传输到ods层的脚本
     #!/usr/bin/python3#coding=utf-8importsysfrombaseimportget_yesterday,APPimportsubprocessdate=get_yesterday()tables=['ods_log_inc','ods_activity_info_full','ods_activity_rule_full','ods_base_categ
  • 2023-12-05datax采集txt文件数据到hive
    1、提前创建hive表结构DROPTABLEIFEXISTSods.ods_log_1diu;CREATETABLEIFNOTEXISTSods.ods_log_1diu(SI_NOSTRING,--varchar(10)notnull,主键SEND_TABLESTRING,--varchar(30)notnull,主键SEQSTRING,--varchar(11)notnull,主
  • 2023-11-18大数据开发规范
    一、数据中台顶层架构二、数据模型架构规范1.模型架构层次划分:分大三层:操作贴源数据层(分为stg和ods)数据仓库层(分为dwd+dws)应用数据层(分为dm+st)操作数据层:OperationalDataStore,操作数据层,在结构上其与源系统的增量或者全量数据基本保持一致。它相当于一个数据准备
  • 2023-10-24hive基本操作
    间隔几年,又开始频繁写hive的sql,整理一点关于hive常用的基本语句,只有天天写的时候才很熟练,过几年很容易遗忘的东西。hive创建表droptableifexistsods.tb_fdn_testtable;createtableifnotexistsods.tb_fdn_testtable(citystringcomment'地市'
  • 2023-08-04ODS层数据同步问题总结
    ODS层数据同步问题总结项目中参与到一些贴源层从各个系统同步数据的需求,理论上ODS层是不做任何处理的,应该很简单才对,但是实际还是超出理论的,结合其他同事踩过的坑,总结一些接入的问题。其实大部分问题,都是源表不规范导致的,因此在抽数前,一定要做好调研,下次写一篇如何做调研的总结
  • 2023-07-07https://www.zhihu.com/tardis/bd/art/627016379?source_id=1001
    1、ODS原始数据层ODS层保存所有操作数据,不对原始数据做任何处理。在业务系统和数据仓库之间形成一个隔离,源系统数据结构的变化不影响其他数据分层。减轻业务系统被反复抽取的压力,由ODS统一进行抽取和分发。记住ODS层数据要保留数据的原始性。处理原则:根据源业务系统表的情况以
  • 2023-06-14数据比对通用SQL模版
    --********************************************************************----author:xujinchen--createtime:2023-06-1417:51:04--********************************************************************--withods_dcas(selectpt,count(*)
  • 2023-06-03数据仓库之商品订单数仓开发
    ods层在ods_mall中需要创建以下针对商品订单数据的表表名说明导入方式ods_user用户信息表全量ods_user_extend用户扩展表全量ods_user_addr用户收货地址表全量ods_goods_info
  • 2023-05-24同步mysql数据库binlog用户所需要权限
    同步mysqlbinlog用户读写权限报错提示doesnothaveREPLICATION_CLENTprivilege 使用场景:常用于阿里云flink同步数据库binlog使用解决方案:fiink cdc 的表用户,需要有Replicationclient,Replicationslave权限。授权命令如下:grantReplicationclienton*.* toods_base@
  • 2023-04-21kafka业务数据到ODS层处理小记
    kafka业务数据到ODS层处理小记1:kafka消息partition分区,应以表主键为key2:kafka消息落地后,同一批次数据中取主键+offset最大的一条,再删除基础数据中此批次数据,最后将此批次数据按数据处理类型(delete、insert、update),先insert、update,再delete。
  • 2023-04-06hive 数据仓库分层
    1:为什么要分层 大多数情况下,我们完成的数据体系却是依赖复杂、层级混乱的。如下图,在不知不觉的情况下,我们可能会做出一套表依赖结构混乱,甚至出现循环依赖的数据体系我们需要一套行之有效的数据组织和管理方法来让我们的数据体系更有序,这就是谈到的数据分层。数据分层并不能解
  • 2023-04-01sql面试题目
    sql逻辑:createtableods.product(product_idint,product_namevarchar(255))ENGINE=InnoDBDEFAULTCHARSET=utf8mb3;insertintoods.productvalues(1,'LCPhone');insertintoods.productvalues(2,'LCT-Shirt');select*fromods.product;cre
  • 2023-02-11数仓:分层
    数据来源层ODS(OperationDataStore):数据基本上从源表中拉过来,经过抽取、洗净、传输(ETL)后装入本层,大体上按源业务的分类方式而分类的。数据仓库层DW(DataWarehouse):从OD
  • 2023-02-06报错doris Doris BrokerLoad No source file in this table
    错误详情[INFO]2022-04-2423:05:04.373-{"State":"CANCELLED","LogTime":"2022-04-2423:05:04","ErrorMsg":"type:ETL_RUN_FAIL;msg:errCode=2,detailMessage=
  • 2022-12-29大数据 ODS&DWD&DIM-SQL分享
    大数据ODS&DWD&DIM-SQL分享需求思路一:等差数列断2天、3天,嵌套太多1.1开窗,按照id分组,同时按照dt排序,求Rank--linux中空格不能用tab键selectid,dt,rank
  • 2022-12-15数据仓库的字母缩写
    ODS:操作型数据存储,基础层DW数据分层,由下到上为DWD,DWB,DWS。DWD:datawarehousedetails细节数据层,是业务层与数据仓库的隔离层。主要对ODS数据层做一些数据清洗和
  • 2022-12-05hive和trino中的爆炸函数lateral view explode与cross join unnest用法
    遇到一个不规则的json如下:trace是数组,外面2个time,hash都是单个字段。所以通过hive建表如下,trace使用了array包裹了struct结构:createexternaltablexy_ods.ods_addre