DWD
  • 2024-07-14dwd层的宽表设计
     宽表的设计高内聚低耦合宽表是数仓里面非常重要的一块,数仓是分层的,这是技术进步和时代变化相结合的产物,数仓的分层式为了更好地管理数仓以及更加高效地进行数据开发。宽表主要出现在dwd层和报表层,当然有的人说dws层也有,宽表,从字面意义上讲就是字段比较多的数据库表,通
  • 2024-05-29【赛题样题】【大数据应用开发】2023年全国职业院校技能大赛高职组“大数据应用开发”第三套样题
    2023年全国职业院校技能大赛赛题第03套赛项名称:        大数据应用开发        英文名称: BigDataApplicationDevelopment 赛项组别:        高等职业教育组               赛项编号:            
  • 2024-05-29【赛题样题】【大数据应用开发】2023年全国职业院校技能大赛高职组“大数据应用开发”第四套样题
    2023年全国职业院校技能大赛赛题第04套赛项名称:        大数据应用开发        英文名称: BigDataApplicationDevelopment 赛项组别:        高等职业教育组               赛项编号:             
  • 2024-03-29数仓 - [03] 拉链表
      拉链表是一种特殊的数据结构,其应用场景十分广泛,主要如下:1、监控系统:拉链表可以完整地记录系统的运行状态,方便进行监控和分析。2、金融交易:在金融领域,拉链表可以记录每个交易的时间戳、交易金额、交易类型等信息,从而实现对金融风险的监控和控制。例如,可以通过拉链表查询某
  • 2024-01-162024/1/16 数据仓库dwd层
    DWD层,以业务过程为建模驱动,基于每个具体业务过程的特点,构建最细粒度的明细层事实表。事实表可做适当的宽表化处理。 时间用户地区商品优惠券活动度量值订单√√√   运费/优惠金额/原始金额/最终金额订单详情√
  • 2024-01-08新能源趋势下一个简单的数仓项目,助力理解数仓模型
    1.立项背景目前国家政策的主导之下,新能源相关项目和公司的竞争愈演愈烈,很多新能源公司开始大规模的布局数仓,来从自己的产生的大量的数据中提取价值,进而在新能源市场有自己的一席之地。那么本项目就是以此为背景,结合spark sql,为大家从0到1构建一个“麻雀虽小五脏俱全”的项目这里假
  • 2023-09-22数仓建设规范指南
    数仓建设规范指南一、数据模型架构原则1.数仓分层原则优秀可靠的数仓体系,往往需要清晰的数据分层结构,即要保证数据层的稳定又要屏蔽对下游的影响,并且要避免链路过长。那么问题来了,一直在讲数仓要分层,那数仓分几层最好?目前市场上主流的分层方式眼花缭乱,不过看事情不能只看表面,
  • 2023-07-07https://www.zhihu.com/tardis/bd/art/627016379?source_id=1001
    1、ODS原始数据层ODS层保存所有操作数据,不对原始数据做任何处理。在业务系统和数据仓库之间形成一个隔离,源系统数据结构的变化不影响其他数据分层。减轻业务系统被反复抽取的压力,由ODS统一进行抽取和分发。记住ODS层数据要保留数据的原始性。处理原则:根据源业务系统表的情况以
  • 2023-06-03数据仓库之商品订单数仓开发
    ods层在ods_mall中需要创建以下针对商品订单数据的表表名说明导入方式ods_user用户信息表全量ods_user_extend用户扩展表全量ods_user_addr用户收货地址表全量ods_goods_info
  • 2023-05-06数仓建模规范--非常全
    数仓开发规范 一.数据模型架构原则 1.数仓分层原则优秀可靠的数仓体系,往往需要清晰的数据分层结构,即要保证数据层的稳定又要屏蔽对下游的影响,并且要避免链路过长。那么问题来了,一直在讲数仓要分层,那数仓分几层最好?目前市场上主流的分层方式眼花缭乱,不过看事情不能只看表
  • 2023-03-30hive建表语句
    hive有三种建表语句1,create建表CREATEEXTERNALTABLEdwd_database.table_name(idBIGINT,user_idSTRING,gmt_modifiedTIMESTAMP,gm
  • 2023-02-11数仓:分层
    数据来源层ODS(OperationDataStore):数据基本上从源表中拉过来,经过抽取、洗净、传输(ETL)后装入本层,大体上按源业务的分类方式而分类的。数据仓库层DW(DataWarehouse):从OD
  • 2022-12-30大数据 - DWS层 业务实现
    统计主题需求指标【ADS】输出方式计算来源来源层级访客【DWS】pv可视化大屏page_log直接可求dwdUV(DAU)可视化大屏需要用page_log过滤去重dwmUJ跳出率可视化大屏需
  • 2022-12-29大数据 - DWM层 业务实现
    DWM建表,需要看DWS需求。DWS来自维度(访客、商品、地区、关键词),为了出最终的指标ADS需求指标DWT为什么实时数仓没有DWT,因为它是历史的聚集,累积结果,实时数仓中不需要
  • 2022-12-29大数据 ODS&DWD&DIM-SQL分享
    大数据ODS&DWD&DIM-SQL分享需求思路一:等差数列断2天、3天,嵌套太多1.1开窗,按照id分组,同时按照dt排序,求Rank--linux中空格不能用tab键selectid,dt,rank
  • 2022-11-10数仓分层设计
    概述数仓分层是数据仓库设计中十分重要的一个环节,优秀的分层设计能够让整个数据体系更容易理解和使用 数据分层的作用我们需要一套行之有效
  • 2022-11-09数据中台选型必读(四):要想中台建的好,数据模型得做好
    在数据中台构建之前,分析师经常发现自己没有可以复用的数据集,不得不使用原始数据依次进行数据的清洗、加工、计算指标。重复进行原始数据的清洗加工由于业务部门的分析师
  • 2022-11-01PG plpython存储过程计算结果直接入库
    >处理函数(返回多条结果数组)dropFUNCTIONcal_charge_sample(recordsdwd_pv_behavior_di[]);CREATEFUNCTIONcal_charge_sample(recordsdwd_pv_behavior_di[])R
  • 2022-09-29【问题】记录spark查询ES,数据重复的问题
    真实环境遇到spark查询ES,出现数据重复的现象。记录一下整个背景和解决问题过程。记录过程比较简单,真实排查过程艰难定位到最终原因记录spark查询ES,数据重复的问题1.环境
  • 2022-08-144 . DWD和ADS层
    7、DWD层流表和维表关联,可以使用lookupjoin,当存在hbase或者mysql中的表发生改变时,可以动态的发生改变1、支付事实表数据仓库建模的方法:注意:UpsertKafka连