• 2024-06-20【廉颇老矣,尚能饭否】传统的数据仓库是否还能发挥作用?
    引言:随着数字化转型的深入和大数据技术的发展,大数据平台、数据中台和和数据湖技术不断涌现,给人感觉传统的数据仓库技术已经过时,廉颇老矣,不能应对新的挑战,在数字化转型中,不能发挥重要作用;传统数仓,尚能饭否?客观来说,传统数仓的优势还是可以在数字化转型中发挥重要的作用,如预算不
  • 2024-06-20数仓sql场景:连续跟踪问题
    1.需求查询用户连续追踪客户的开始时间和结束时间,以下两种场景都需支持第一种场景:连续:中间没有断,如a追踪客户小明,第1次开始为2023-01-01,结束时间为:2023-01-03;第2次开始为2023-01-04,结束时间为:2023-01-07,则追踪时间为开始时间为2023-01-01,结束时间为:2023-01-07不连续:中间有段,如
  • 2024-06-19什么是数仓调度?推荐使用这款数据仓库ETL工具
    随着企业数据规模的不断增大,如何高效地管理和利用数据成为了企业数字化转型过程中的重要问题。数据仓库作为一种专门用于存储和处理企业数据的技术,已经成为了企业数字化转型过程中不可或缺的一部分。而数仓调度则是数据仓库建设过程中至关重要的一环。一、什么是数仓调度?
  • 2024-06-17数仓实践-元数据
    1.元数据:关于数据的数据2.元数据分类:主题域英文名称主题域前缀描述成本域costcost表和目录的存储消耗,任务的计算资源消耗。权限域authorityauthdataworks数据访问权限申请记录,冗余权限统计。任务域tasktaskdataworks任
  • 2024-06-15用户画像数据仓库建设实践
    一、数据仓库1.1简介  简而言之,数据仓库是一个集成的、面向主题的、相对稳定的数据集合,它能够反映数据的历史变化。在构建数据仓库时,我们会根据不同的主题域对数据进行分类,并通过数据建模技术对数据进行重新组织和抽象,以便从更高的层次对分析对象进行一致且完整的描述
  • 2024-06-14如何愉快地实施数仓模型,对比下厨做饭
    一般我们建设数仓,有一个链路:比如这样的数据从原始层到DWD、DWS层、然后ADS层。嘿,未来的大数据专家们!当我们开始实施数据模型时,不妨参考《大数据之路》这本宝藏书。让我们一起简化流程,注重细节,同时保持愉快的心情!以如下加工数据为例ADS层
  • 2024-06-14数据仓库与数据库(一)--区别
    数据仓库与数据库的区别,实际上就是OLTP(联机事物处理过程),也称为面向交易的处理过程,和OLAP(联机分析处理)的区别。可以理解为数据仓库是在数据库已经大量存在的情况下,为了进一步挖掘数据资源、决策需要而产生的,它绝不是所谓的大型数据库。            设
  • 2024-06-07得帆云学习笔记
    数仓规划数仓规划是开发人员对业务的解析、分类和提炼的过程。数仓开发人员需要根据对整体业务的理解来划分出不同业务领域、业务领域下对应的数据域、以及数据域下的业务过程。根据业务的类型或其他特征来划分业务领域。根据该业务下再细分出的类别来划分数据域。根据业务中
  • 2024-06-05心诺安 x TapData:快速搭建云中数仓,助力电商企业实施“以用户为中心的”精细化运营
    使用TapData,化繁为简,摆脱手动搭建、维护数据管道的诸多烦扰,轻量代替OGG、DSG等同步工具,「CDC+流处理+数据集成」组合拳,加速仓内数据流转,帮助企业将真正具有业务价值的数据作用到实处,将“实时数仓”方法论落进现实。TapData持续迭代产品能力,优化用户体验的同时,也在不断探
  • 2024-06-05[数据仓库] 在抖音集团,存储实时数仓这样建 [转]
    0序在直播、电商等业务场景中存在着大量实时数据,这些数据对业务发展至关重要。而在处理实时数据时,我们也遇到了诸多挑战,比如实时数据开发门槛高、运维成本高以及资源浪费等。此外,实时数据处理比离线数据更复杂,需要应对多流JOIN、维度表变化等技术难题,并确保系统的稳定性和数据
  • 2024-06-05京东零售数仓的发展过程以及建设框架
    参考:地址1.1发展过程业务驱动数据技术发展,业务野蛮生长,以解决业务痛点为核心,导致烟囱式诞生了一些小数据平台。业务精细化运营,数据平台将多业务线条、多场景的能力进行沉淀,形成数据资产。数据中台化建设已完成,数据驱动业务,通过数据挖掘、分析和人工智能,规模化的赋能业
  • 2024-06-04数据治理--数据处理,数据仓库 数仓分层,数据建模流程 数仓设计规范
                           
  • 2024-05-24心识宇宙 x TapData:如何加速落地实时数仓,助力 AI 企业智慧决策
    使用TapData,化繁为简,摆脱手动搭建、维护数据管道的诸多烦扰,轻量代替OGG、DSG等同步工具,「CDC+流处理+数据集成」组合拳,加速仓内数据流转,帮助企业将真正具有业务价值的数据作用到实处,将“实时数仓”方法论落进现实。TapData持续迭代产品能力,优化用户体验的同时,也在不断探
  • 2024-05-223/25数仓面试总结
    数据采集模块 主要采集什么 业务数据和用户行为数据 包括 页面浏览记录,启动记录,错误记录,曝光记录,动作记录格式包括页面日志和启动日志JSON格式?flume怎么采集   第一次见没有sink的flume   业务数据怎么说?sku商品表 平台表流水表 退单表订
  • 2024-05-223/5数仓面试必看
    压缩就用gzip 汇总数据  TSV 建表语句    全量表设计  null的格式不一样,虽然显示都为空 都用空字符显示增量表13张和业务无关的不用拿过来   ods数据装载脚本 i:4substring方法DIM表的数据源是ods层如果找不到不能从数
  • 2024-05-11准实时数仓搭建指南:以仓储式会员商超为模拟场景
    在电商和新零售持续冲击传统零售商超的今天,仓储式会员店反而成功逃脱曾经的“水土不服”预测,业绩一路向好。与此同时,随着人工智能、大数据、智慧物流等技术的不断革新,零售批发的消费场景也进一步拓展,对数据分析的要求也越发迫切。本文将以巴基斯坦Metro的数仓项目为例,以操作指
  • 2024-05-11构建无服务器数仓(二)Apache DolphinScheduler 集成以及 LOB 粒度资源消费分析
    引言在数据驱动的世界中,企业正在寻求可靠且高性能的解决方案来管理其不断增长的数据需求。本系列博客从一个重视数据安全和合规性的B2C金融科技客户的角度来讨论云上云下混合部署的情况下如何利用亚马逊云科技云原生服务、开源社区产品以及第三方工具构建无服务器数据仓库的解
  • 2024-05-10数仓安全:数据脱敏技术深度解析
    本文分享自华为云社区《GaussDB(DWS)安全管理之数据脱敏原理与使用方法介绍》,作者:VV一笑。1.前言适用版本:8.2.0及以上版本GaussDB(DWS)产品数据脱敏功能,是数据库产品内化和夯实数据安全能力的重要技术突破。提供指定用户范围内列级敏感数据的脱敏功能,具有灵活、高效、透明
  • 2024-05-06数仓(一)数仓概述
    前几次内容分享,我们一共做了三件事:1.逐步搭建了传统hadoop大数据平台包括zookeeper、kafka、flume集群2.采集前端埋点到hdfs3.采集业务数据到hdfs这样数据都采集到HDFS上了,其实就是到了数仓了! 数据采集请看以下链接:前端埋点数据采集系列一、采集系统架构设计二、mock应
  • 2024-04-29数仓分层
     基于阿里巴巴OneData方法论最佳实践,在阿里巴巴的数据体系中,建议将数据仓库分为三层:数据引入层(ODS,OperationalDataStore)、数据公共层(CDM,CommonDimensionsModel)和数据应用层(ADS,ApplicationDataStore)。数据仓库自顶向下的分层和各层用途如下图所示。数据引入层(ODS,Operat
  • 2024-04-28数仓(十八)数仓建模以及分层总结(ODS、DIM、DWD、DWS、DWT、ADS层)
    通过前面内容分享,我们讲解了数仓建模的概念、理论、OLTP、OLAP、以及ODS、DIM、DWD、DWS、DWT、ADS层简单搭建。涉及的内容非常多,这节我们捋一捋数仓建模的步骤、以及数仓分层思路、五层每层的设计、处理、加载等总结一下。一、建模步骤 1、关于数仓的建模有两种基本的模型:
  • 2024-04-25TapData + 实时数仓:实时数据如何赋能船舶制造业,助力数字化应用升级和科学管理运营
    使用TapData,化繁为简,摆脱手动搭建、维护数据管道的诸多烦扰,轻量代替OGG、DSG等同步工具,「CDC+流处理+数据集成」组合拳,加速仓内数据流转,帮助企业将真正具有业务价值的数据作用到实处,将“实时数仓”方法论落进现实。TapData持续迭代产品能力,优化用户体验的同时,也在不断探
  • 2024-04-25详解数仓的向量化执行引擎
    本文分享自华为云社区《GaussDB(DWS)向量化执行引擎详解》,作者:yd_212508532。前言适用版本:【基线功能】传统的行执行引擎大多采用一次一元组的执行模式,这样在执行过程中CPU大部分时间并没有用来处理数据,更多的是在遍历执行树,就会导致CPU的有效利用率较低。而在面对OLAP场景
  • 2024-04-19数仓的两种轻量级数据交换格式:json与jsonb
    本文分享自华为云社区《GaussDB(DWS)——探究JSON,JSONB》,作者:yd_283975606。1.前言适用版本:【8.1.1(及以上)】JSON(JavaScriptObjectNotation)是一种轻量级的数据交换格式,常用于将数据从服务器发送到Web应用程序。它采用人类易读和机器易解析的文本格式,基于键值对的集合,用于
  • 2024-04-18GaussDB(DWS)基于Flink的实时数仓构建
    本文分享自华为云社区《GaussDB(DWS)基于Flink的实时数仓构建》,作者:胡辣汤。大数据时代,厂商对实时数据分析的诉求越来越强烈,数据分析时效从T+1时效趋向于T+0时效,为了给客户提供极速分析查询能力,华为云数仓GaussDB(DWS)基于流处理框架Flink实现了实时数仓构建。在本期《GaussDB(DW