- 2024-11-18又稳又快!基于ByteHouse ELT构建高性能离/在线一体化数仓
近期,ByteHouse与某数字娱乐公司达成合作,双方聚焦高性能离/在线一体化数仓展开合作。随着自身领域迅速发展的同时,该数字娱乐公司需要更稳定、易用的数据基础服务,但该方面遇到多种挑战,如数据融合与整合、实时数据分析、可扩展性和灵活性、多源数据入仓以及复杂的离线加工任务等。
- 2024-11-16大数据-224 离线数仓 - 数仓 技术选型 版本选型 系统逻辑架构 数据库命名规范
点一下关注吧!!!非常感谢!!持续更新!!!目前已经更新到了:Hadoop(已更完)HDFS(已更完)MapReduce(已更完)Hive(已更完)Flume(已更完)Sqoop(已更完)Zookeeper(已更完)HBase(已更完)Redis(已更完)Kafka(已更完)Spark(已更完)Flink(已更完)ClickHouse(已更完)Kudu(已更完)Druid(已更完)Kylin(已更完)Elasticsearch(已更完
- 2024-11-14成本减半 + 效率翻倍:这家企业用 11 天实现数据处理飞跃
伴随着云计算和数字化浪潮的推进,越来越多行业数据实时性的权重正在被加速提升,对企业而言,如果想要保证业务的持续发展,其底层数据库必须要能满足数据的实时性和高并发要求。除此之外,在降本增效的大潮下,“高性价比”也成为企业选择一款数仓的重要因素。那么,企业应该如何构建自己的
- 2024-10-30聚焦数仓极致降本,火山引擎ByteHouse升级解决方案
随着数据量的爆炸性增长,现代企业在数据存储、处理与分析上面临巨大挑战。作为面向实时数据处理的工具,OLAP(联机分析处理)系统能帮助企业充分挖掘数据价值、辅助决策。然而,OLAP在追求高效数据分析的同时,往往难以平衡成本与效率矛盾。 快节奏的商业环境要求OLAP系统在保证数据准确
- 2024-10-29重工业数字化转型创新实践:某国家特大型钢铁企业如何快速落地基于实时数仓的数据分析平台
使用TapData,化繁为简,摆脱手动搭建、维护数据管道的诸多烦扰,轻量替代OGG,Kettle等同步工具,以及基于Kafka的ETL解决方案,「CDC+流处理+数据集成」组合拳,加速仓内数据流转,帮助企业将真正具有业务价值的数据作用到实处,将“实时数仓”方法论落进现实。TapData持续迭代产品
- 2024-10-26降本提效 60%,ProtonBase 助力新兴企业精简架构与实时数仓转型的实践
导读:在IoT物联网场景,随着传感器和物联网技术的大量应用,海量IoT设备生产了大量的数据,比如制造业工厂生产线、新能源汽车、城市安防监控摄像头和各类机器人应用场景等。这类场景的共同特点是数据生成频繁,数据规模大,可能轻易能达到数百TB甚至PB级别。当前大部分企业内对于大数
- 2024-10-21数仓模型规范设计
模型架构设计数仓架构一般从宏观上分为三层:操作数据层ODS、公共维度模型层CDM和数据应用层ADS。其中CDM又包含明细数据层DWD、汇总数据层DWS,维度层DIM、根据生产经验这里可在加入数据临时层TMP。架构图如下:ODS把操作系统的数据几乎无处理地存放在数据仓库系统中。支持
- 2024-10-11数仓开发理论(二)数仓构建分层概念
数仓建模的好处好的数据仓库能够支持复杂数据分析和决策,能够提供高性能查询,能够做到数据的通用集成和保持数据的一致性,可以说得上是面向业务分析的数据库数仓功能本质就是通过建模来达成对复杂业务的抽象,清晰准确完整的刻画业务场景,以便用户通过业务视角便捷的获取所需数据,完成
- 2024-10-11数仓开发理论(一)概念总览
数据仓库概念可以把数据仓库认为是一个国道汇总到高速的一个高速中转站,负责收集这些不同地方来源的数据,统一归纳整理好再放到高速上去用,达到高效数据中转的效果数据仓库的目的就是为了统筹集中所有可以使用的数据,构建面向分析的集成数据环境,通过最终数据分析结果为企业提供决策
- 2024-10-01Hive数仓操作(七)
一、Hive动态分区表1.动态分区与静态分区的区别分区定义:静态分区:在插入数据时,需要手动指定分区字段的值。动态分区:分区字段的值是根据数据中的某个字段自动生成的,用户只需指定分区字段的类型。数据加载方式:静态分区:可以通过LOADDATA和INSERT...SELECT加载数
- 2024-09-29Hive数仓操作(一)
Hive介绍Hive是一个基于Hadoop的数据仓库工具,旨在简化大规模数据集的管理和分析。它将结构化数据文件映射为表,并提供类似SQL的查询功能。Hive的数据存储在Hadoop分布式文件系统(HDFS)中,使用Hive查询语言(HQL)进行数据处理。1.Hive的本质:HQL转化为MapReduce数据
- 2024-09-29Hive数仓操作(二)
Hive数据类型与连接Hive是一个用于处理大规模数据集的工具,支持多种数据类型以满足不同的需求。本文将详细介绍Hive的基本数据类型和集合数据类型。一、Hive基本数据类型Hive提供了多种基本数据类型,适用于不同的数据存储和处理需求:数据类型描述长度示例TINYINT1字
- 2024-09-24简单易懂理解:数仓——拉链表
1.什么是拉链表拉链表就像衣服的拉链一样重要,实用性非常强,使用频率非常高。所谓的拉链,就是历史记录,记录一个事物的开始到结束所变化的所有信息。“拉链表是一种针对数据仓库设计中表存储数据的方式而定义的数据模型,它有点类似于快照,它通过记录每个数据项的生效日期和失效
- 2024-09-20如何基于Flink CDC与OceanBase构建实时数仓,实现简化链路,高效排查
本文作者:阿里云FlinkSQL负责人,伍翀,ApacheFlinkPMCMember&Committer众多数据领域的专业人士都很熟悉ApacheFlink,它作为流式计算引擎,流批一体,其核心在于其强大的分布式流数据处理能力,同时巧妙地融合了流计算与批计算的能力,因此成为了众多企业在进行流式计算业务时的首
- 2024-09-18数仓项目环境搭建
目录一、安装CentOS1.1、修改映射关系:1.2、免密登录:1.3、关闭防⽕墙:1.4、修改linux的安全机制:1.5、修改yum源:二、安装JDK2.1、创建文件夹:2.2、解压安装:2.3、配置环境变量:2.4、刷新环境变量:2.5、验证:三、安装Hadoop[伪分布式]3.1、安装hdfs:3.2、修改
- 2024-09-12技术揭秘 DWS 实时数仓解决方案,如何深度融合 Flink 简化数据链路
一、实时数仓介绍实时数仓是一种现代化的数据仓库系统,其核心优势在于能够处理和分析实时数据。随着信息技术和数据科学的飞速发展,企业对实时数据分析和决策支持的需求愈发迫切。实时数仓能够实时或近实时地反映数据变化,为企业提供最新的业务指标和深度洞察,从而支持快速决策。因此
- 2024-09-12技术揭秘 DWS 实时数仓解决方案,如何深度融合 Flink 简化数据链路
摘要:DWS实时数仓解决方案支持数仓模型的分层和增量加工,能够实现数据的实时入库、出库和查询,确保数据的新鲜度。一、实时数仓介绍实时数仓是一种现代化的数据仓库系统,其核心优势在于能够处理和分析实时数据。随着信息技术和数据科学的飞速发展,企业对实时数据分析和决策支持的需求愈
- 2024-09-07数仓工具之:Flume
Flume是一个日志数据抽取工具Agent:是Flume中的基本单位,一个Flume配置文件,可以有多个Agent.每一个Agent中有三个组件组成,缺一不可:1、Source来源,数据过来的地方2、channel通道传递数据用的通道,一般比较的长,一个Channel中可以存储多个数据3、Sink数据下沉的地方
- 2024-09-05数仓建模:如何有效构建DWB/DWM层? | 基于案例实战分析
目录0为什么要构建DWB层?1DWB层功能及定义2DWB/DWM层如何实现?3项目案例实战3.1案例1:订单明细事实宽表构建3.2案例2:工单事实表指标分析4小结0为什么要构建DWB层?该层可以理解为DWS层逻辑的优化和沉淀,如果直接放到DWS层则会使得DWS层变得代码逻辑很复杂,不好维
- 2024-09-02详解数仓的3A安全能力
本文分享自华为云社区《GaussDB(DWS)3A安全能力》,作者:yd_281561943。1.前言适用版本:【8.0.0(及以上)】数据库安全是指保护数据库以防止未授权用户窃取、篡改和破坏数据库中数据信息的技术。数据库安全技术可以简单分为3个A:Authentication(认证):认证解决让谁进来的问题(进门)Authori
- 2024-08-29招联金融基于 Apache Doris 数仓升级:单集群 QPS 超 10w,存储成本降低 70%
在竞争激烈的消费金融市场中,有效利用海量数据、提升业务运营效率是赢得市场的关键。早期招联采用典型的Lambda架构提供业务报表、数据运营、个性推荐、风险控制等数据服务,而Lambda过多的技术栈也引发了数据孤岛、查询效率不足、代码复用性差以及开发运维成本高昂等诸多问题。因
- 2024-08-28数仓之TABLESAMPLE采样
前言在日常工作中,我们会对表中记录随机抽样然后探查,如何进行抽样就是本章要讲的重点。数仓中的抽样方法有很多,这里主要介绍一下:随机抽样、块抽样、桶抽样、分组抽样这四种,话不多说,直接上干货。随机抽样随机抽样就是给每行数据赋值一个随机数,排序之后进行抽样,主要分为:or
- 2024-08-22【精选】基于大数据的___银行信用卡用户的数仓系统的设计与实现(全网独一无二,最新定制)
目录: 关键技术介绍 PYTHON语言简介大数据介绍 MySql数据库DJANGO框架 Hadoop介绍Scrapy介绍B/S架构 系统的设计系统总功能模块设计系统测试系统测试的目的软件测试过程6.3测试用例参考代码:为什么选择我:博主介绍:✌我是阿龙,一名专注于Java技术领域的
- 2024-08-18数据分析师的自我修养
方法论/经验论是一种工具价值,提升做事效率,而本文要分享的是价值论,一种终极价值。这部分内容本应该在第一篇文章中写,但是当时没有写这个的心境,因此趁现在心境在,抓紧写。也欢迎大家一起讨论,每个人在工作中体会总结的都是宝贵的。“满足业务的数据需求”是所有level