首页 > 数据库 >大数据-224 离线数仓 - 数仓 技术选型 版本选型 系统逻辑架构 数据库命名规范

大数据-224 离线数仓 - 数仓 技术选型 版本选型 系统逻辑架构 数据库命名规范

时间:2024-11-16 09:14:51浏览次数:3  
标签:数仓 exists create 离线 业务 选型 集群 版本

点一下关注吧!!!非常感谢!!持续更新!!!

目前已经更新到了:

  • Hadoop(已更完)
  • HDFS(已更完)
  • MapReduce(已更完)
  • Hive(已更完)
  • Flume(已更完)
  • Sqoop(已更完)
  • Zookeeper(已更完)
  • HBase(已更完)
  • Redis (已更完)
  • Kafka(已更完)
  • Spark(已更完)
  • Flink(已更完)
  • ClickHouse(已更完)
  • Kudu(已更完)
  • Druid(已更完)
  • Kylin(已更完)
  • Elasticsearch(已更完)
  • DataX(已更完)
  • Tez(已更完)
  • 数据挖掘(已更完)
  • Prometheus(已更完)
  • Grafana(已更完)
  • 离线数仓(正在更新…)

章节内容

上节我们完成了如下的内容:

  • 业务分析
  • 数据埋点
  • 指标体系
  • 维度拆解

在这里插入图片描述

总体架构设计

技术方案选型

  • 框架选型
  • 软件选型
  • 服务器选型
  • 集群规模的估算

框架选型

Apache或第三方发行版(CDH、HDP、Fusion Insight)

Apache社区版本

优点:

  • 完全开源免费
  • 社区活跃
  • 文档、资料详实

缺点:

  • 复杂的版本管理
  • 复杂的集群安装
  • 复杂的集群运维
  • 复杂的生态环境

第三方发行版本

CDH、HDP、Fusion Insight
Hadoop遵从Apache开源协议,用户可以免费的任意的修改并使用Hadoop,正因如此,市面上有很多厂家在ApacheHadoop的基础上开发了自己的产品,如Cloudera的CDH,Hortonworks的HDP,华为的FusionInsight等,这些产品的优点是:

  • 主要功能和社区版本一致
  • 版本管理清晰,比如:Cloudera、CDH3、CDH4等,后面加上补丁的版本:CDH4.1.0 patch
  • 比ApacheHadoop在兼容性、安全性、稳定性上有增强,第三方发行版通常都是经过了大量的测试验证,有众多部署实例,大量的运用到各种生产环境中
  • 版本更新快,如CDH每个季度会有一个Update,每一年都有一个Release
  • 基于稳定版的ApacheHadoop,并应用了最新Bug修复、Feature的patch
  • 提供了部署、安装、配置工具,大大提高了集群的安装效率,可以在几个小时之内安装好集群。
  • 运维简单,提供了管理、监控、诊断、配置修改的工具,管理配置方便,定位问题快速,准确,使运维工作简单,有效

主要的版本有如下的这些:

  • CHD:最成型的发行版本,拥有最多的部署案例,提供强大的部署、管理和监控工具,国内使用最大的版本,拥有强大的社区支持,当遇到问题,能够通过社区、论坛等网络资源快速获取解决方法
  • HDP:100%开源,可以进行二次开发,但没有CDH稳定,国内使用相对较少
  • Fusion Insight:华为基于Hadoop2.7.2版开发的,坚持分层,解耦,开放的原则,得益于高可靠性,在全国各地政府、运营商、金融系统有较多案例

软件选型

  • 数据采集:DataX、Flume、Sqoop、Logstash、Kafka
  • 数据存储:HDFS、HBase
  • 数据计算:Hive、MapReduce、Tez、Spark、Flink
  • 调度系统:Airflow、azkaban、Oozie
  • 元数据管理:Atlas
  • 数据质量管理:Griffin
  • 即席查询:Impala、Kylin、ClickHouse、Presto、Druid
  • 其他:MySQL

框架,软件尽量不要选择最新的版本,选择半年前左右的稳定版本。
在这里插入图片描述

服务器选型

选择物理机还是云主机:

  • 机器成本考虑:物理机的价格 > 云主机的价格
  • 运维成本考虑:物理机需要有专业的运维人员,云主机的运维工作由供应商完成,运维相对容易,成本相对较低

集群规模

如何确认集群规模(假设:每台服务器20T硬盘,128GB内存)
可以从计算能力、CPU、内存、存储量等方面考虑集群规模。
假设:

  • 每天的日活500万,平均每人每天有100条日志信息
  • 每条日志大小1K左右
  • 不考虑历史数据,半年集群不扩容
  • 数据3个副本
  • 离线数据仓库应用

这种情况下,需要多大的集群规模?
要分析的数据有两部分:日志数据+业务数据

  • 每天日志数据量:500W1001K / 1024 / 1024 = 500G
  • 半年需要存储量:500G * 3 * 180 / 1024 = 260T
  • 通常要给磁盘预留 20%-30%的空间: 260*1.25 = 325T
  • 数据仓库应用有1-2倍的数据膨胀325T * 1.5 = 500T
  • 需要大约25个节点

其他未考虑的因素:数据压缩、业务数据
以上估算的生产环境,实际上除了生产环境以外,还需要开发测试环境,这也需要一定数量的机器。

系统逻辑架构

在这里插入图片描述
服务器软件配置如下所示:
在这里插入图片描述

数据仓库命名规范

数据库命名

  • 命名规则:数仓对应分层
  • 命名示例:ods/dwd/dws/dim/temp/ads

数仓各层对应数据库

  • ods层 => ods_{业务线|业务项目}
  • dw层 => dwd_{业务线|业务项目} + dws_{业务线|业务项目}
  • dim => dim_维表
  • ads => ads_{业务线|业务项目} (统计指标等)
  • 临时数据 => temp_{业务线|业务项目}

(备注:本项目未使用)

表命名(数据库表命名)

  • ODS层:ods_{业务线|业务项目}[数据来源类型]{业务}
  • DWD层:dwd_{业务线|业务项目}{主题域}{子业务}
  • DWS层:dws_{业务线|业务项目}{主题域}{汇总相关粒度}_{汇总时间周期}
  • ADS层:ads_{业务线|业务项目}{统计业务}{报表form|热门排序topN}
  • DIM层:dim_{业务线|业务项目|pub公共}_{维度}

创建数据库

我们启动Hive,进行操作:

create database if not exists ods;
create database if not exists dwd;
create database if not exists dws;
create database if not exists ads;
create database if not exists dim;
create database if not exists tmp;

执行结果如下图所示:
在这里插入图片描述

标签:数仓,exists,create,离线,业务,选型,集群,版本
From: https://blog.csdn.net/w776341482/article/details/143757429

相关文章

  • 新能源汽车续航大提升:参数选型与能量回收
    ​根据标普全球评级(S&PGlobleRating)今日发布的分析报告,我国电动汽车的市场渗透率在过去的5年中稳步上升,仅2023年的渗透率就达到了30.5%。这一增长不仅反映了消费者对新能源汽车及环保出行的方式的认可,也体现了政府对该产业的支持。政策扶持、技术进步和基础设施建设的不断完善,......
  • ubuntu22.04离线部署k8s1.28.2(随笔)
    一、准备环境(所有服务器)1.各服务器设置hosts192.168.137.100k8s-master192.168.137.101k8s-node1192.168.137.102k8s-node2hostnameset-hostname k8s-masterhostnameset-hostname k8s-node1hostnameset-hostname k8s-node12。时间同步自己想办法3.lvs环境(暂定)mo......
  • 自动化测试环境配置-selenium库和谷歌浏览器版(离线安装)
    环境下载链接:https://pan.baidu.com/s/1acJJrA087zf_e02at3hoUg?pwd=f83d提取码:f83d 第一步,取消谷歌浏览器的自动升级 再去控制面板卸载原来的谷歌浏览器 第二步,安装谷歌浏览器80版本 通过设置查看版本号,该版本是不会自动升级的 第三步:直接使用下载好的驱动......
  • 高频旁路电容选型注意事项
    1.前置频率倍减器图1是用于1.9GHz频带的PLL信号发生器使用的前置频率倍减器的电路图。在这种高频率中,普通PLL用可编程序计数器不工作,而是把ECL等前置频率倍减器连接在前段后分频。这种例子的分频比为1/256。例如:1.920GHz的输入信号分频为75.00MHz后输出。在前置频率倍减器IC......
  • Ubuntu 22.04 LTS 离线安装 Harbor v2.11 (附https认证,Trivy镜像扫描)
    Harbor介绍Harbor是一个开源的企业级DockerRegistry服务,它提供了一个安全、可信赖的仓库来存储和管理Docker镜像。Harbor翻译为中文名称为"庇护;居住;"。可以理解为是Docker镜像的"居住环境"或者是镜像的"庇护所"。Harbor最初由VMware公司开发,旨在解决企业级Docker镜像管理的......
  • reposync离线yum源
    系统:openEuler22.03-sp3-x86reposync;createrepo1、配置好yum源2、下载下载指定repo到指定目录reposync--repoidEPOL-p/data/EPOL3、制作镜像仓库cdEPOLcreaterepo.   ......
  • 驱动钛丝(SMA)的可靠性设计(1)钛丝的选型和适配
    前言形状记忆合金(Shapememoryalloy,SMA),也叫形态记忆合金、镍钛记忆合金,它是由TI(钛)-IN(镍)材料组成,这里我们方便描述,简称钛丝或者驱动钛丝。钛丝驱动本身的寿命是相当不错的,一般最少也能用个几十万到几百万次,钛丝天然的物理特性也决定了它的稳定性和寿命必然优于传统的电机电......
  • 鲜艺AI抠图 v3.0(支持 AI消除+二次编辑,可离线)
    软件特色:1.支持导入格式:JPG/JPEG、PNG、GIF、WEBP、BMP;2.输出:默认PNG无损@透明格式(抠图最佳选择);3.上传方式:点击上传、拖放、粘贴、(图心床)链接、网页拖放;4.内置RMBGAI模型,专为开抠人、物体背景设计;5.现支持二次编辑功能,可修复或擦除不完美部分;6.可直接使用Ph......
  • 如何区分陪玩在线or离线?2024年最新线上陪玩系统源码,可设置陪玩在线、离线两种模式!unia
    一、内容简介陪玩在线与离线的说明,主要涉及到陪玩人员的服务状态以及客户在选择陪玩时需要考虑的因素。以下是对这两个状态的详细解释:我们的陪玩系统APP,一共有两种模式:一种是真实检测,一种是后台人工固定状态,后台可自由切换2种模式。一、真实在线状态系统检测用户是否真实......
  • 深圳电子MES制造执行系统选型特点
    电子mes系统在选型时,需要考虑多个特点以确保系统能够满足企业的实际需求。针对广州地区的MES系统选型,以下是一些关键特点: 深圳mes系统数据采集与整合能力:MES系统应能够整合多种数据采集渠道(如RFID、条码设备、PLC、Sensor等),确保现场数据的实时、准确、全面采集。良好的数据......