首页 > 其他分享 >大数据-154 Apache Druid 架构与原理详解 基础架构、架构演进

大数据-154 Apache Druid 架构与原理详解 基础架构、架构演进

时间:2024-10-25 14:18:25浏览次数:3  
标签:架构 154 数据 Druid 查询 基础架构 Historical Segment 节点


点一下关注吧!!!非常感谢!!持续更新!!!

目前已经更新到了:

  • Hadoop(已更完)
  • HDFS(已更完)
  • MapReduce(已更完)
  • Hive(已更完)
  • Flume(已更完)
  • Sqoop(已更完)
  • Zookeeper(已更完)
  • HBase(已更完)
  • Redis (已更完)
  • Kafka(已更完)
  • Spark(已更完)
  • Flink(已更完)
  • ClickHouse(已更完)
  • Kudu(已更完)
  • Druid(正在更新…)

章节内容

上节我们完成了如下的内容:

  • Apache Druid 从 Kafka 中加载数据
  • 实际测试 可视化操作

大数据-154 Apache Druid 架构与原理详解 基础架构、架构演进_架构

基础架构

大数据-154 Apache Druid 架构与原理详解 基础架构、架构演进_架构_02

Coordinator Node

主要负责历史节点的数据负载均衡,以及通过规则管理数据的生命周期,协调节点告诉历史节点加载新数据、卸载过期数据、复制数据、负责均衡移动数据
Coordinator是周期运行的(由 druid.coordinator.period 配置指定,默认间隔60秒),Coordinator需要维护和ZooKeeper的连接,以获取集群的信息。Segment和Rule的信息保存在元数据中,所以也需要维护与元数据库的连接。

Overlord Node

进程监视MiddleManager进程,并且是Druid数据摄入的主节点,负责将提取任务分配给MiddleManagers并协调Segment发布,包括接受、拆解、分配Task,以及创建Task相关的锁,并返回Task的状态。

Historical Node

加载生成好的数据文件,以供数据查询。Historical Node是整个集群查询性能的核心所在,Historical会承担绝大部分的Segment查询。

  • Historical 进程从 Deep Storage 中下载 Segment,并响应有关这些Segment的查询请求(这些请求来自Broker进程)
  • Historical 进程不处理写入请求
  • Historical 进程采用了无共享架构设计,它知道如何去加载和删除 Segment,以及如何基于 Segment 来响应查询。即便底层的深度存储无法正常工作,Historical 进程还是能针对其已同步的 Segments,正常提供查询服务。
  • 底层的深度存储无法正常工作,Historical进程还是能针对其已同步的 Segments,正常提供查询服务。

MiddleManager Node

及时摄入实时数据,生成Segment数据文件

  • MiddleManager 进程是执行提交任务的工作节点,MiddleManagers将任务转发给在不同JVM中运行的Peon进程
  • MiddleManager、Peon、Task的对应关系是:每个Peon进程一次只能运行一个Task任务,但一个MiddleManager却可以管理多个Peon进程

Broker Node

接收客户端查询请求,并将这些查询转发给 Histo 和 MiddleManagers。当Brokers从这些子查询中收到结果时,它们会合并这些结果并将它们返回给调用者。

  • Broker 节点负责转发Client查询请求的
  • Broker 通过 ZooKeeper 能够知道哪个 Segment 在哪些节点上,将查询转发给相应节点
  • 所有节点返回数据后,Broker会所有节点的数据进行合并,然后返回给Client

Router Node

(可选)
负责将路由转发到Broker、Coordinator、Overlords

  • Router进程可以在 Broker、Overlords、Coordinator进程之上,提供一层统一的API网关
  • Router进程是可选的,如果集群数据规模已经到达了TB级别,需要考虑启动(druid.router.managerProxy.enable=true)
  • 一旦集群规模达到一定数量级,那么发生故障的概率就会变得不容忽视,而Router支持将请求只发送给健康的节点,避免请求失败。
  • 同时,查询的响应时间和资源消耗,也会随着数据量的增长而变高,而Router支持设置查询的优先级和负载均衡策略,避免了大查询造成的队列堆积或查询热点等问题

如何分类

Druid的进程可以被任意部署,为了理解与部署组织方便,这些进程分为了三类:

  • Master:Coordinator、Overlord 负责数据可用性和摄取
  • Query:Broker、Router 负责处理外部请求
  • Data:Historical、MiddleManager,负责实际的Ingestion负载和数据存储

其他依赖

Deep Storage
存放生成的 Segment 数据文件,并供历史服务器下载,对于单节点集群可以是本地磁盘,而对于分布式集群一般是HDFS。

  • Druid使用 Deep Storage来做数据的备份,也作为Druid进程之间在后台传输数据的一种方式
  • 当相应查询时,Historical首先从本地磁盘读取预取的段,这也意味着需要在Deep Storage和加载的数据Historical中拥有足够的磁盘空间。

Metadata Storage

存储Durid集群的元数据信息,如Segment的相关信息,一般使用MySQL。

大数据-154 Apache Druid 架构与原理详解 基础架构、架构演进_大数据_03

ZooKeeper

为Durid集群提供以执行协调任务,如内部服务的监控,协调和领导者选举

  • Coordinator 节点的 Leader 选举
  • Historical 节点发布 Segment 的协议
  • Coordinator 和 Historical 之间 load、drop Segment的协议
  • Orverlord节点的Leader选举
  • Overlord和MiddleManger之间Task管理

架构演进

初始版本~0.6.0

2012-2013年

大数据-154 Apache Druid 架构与原理详解 基础架构、架构演进_大数据_04

0.7.0~0.12.0

2013年-2018年

大数据-154 Apache Druid 架构与原理详解 基础架构、架构演进_架构_05

集群管理

大数据-154 Apache Druid 架构与原理详解 基础架构、架构演进_clickhouse_06

0.13.0~当前版本

大数据-154 Apache Druid 架构与原理详解 基础架构、架构演进_apache_07

Lambda架构

从大的架构上看,Druid是一个Lambda架构。
Lambda架构是由Storm坐着Nathan Marz提出的一个实时大数据处理框架,Lambda架构设计是为了处理大规模数据时,同时发挥流处理和批处理的优势:

  • 通过批处理提供全面、准确的数据
  • 通过流处理提供低延迟的数据
    从而达到平衡延迟、吞吐量和容错性的目的,为了满足下游的及时查询,批处理和流处理的结果会合并。

Lambda架构包含三层:BatchLayer、SpeedLayer、Serving Layer

  • BatchLayer:批处理层,对离线的历史数据进行预计算,为了下游能够快速查询想要的结果,由于批处理基于完成的历史数据集,准确性可以得到保证,批处理层可以用Hadoop、Spark、Flink等框架计算。
  • SpeedLayer:加速处理层,处理实时的增量数据,这一层重点在于低延迟,加速层的数据不如批处理层那样完整和准确,但是可以填补批处理高延迟导致的数据空白。加速层可以使用Storm、Spark Streaming和Flink等框架计算。
  • ServingLayer:合并层,将历史数据、实时数据合并在一起,输出到数据库或者其他介质,供下游分析

大数据-154 Apache Druid 架构与原理详解 基础架构、架构演进_大数据_08

流式数据链路

Raw Data - Kafka - Streaming Processor(Optional 实时ETL)- Kafka(Optional)- Druid - Application/User

批处理数据链路

Raw data - Kafka(Optional) - HDFS - ETL Process(Optional)- Druid - Application/User


标签:架构,154,数据,Druid,查询,基础架构,Historical,Segment,节点
From: https://blog.51cto.com/wuzikang/12361363

相关文章

  • 【MySQL】实战篇—数据库设计与实现:根据需求设计数据库架构
    在设计数据库架构时,开发者需要遵循一系列步骤,以确保数据库能够高效、可靠地满足系统需求。以下是设计数据库架构的理论知识和步骤说明。1.需求分析需求分析是数据库设计的第一步,旨在理解系统的功能需求和数据需求。通过与利益相关者(如用户、开发人员和业务分析师)进行沟通,明......
  • 为什么 Spring Boot 的微服务架构被称为“现代应用开发的曙光”?这种设计真的解决了传
    目录1.微服务架构为何被称为“现代应用开发的曙光”1.1单体架构的问题1.2微服务架构的诞生与发展1.3微服务架构的挑战2.SpringBoot在微服务中的角色2.1自动化配置与微服务开发2.2SpringCloud生态中的微服务3.微服务架构是否真的解决了传统单体架构中的所......
  • [MySQL#1] database概述 | 常见的操作指令 | MySQL架构 | 存储引擎
    #1024程序员节|征文#目录一.数据库概念0.连接服务器1.什么是数据库口语中的数据库为什么数据不直接以文件形式存储,而需要使用数据库呢?总结二.......
  • 《深度学习》YOLO v1网络架构 、损失值、NMS极大值抑制
    目录一、Yolo系列v11、核心思想2、示例3、流程图解析二、YOLO系列v1损失函数1、位置误差2、置信度误差3、类别概率损失三、NMS非极大值抑制1、概念2、步骤四、YOLOv1优缺点1、优点1)速度快2)端到端3)多尺度预测4)网络结构简单2、缺点1)对小目标检测效果差2)每个......
  • 几张图就让你掌握InnoDB 存储引擎底层逻辑架构
    前言......
  • AI模型架构如(CNN)、(RNN)(LSTM、GRU)、(如BERT、GPT等)在不同领域中的具体应用
    AI模型架构如卷积神经网络(CNN)、循环神经网络(RNN)及其变体(如LSTM、GRU)、以及基于Transformer架构的模型(如BERT、GPT等)在现实生活中有广泛的应用。以下是这些模型在不同领域中的具体应用和形态表现:一、卷积神经网络(CNN)1.图像分类应用案例:手机中的人脸识别、社交媒体中的自......
  • 一文搞懂促销系统架构设计
    大家好,我是汤师爷~到了技术二面,面试官基本都会开始深挖你之前做过的项目。比如:这个项目的业务背景是什么?你们的系统架构是怎么设计的?你在这个项目里具体做了哪些工作?有没有什么特别亮眼的地方?所以,能不能把参与的项目整体弄明白、说清楚,非常重要。你对项目掌握越全面,面试官才会......
  • SpringBoot入门到精通(十三)日志:别小看它,否则吃亏的是自己!学会你也可以设计架构
    别小看他,当你面对的时候,就会知道,多么痛的领悟!如何在SpringBoot中使用Logback记录详细的日志?整合LogBack,Log4J...等,是不是很多方法!但需要注意,我讲的可能和你是一样的,但也是不一样的。常见日志级别:高---低排列TRACE:描述:最详细的日志级别,通常用于开发和调试阶段......
  • AUTOSAR架构下,持续集成CI的最佳实践
    随着汽车电子技术的快速发展,汽车软件的复杂性与日俱增,如何确保软件开发的高效性与稳定性成为了一个关键问题。为了解决这个问题,许多汽车企业和供应商逐渐引入了AUTOSAR架构,并在此基础上构建了持续集成(CI)流程。今天,我们就来探讨一下基于AUTOSAR架构的CI流程实践,并通过对流程的详细......
  • 【YOLOv11改进- 原理解析】 YOLO11 架构解析 以及代码库关键代码逐行解析
    YOLOv11目标检测创新改进与实战案例专栏文章目录:YOLOv11创新改进系列及项目实战目录包含卷积,主干注意力,检测头等创新机制以及各种目标检测分割项目实战案例专栏链接:YOLOv11目标检测创新改进与实战案例文章目录YOLOv11目标检测创新改进与实战案例专栏冷笑话......