首页 > 其他分享 >apache druid 初识

apache druid 初识

时间:2024-05-03 09:23:41浏览次数:25  
标签:存储 Druid druid 查询 初识 apache 服务器 数据

一:Apache druid 是一种实时分析数据库,设计用于对大型数据集进行快速分析(OLAP),支持数据的实时摄取,提供低时延的查询性能。
二:Apache druid 主要特点
(1)列式存储格式,查询时只加载特定查询的列,还根据数据类型优化每一列的存储,加快查询速度。
(2)可扩展的分布式系统。典型的 Druid 部署跨越数十台到数百台服务器的集群。Druid 能以每秒数百万条记录的速度摄取数据,同时保留数万亿条记录,并保持从亚秒到秒级别的时延。
(3)大规模并行处理。Druid 可以在整个集群中并行处理每个查询。
(4)实时或批量摄取。Druid 可以实时或分批摄取数据。输入的数据可立即用于查询。
(5)自修复、自平衡、易操作。作为操作员,您可以添加服务器以扩大规模,或删除服务器以缩小规模。Druid 集群会在后台自动重新平衡,无需停机。如果 Druid 服务器出现故障,系统会自动绕过损坏的服务器路由数据,直到服务器被替换。Druid 的设计目的是在不因任何原因而计划停机的情况下持续运行。配置更改和软件更新也是如此。
(6)云原生容错架构,不会丢失数据。摄取数据后,Druid 会将数据的副本安全地存储在深度存储中。深度存储通常是云存储、HDFS 或共享文件系统。即使万一所有 Druid 服务器都发生故障,您也可以从深度存储中恢复数据。对于仅影响少数 Druid 服务器的有限故障,复制可确保在系统恢复期间仍可进行查询。
(7)Druid 使用 Roaring 或 CONCISE 压缩位图索引来创建索引,以实现跨多个列的快速过滤和搜索。
(8)基于时间的分区。Druid 首先根据时间对数据进行分区。基于时间的查询只访问与查询时间范围相匹配的分区,从而显著提高性能。
(9)近似算法使用。Druid 包含近似计数区分、近似排序以及近似直方图和定量的计算算法。这些算法提供有限制的内存使用,而且速度往往比精确计算快得多。在精确度比速度更重要的情况下,Druid 还提供精确计数区分和精确排序。
(10)摄取时自动汇总。Druid 可选支持在摄取时进行数据汇总。这种汇总可对数据进行部分预聚合,从而显著节约成本并提高性能。
三:什么场景下使用druid
(1)需求插入率非常高,单数据很少更新。
(2)您的大多数查询都是汇总和报告查询。例如 "分组" 聚合查询。
(3)目标查询延迟时间为 100 毫秒到几秒钟。
(4)数据包含时间。Druid 包括专门针对时间的优化和设计选择。
(5)数据列,基数大,比如url,用户id,需要进行快速的计数和排序
(6)您想从 Kafka、HDFS、普通文件或亚马逊 S3 等对象存储中加载数据。
四:什么场景下不适合使用druid
(1)需要使用主键对现有记录进行低延迟更新。Druid 支持流式插入,但不支持流式更新。您可以使用后台批处理作业来执行更新。
(2)您想进行 "大型 "连接,即连接一个大型事实表和另一个大型事实表,join的场景不适合

标签:存储,Druid,druid,查询,初识,apache,服务器,数据
From: https://www.cnblogs.com/hts-technology/p/18170932

相关文章

  • spring-web-mvc项目运行报错:java.lang.NoClassDefFoundError: org/apache/catalina/We
    使用idea运行spring-web-mvc项目时,报错如下:错误:无法初始化主类com.itranswarp.learnjava1.AppConfig原因:java.lang.NoClassDefFoundError:org/apache/catalina/WebResourceRoot 首先,保证当前项目在独立的项目中打开,不要在多个项目中运行。导入Maven工程要选择:File......
  • Apache SeaTunnel k8s 集群模式 Zeta 引擎部署指南
    SeaTunnel提供了一种运行Zeta引擎(cluster-mode)的方法,可以让Kubernetes在本地运行Zeta引擎,实现更高效的应用程序部署和管理。在本文中,我们将探索SeaTunnelk8s运行zeta引擎(cluster-mode模式)的更多信息,了解如何更好地利用Zeta引擎的优势。将SeaTunnel上传至服务器上。我之前......
  • Apache DolphinScheduler支持Flink吗?
    随着大数据技术的快速发展,很多企业开始将Flink引入到生产环境中,以满足日益复杂的数据处理需求。而作为一款企业级的数据调度平台,ApacheDolphinScheduler也跟上了时代步伐,推出了对Flink任务类型的支持。Flink是一个开源的分布式流处理框架,具有高吞吐量、低延迟和准确性等特点,广泛......
  • 从零手写实现 apache Tomcat-01-入门介绍
    创作缘由平时使用tomcat等web服务器不可谓不多,但是一直一知半解。于是想着自己实现一个简单版本,学习一下tomcat的精髓。怎么实现一个tomcat呢?Tomcat就像是一个用Java语言搭起来的大舞台,专门用来演出那些用Java编写的网页剧。想要玩得转Tomcat,你最好对Java语言有所了解......
  • 日志分析-apache日志分析
    简介账号密码rootapacherizhisshroot@IP1、提交当天访问次数最多的IP,即黑客IP:2、黑客使用的浏览器指纹是什么,提交指纹的md5:3、查看index.php页面被访问的次数,提交次数:4、查看黑客IP访问了多少次,提交次数:5、查看2023年8月03日8时这一个小时内有多少IP访问,提交次数:cat......
  • web server apache tomcat11-24-Virtual Hosting and Tomcat
    前言整理这个官方翻译的系列,原因是网上大部分的tomcat版本比较旧,此版本为v11最新的版本。开源项目从零手写实现tomcatminicat别称【嗅虎】心有猛虎,轻嗅蔷薇。系列文章webserverapachetomcat11-01-官方文档入门介绍webserverapachetomcat11-02-setup启动web......
  • web server apache tomcat11-22-logging 日志
    前言整理这个官方翻译的系列,原因是网上大部分的tomcat版本比较旧,此版本为v11最新的版本。开源项目从零手写实现tomcatminicat别称【嗅虎】心有猛虎,轻嗅蔷薇。系列文章webserverapachetomcat11-01-官方文档入门介绍webserverapachetomcat11-02-setup启动web......
  • Apache RocketMQ ACL 2.0 全新升级
    作者:徒钟引言RocketMQ作为一款流行的分布式消息中间件,被广泛应用于各种大型分布式系统和微服务中,承担着异步通信、系统解耦、削峰填谷和消息通知等重要的角色。随着技术的演进和业务规模的扩大,安全相关的挑战日益突出,消息系统的访问控制也变得尤为重要。然而,RocketMQ现有的AC......
  • web server apache tomcat11-21-monitor and management 监控与管理
    前言整理这个官方翻译的系列,原因是网上大部分的tomcat版本比较旧,此版本为v11最新的版本。开源项目从零手写实现tomcatminicat别称【嗅虎】心有猛虎,轻嗅蔷薇。系列文章webserverapachetomcat11-01-官方文档入门介绍webserverapachetomcat11-02-setup启动web......
  • 利用 Amazon EMR Serverless、Amazon Athena、Apache Dolphinscheduler 以及本地 TiDB
    引言在数据驱动的世界中,企业正在寻求可靠且高性能的解决方案来管理其不断增长的数据需求。本系列博客从一个重视数据安全和合规性的B2C金融科技客户的角度来讨论云上云下混合部署的情况下如何利用亚马逊云科技云原生服务、开源社区产品以及第三方工具构建无服务器数据仓库的解......