首页 > 数据库 >时序数据库的深入浅出介绍(2022)

时序数据库的深入浅出介绍(2022)

时间:2023-12-29 12:36:31浏览次数:50  
标签:存储 列式 数据库 深入浅出 时序 2022 序列 数据

时序数据库是一类专门用于存储和分析时间序列数据的数据库。时间序列数据通常包含时间戳和对应的指标值,用于监控和分析某个目标的变化趋势。时序数据库需要高效存储大量时间序列数据,并支持相关的分析与运算,如聚合、下采样、滚动窗口等。

起源

时序数据库的起源可以追溯到20世纪70年代。随着工业控制和SCADA系统的兴起,人们需要存储和处理大量时间序列数据。这促进了时序数据库的出现。

时序数据库的主要发展阶段包括

  1. 关系型数据库扩展(1970-2000年) 早期,人们通过在关系型数据库(如MySQL)中添加时间序列支持来实现简单的时序数据管理。这种方式表现不佳,难以处理大规模时序数据。
  2. 专用时序数据库(2000-2010年) 该阶段出现了许多专门为时序数据设计的数据库,如InfluxDB、OpenTSDB和KairosDB等。这些数据库采用列式存储,专用于海量时序数据的高效管理和查询。
  3. 云原生时序数据库(2010年至今) 近年来,随着云计算和Docker的流行,云原生时序数据库开始兴起。代表产品有InfluxDB、TimescaleDB和QuestDB等。这些数据库天然运行在云和Docker环境中,可弹性伸缩,更适合现代的分布式架构。
  4. 规范和生态圈成熟(2015年至今) OpenMetrics、Prometheus和Grafana等开源项目的出现,促进了时序数据格式和查询规范的统一。生态圈也更加丰富,在集成、可视化和分析领域提供更多选型。

时序数据库经历了从简单扩展到专用数据库,再到云原生时序数据库的演变。随着数据规模的增长和体系架构的变化,时序数据库也在不断演进以适应新的需求和场景。其核心优势在于高效地处理大规模时序数据,这也是其区别于其他数据库类型的关键所在。

概述

时序数据库与其他数据库相比,有以下主要特点

  1. 专为时间序列数据设计。有丰富的时间序列相关功能,可以在数据库层面进行时间序列分析优化。
  2. 追求高写入和实时查询性能。需要支持大规模时间序列数据的实时收集与监控。
  3. 简单轻量级部署。提供简易的单节点版本,易于在容器和云上部署,适合DevOps运维模式。
  4. 时间戳是一个重要字段。时间戳为时间序列数据的索引,支持快速查询给定时间范围的数据。
  5. 支持监控和告警。具有实时数据处理和告警能力,可以检测时间序列数据的异常变化并触发告警。

常见的开源时序数据库包括InfluxDB、Prometheus、TimescaleDB和QuestDB等。商业解决方案也有Azure Time Series Insights和Amazon Timestream等。

时序数据库内部实现

时序数据库通常采用以下技术来优化时间序列数据的存储和分析:

  1. 列式存储: 可以高效压缩时间序列数据并加速聚合分析查询。特别适合时间戳等时间序列字段。
  2. 数据分区: 通常按照时间戳范围进行分区,支持快速查询给定时间范围的数据。
  3. 索引优化: 在时间戳和其他维度字段上创建索引,加速查询筛选和聚合。
  4. 向量化运算: 针对批量时间序列数据进行向量化的运算和压缩,大幅提高计算效率。
  5. 数据编码: 使用定长或变长编码对时间序列数据进行压缩,减少存储空间占用。
  6. 滚动和下采样: 支持在数据库层面自动进行数据滚动和下采样,简化数据维护和分析。
  7. 事件处理: 具有低延迟的数据处理机制,可以实时分析数据变化,触发告警并获取预警信息。

时序数据库和列式数据库

既然时序数据库用到了列式存储来存储数据,为什么不直接用列式数据库呢? 首先,时序数据库和列式数据库都是为特定数据存储场景设计的数据库类型。主要区别在于:

时序数据库:
  • 专注于时间序列数据的存储和管理。时间序列数据是按时间顺序记录的一系列数据点。
  • 应用场景主要在监控、物联网和运维事件跟踪等领域。
  • 核心特征是时间范围查询,支持按时间范围过滤和检索数据。
  • 典型的时序数据库有InfluxDB、TimescaleDB、QuestDB和OpenTSDB等。
列式数据库:
  • 采用列式存储,将同一列的数据存储在一起。这使得列式数据库可以高效地处理大规模数据。
  • 场景广泛,常用于大数据分析、数据仓库和OLAP等领域。
  • 核心优势是数据压缩和向量化计算,可进行实时业务分析。
  • 知名的列式数据库有ClickHouse、Apache Druid 和Apache Cassandra等。
  • 与行式数据库(如MySQL)相比,读写性能更高,更适合数据统计和分析。

时序数据库是一种专业的列式数据库,主要用于时间序列数据。所有的时序数据库默认采用列式存储,但并非所有的列式数据库都适用于时序数据。

两者的比较:

类别

时序数据库

列式数据库

数据类型

时间序列数据

各类结构化/半结构化数据

核心功能

时间范围查询

数据压缩与向量化计算

场景

监控/物联网

数据分析/BI

产品例子

InfluxDB、QuestDB

ClickHouse、Apache Druid

时序数据库可以看作列式数据库的一种专业实现,主要面向时间序列数据存储和处理。但列式数据库的应用范围更广,不仅限于时序数据。

从设计目标和功能的角度分析

时序数据库和列式数据库虽然在存储格式上有重合,但在设计目标和功能上有所不同:

时序数据库:

设计目标是高效存储和查询时间序列数据。时间序列数据通常有以下特点:

  1. timestamps连续且递增。
  2. 查询以时间范围或间隔为主,需要快速筛选和聚合。
  3. 数据更新频繁,需要高吞吐写入。
  4. 常用于监控与报警场景,需要实时性。

因此,时序数据库通常具有以下功能:

  1. 针对时间戳进行优化,支持快速筛选时间范围的数据。
  2. 支持时间序列相关运算:下采样、滚动窗口等。
  3. 内置实时告警和事件处理机制。
  4. 采用时间序相关的数据模型,如Metric、Tag、Field等概念。
  5. 重视实时性,追求高吞吐的写入和实时查询。
列式数据库:

设计目标更加广泛,是为任意大规模数据分析和OLAP而生。不局限于时间序列数据。因此,列式数据库通常更注重:

  1. 数据压缩和查询性能。采用列式存储可以高效压缩数据并向量化运算。
  2. 更加灵活和强大的查询功能。通常采用SQL,支持各种聚合、JOIN和分析函数。
  3. 更加丰富的数据类型支持。不限于Metrics和时间戳,可以存储各种结构化和半结构化数据。
  4. 不一定追求实时性,更侧重离线分析与数据仓库场景。

时序数据库一定采用列式存储,以满足对时间序列数据高效率的读写需求。但是并非所有列式数据库都专注于时间序列数据和实时分析,有更广泛的应用场景。时序数据库可以看作列式数据库的一个子集,在此基础上进行专业化优化。因而,并非所有的列式数据库都能完全替代时序数据库,两者可以结合使用,以发挥各自的优势。

两者的优势对比

列式数据库和时序数据库各有优势,是否可以相互取代主要取决于具体场景和需求。

列式数据库的优势:
  1. 数据压缩和向量化运算,读写性能远超传统数据库,更适合BI和数据分析。
  2. 通用性更强,可以存储各种结构化、半结构化数据,不限于时间序列数据。
  3. 生态更丰富,在数据建模、可视化和ML方面有更多选型。
时序数据库的优势:
  1. 专为时间序列数据设计,有更高的存储效率和查询性能。
  2. 内置时间序列相关功能,如间隔、降采样、缩放等,更易于时序数据管理。
  3. 针对监控和IoT场景进行了优化,可实现实时告警和事件处理等。

所以,如果系统只涉及大规模时间序列数据的存储和分析,时序数据库可能更合适。它可以提供更高的性能和更丰富的时间序列支持。

但如果需要复杂的多维数据分析,或者时序数据仅是数据的一部分,列式数据库会更好。它可以提供一个统一的存储和计算平台,不会被时序数据的限制。

因此,两者可以相互补充,而不是完全取代:
  • 列式数据库可以通过添加时间序列功能,在部分场景下替代时序数据库。例如InfluxDB和TimescaleDB就是在此基础上发展而来的。
  • 时序数据库也在不断提高通用性,增加对非时序数据的支持,以扩展其应用范围。如QuestDB可以存储各类事件数据。
  • 在复杂场景下,最佳方案是将两者结合,利用各自的优势。例如使用列式数据库进行综合分析,再将时序数据导入列式数据库进行专业管理。

列式数据库和时序数据库各有特性,可以在部分场景下相互取代,但更理想的方式是结合使用,发挥各自的优势。这可以获得更高性能、更广范围的数据存储和分析能力。

时序数据库采用列式存储主要有以下优势:
  1. 压缩率高,节省空间。 时序数据通常包含大量相同或相似的数据,特别是timestamps字段。采用列式存储可以对这些字段进行高效压缩,节省大量存储空间。
  2. 查询性能高。 列式存储可以轻易筛选和聚合相同的字段,加速查询。时序数据库的查询通常也是在相同的字段上进行,如按时间范围或标签值过滤数据。列式存储可以通过向量化运算高效完成这些查询,性能远超行存储。
  3. 写入性能高。 列式存储只需要将新插入的数据依次追加到对应列的末尾,写入效率很高。时序数据库通常要求高吞吐的插入,以支持大规模的时间序列指标数据,列式存储可以满足这一要求。
  4. 支持时间序列相关函数。 列式存储可以高效实现时间序列相关的功能,如下采样、滚动窗口等。这些功能需要访问相邻的时间序列数据,列式存储可以直接读取相应的列,而不需要扫描全部行。大大加速这些时间序列运算。
  5. SSD友好。 列式存储只需要顺序读写每个列,容易利用SSD的高吞吐特性。SSD的随机访问性能较差,但顺序读写能发挥最高性能。这与时序数据库在SSD上的部署需求不谋而合。

列式存储天然适合存储和分析时间序列数据。它可以高效压缩和查询时间序列,加速时间序列相关的计算,并且性能在SSD上最优。这使得它成为时序数据库的理想选择。时序数据库通过采用列式存储,可以显著超越基于行存储的关系型数据库,成为大规模时间序列数据管理的首选方案。

附录

列式数据库的起源可以追溯到20世纪70年代。随着数据规模的 exponential 增长,传统的行式数据库难以高效存储和处理大数据。这催生了列式数据库的出现。

列式数据库的主要发展历程包括:

  1. 象形文字数据库(1970-1990年) 早期的象形文字数据库如IMS已经采用了类似列式存储的格式来压缩数据和加速读取。但其查询功能受限,难以普及。
  2. 网状数据库(1990-2005年) Sybase IQ和Vertica等网状数据库引入了更明显的列式存储格式和向量化运算,大幅提高了分析查询性能。但其 Florida 许可证费用高昂,用户基础有限。
  3. 开源列式数据库(2005年至今) 开源项目的兴起使列式数据库得以快速普及。代表作包括:
  • Infobright(2005): MySQL的列式版本,性能较高但社区活跃度低。
  • MonetDB(2004): 学术项目,功能强大但部署复杂,用户量较小。
  • Apache Pinot(2013): 旨在实时OLAP分析,主要用于LinkedIn内部。
  • Apache Druid(2011): 面向OLAP分析,已在eBay、PayPal和百度广泛使用。
  • ClickHouse(2016): 功能强大,性能高效,已经成为最流行的开源列式数据库之一。
  1. 云原生列式数据库(2010年至今) 云计算和Docker的流行使新一代的云原生列式数据库成为可能。代表产品有Snowflake、Rockset和TimescaleDB等,更易于在云上弹性伸缩,采用Serverless架构,无需运维。

列式数据库自20世纪70年代起步以来,经历了几代产品的演进,目前已经成为海量数据存储和分析的主流选择。其核心优势在于采用列式存储和向量化运算,可以高效压缩数据并加速读查询,大幅超越传统的行式数据库。

标签:存储,列式,数据库,深入浅出,时序,2022,序列,数据
From: https://blog.51cto.com/mickeyzzc/9025398

相关文章

  • 深入浅出几款开源时序数据的设计(2022)
    InfluxdbInfluxDB是一款流行的开源时序数据库,用于存储和分析时间序列数据。在InfluxDB中,时间序列数据通过Measurement、Tag和Field来表示。Measurement:相当于数据表,用于归档某一类相关时序数据。例如可以有CPUmeasurement和Memorymeasurement。Measurement只包含时序字段,没......
  • 深入浅出一致性哈希
    哈希是什么哈希又称散列,是一种计算数据指纹的方法。哈希函数把消息或数据压缩成摘要,使得数据量变小,将数据的格式固定下来业务场景常见的业务场景;网站用户请求后,为了性能一般都会加一层缓存。缓存有多个节点,每个节点存储了不同数据。获取数据,先根据数据取模(哈希)找到缓存节点......
  • IaaS--如何降低故障的影响(何恺铎《深入浅出云计算》笔记整理)
     【常见故障及解决方法】1、第一种故障是在宿主机的级别,这也是从概率上来说最常见的一种故障。宿主机出现问题,虚拟机肯定都会有问题。解决方法是,尽量做好集群,采用HA的方式,做好救场。集群也应该注意,虚拟机尽量放在不同虚拟机上,甚至对应的宿主机都最好避免在同一个机架上;2、第二......
  • 拓端tecdat获评“商业新知 2022 年度IT研发十佳创作者”
    近日,商业新知平台隆重推出了“新知之星——2022年度优秀创作者评选”活动,以此感恩那些为用户带来丰富商业知识的创作者们。在这次评选活动中,国内数据服务提供商拓端tecdat荣获了“商业新知2022年度IT研发十佳创作者”的称号。拓端tecdat成立于2016年,专注于为客户提供专业的数......
  • P9032 [COCI2022-2023#1] Neboderi 题解
    P9032考试题。发现\(g\)的值是若干个相同的段,且段数很少,因为每次取\(\gcd\)至少会将值域变为原来的一半。所以段数是\(\mathcal{O}(\logV)\)的。然后就可以从小到大枚举左端点,然后枚举\(g\)的值,找的是最远的满足\(\gcd(a_l,\dots,a_r)=g\)的\(r\),这里可以使用二分......
  • 测试开发 | 循环神经网络(RNN):时序数据的魔法笔
    循环神经网络(RecurrentNeuralNetwork,简称RNN)是深度学习领域中一种专门用于处理时序数据的神经网络结构。相较于传统神经网络,RNN在处理序列数据时具有独特的优势,使其在自然语言处理、语音识别、股票预测等领域取得了显著的成功。本文将深入探讨循环神经网络的原理、结构和应用,揭示......
  • 测试开发 | 长短时记忆网络(LSTM):时序信息的记忆大师
    在深度学习领域,长短时记忆网络(LongShort-TermMemory,简称LSTM)被广泛应用于处理时序数据,尤其是解决传统循环神经网络(RNN)中梯度消失和梯度爆炸的问题。LSTM的独特结构使其能够有效地捕捉和利用序列中的长期依赖关系,从而在自然语言处理、语音识别、时间序列分析等任务中取得了显著的......
  • 从零开始掌握MAYA 2022:打造视觉创意的艺术大师之路
    ......
  • IntelliJ IDEA 2022.3.2 专业版安装
    IDEA2022版本介绍IDEA2022引入依赖分析器,用于管理依赖项和解决冲突。JetBrains公司的IDEA是Java编程语言开发撰写时常用的集成开发环境,IntelliJIDEA强大的静态代码分析和人体工程学设计,让你的开发设计简单轻松,IntelliJIDEA将您的源代码编入索引之后,通过在各个环境中提供相......
  • Windows Server 2022 OVF, updated Dec 2023 (sysin) - VMware 虚拟机模板
    WindowsServer2022OVF,updatedDec2023(sysin)-VMware虚拟机模板2023年12月版本更新,现在自动运行sysprep,支持ESXiHostClient部署请访问原文链接:https://sysin.org/blog/windows-server-2022-ovf/,查看最新版。原创作品,转载请保留出处。作者主页:sysin.org现在......