首页 > 其他分享 >Cassandra中的MerkleTree反熵机制

Cassandra中的MerkleTree反熵机制

时间:2023-05-27 15:35:21浏览次数:52  
标签:副本 MerkleTree 反熵 哈希 Merkle 数据 节点 Cassandra

构建MerkleTree

Cassandra 是一个分布式数据库系统,它使用 Merkle 树来实现数据一致性和数据完整性的验证。

在 Cassandra 中,每个节点都维护着自己的数据副本。为了确保数据的一致性和完整性,Cassandra 使用 Merkle 树进行验证。Merkle 树是一种树状结构,由哈希值构成,用于对数据块进行校验和验证。

在 Cassandra 中,Merkle 树并不是直接建立在 LSM(Log-Structured Merge)树上。Cassandra 使用 LSM 树来组织和管理数据, LSM 树中的数据块通常与一个 Merkle 树相关联,用于验证数据块的完整性。具体地说,Cassandra 在每个 SSTable(Sorted String Table)上维护一个 Merkle 树。SSTable 是 LSM 树中的磁盘层数据结构,用于持久化存储数据。每个 SSTable 中的数据块对应一个叶子节点,计算该数据块的哈希值并存储在 Merkle 树中。以下是在 SSTable 上构建 Merkle 树的一般步骤:

  1. 数据分块:将 SSTable 中的数据按照固定大小(通常是数据块的大小)进行分块(这可能导致叶子节点所覆盖的 Row Key 大小区间不一致,这种不一致性并不影响 Merkle 树的验证过程)。每个数据块都与一个叶子节点关联。
  2. 计算哈希值:对于每个数据块,使用哈希函数(如 SHA-256)计算其哈希值。哈希值是一个固定长度的二进制字符串,用于唯一标识数据块。
  3. 构建树结构:将所有叶子节点的哈希值按顺序排列,并将它们组织成树状结构。通常采用二叉树的形式,每个内部节点是其子节点的哈希值的哈希值。
  4. 计算父节点哈希值:从底部的叶子节点开始,沿着树向上逐层计算父节点的哈希值。父节点的哈希值由其两个子节点的哈希值计算得出。
  5. 根节点哈希值:最终,根节点的哈希值将成为整个 Merkle 树的校验值。根节点的哈希值可以用于验证整个 SSTable 数据的完整性。

在实际实现中,Cassandra 使用一种称为 Merkle Tree Digest 的紧凑形式来表示 Merkle 树。它使用部分哈希和位图的结构,以节省存储空间和计算开销。Cassandra 默认设置是增量修复。增量修复会保留已修复的数据,并且只会为未修复的 SSTable 构建 Merkle 树。这个更高效的过程依赖于将 SSTable 中的行标记为已修复或未修复的新元数据。

传输MerkleTree

Cassandra 在数据修复过程中会传输 Merkle 树的部分或完整结构。通常情况下,并不需要传输整个 Merkle 树,而是根据需要传输 Merkle 树的部分结构,以减少传输的数据量和开销,比如当某个节点的哈希值不一致时,再传输该节点的孩子节点。然而,在某些特定情况下,可能需要传输 Merkle 树的完整结构。以下是一些可能会传输完整 Merkle 树结构的情况:

  1. 初始数据同步:当节点加入 Cassandra 集群或者数据副本需要初始化时,可能需要传输完整的 Merkle 树结构。这样可以确保新加入的节点或者副本与其他节点的数据保持一致。
  2. 深度不一致:如果在数据修复过程中发现了深度不一致,即多个数据副本之间的数据差异非常大,此时传输完整的 Merkle 树可能是更有效的方式。这可以帮助更准确地检测和修复数据副本之间的不一致。
  3. 故障恢复:在某些故障恢复的情况下,如节点故障或数据副本损坏,传输完整的 Merkle 树可能有助于更快速地进行数据恢复和修复。

数据同步流程

当检测到数据副本之间的不一致时,需要进行数据同步以恢复一致性。以下是一般的数据同步流程:

  1. 检测不一致:通过比较数据副本之间的 Merkle 树或哈希值,发现数据副本之间存在不一致的数据块。
  2. 选择主节点:从具有最新数据的副本中选择一个作为主节点。通常,选择具有最高时间戳的副本作为主节点。
  3. 数据修复:主节点将不一致的数据块发送给其他副本,以进行数据修复。修复的方式可以根据具体情况选择,常见的方式包括:
    • 提供缺失数据:主节点将缺失的数据块发送给其他副本,使其与主节点保持一致。
    • 更新冲突数据:如果多个副本之间存在冲突的数据块,主节点可以通过某种冲突解决策略(如最新时间戳优先)选择一个正确的版本,并将其发送给其他副本进行更新。
    • 删除过时数据:如果某个副本上的数据已经过时或无效,主节点可以发送删除指令给其他副本,使其删除相应的数据块。
  4. 数据确认:副本接收到主节点发送的修复数据后,进行验证并确认修复操作。确保修复后的数据与主节点一致。

通过以上的数据同步流程,Cassandra 可以在数据副本之间实现一致性,并保证数据的完整性。数据同步的过程可以由 Cassandra 的复制策略和一致性协议(如 Quorum 一致性级别)来控制和管理。

参考资料:Cassandra官方文档

标签:副本,MerkleTree,反熵,哈希,Merkle,数据,节点,Cassandra
From: https://www.cnblogs.com/214txdy/p/17436798.html

相关文章

  • Cassandra HBase和MongoDB性能比较
    这是一篇基于亚马逊云平台上对三个主流的NoSQL数据库性能比较,在读写两个操作不同的组合情况下性能表现不同。横坐标是吞吐量,纵坐标是延迟,这是一对矛盾,吞吐量越大,延迟越低,代表越好。1.纯粹插入,Cassandra领先,见下图:2.WorkloadA:读修改操作各占一半情况下的修改性能:MongoDB明显延迟......
  • cassandra-0.6.1安装配置(与集群)
    关键字:cassandra-0.6.1安装配置(与集群)1下载Cassandrahttp://cassandra.apache.org/下载版本0.5.1。2安装Cassandra安装目录D:\apache-cassandra-0.5.1。在此需要修改两个配置文件1修改conf目录下的log4j.properties文件:log4j.appender.R.Fil......
  • 无惧百万级并发,GaussDB(for Cassandra)让华为推送服务更快触达
    摘要:推送服务(PushKit)是华为提供的消息推送平台,建立了从云端到终端的消息推送通道。通过集成推送服务,您可以向客户端应用实时推送消息,让应用更精准触达用户,是开发者提升用户感知度和活跃度的一件利器。本文分享自华为云社区《无惧百万级并发,GaussDB(forCassandra)让华为Push推送服......
  • MongoDB、Redis、HBase、Cassandra、Elasticsearch、ClickHouse等NoSQL数据库简介及优
    MongoDBMongoDB是一个基于文档的NoSQL数据库,它使用BSON(二进制JSON)格式存储数据。MongoDB支持动态查询,可以轻松地处理非结构化数据。它还支持水平扩展,可以在多个节点上分布数据。优点:灵活性高,支持非结构化数据存储。支持水平扩展,可以在多个节点上分布数据。支持动态查询,可......
  • Cassandra一个节点到底应该存放多大数据
    在Cassandra2.x版本及更早版本的时候,我经常建议用户单节点规模数据不要超过1T,到Cassandra3.x之后我又建议用户单节点规模不要超过4T。为什么会有这些变化,其实是跟基础设施的发展有关系的。一方面是随着SSD硬盘的越来越廉价,大部分用户使用SSD替换了机械硬盘提升了磁盘随机读写能......
  • Cassandra 数据模型
    Cassandra数据模型Cassandra的数据模型与我们通常在关系型数据库中看到的有很大不同。本文概述了Cassandra如何存储其数据。ClusterCassandra数据库分布在多台一起运行的机器上。最外面的容器称为集群。对于故障处理,每个节点都包含一个副本,如果发生故障,副本将负责。Cassa......
  • 简单介绍一下HBase、Cassandra、Voldemort、Redis、VoltDB、MySQL(转)
    hbase1.简介:HBase–HadoopDatabase,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PCServer上搭建起大规模结构化存储集群2.HBase和R......
  • 【cassandra】cannot assign result of function system.now (type timeuuid) to time
    背景执行如下sql会失败并报如题目中的错误insertintoevent(subject,time,type)values(now(),'type');原因now()returnsatimeuuid,notatimestamp解决办......
  • 【Cassandra】Cassandra在spring boot中的使用
    1、depedency<dependency><groupId>org.springframework.data</groupId><artifactId>spring-data-cassandra</artifactId></dependency>2、propertiesspring.da......
  • java:Cassandra入门与实战——上
    一、数据存储方式和NoSQL1.1数据存储方式互联网时代各种数据存储方式层出不穷,有传统的关系性数据库如:MySQL、Oracle等,;有全文检索框架如:ElasticSearch、Solr;有NoSQL如:Cassan......