标签：Region SSTable 一致性数据节点 Cassandra

Cassandra知识梳理

Cassandra 简介

Apache Cassandra是一个开源，分布式和分散/分布式存储系统（数据库），用于管理分布在世界各地的大量结构化数据。它提供高可用性服务，没有单点故障。

它具有可伸缩性，容错性和一致性。
它是一个面向列的数据库。
其分发设计基于亚马逊的Dynamo及其在Google的Bigtable上的数据模型。
它创建于Facebook，与关系数据库管理系统截然不同。
Cassandra实现了Dynamo风格的复制模型，没有单点故障，但是添加了更强大的“column family”数据模型。
一些大型公司（例如Facebook，Twitter，Cisco，Rackspace，ebay，Twitter，Netflix等）正在使用Cassandra。

Cassandra特点

以下是Cassandra的一些功能：

弹性可扩展性– Cassandra具有高度可扩展性；它允许添加更多硬件，以根据需求容纳更多客户和更多数据。
始终在线-Cassandra没有单点故障，并且可以连续用于无法承受故障的关键业务应用程序。
快速的线性规模性能-Cassandra具有线性可扩展性，即，随着集群中节点数量的增加，它可以提高吞吐量。因此，它保持了快速的响应时间。
灵活的数据存储-Cassandra可容纳所有可能的数据格式，包括：结构化，半结构化和非结构化。它可以根据需要动态适应对数据结构的更改。
轻松进行数据分发-Cassandra通过在多个数据中心之间复制数据，提供了在所需位置分发数据的灵活性。
事务支持-Cassandra支持原子性，一致性，隔离性和持久性（ACID）等属性。
快速写入-Cassandra旨在在廉价的商品硬件上运行。它执行快速的写入，并且可以存储数百TB的数据，而不会牺牲读取效率

Cassandra应用场景

社交媒体：用户状态更新频繁场景；点赞、评论、转发
物联网：设备状态更新；行程轨迹；视频监控；
互联网/电商/娱乐/教育：用户元数据；商品品类信息；商品详情；浏览记录；监控日志；
金融风控：用户画像；标签；圈人；事件流；

Cassandra架构

集群架构

Cassandra集群由成节点(Node)、机架(Rack)和数据中心(Data Center)组成。

节点(Node)
指运行Cassandra实例的服务器。节点可以是物理主机、云上的机器实例，或者是Docker容器。
机架(Rack)
指一组相互靠近的Cassandra节点。机架可以是包含连接到公共网络交换机节点的物理机架。在云端，机架通常指在同一可用区域中运行机器实例集合。
数据中心(Data Center)
指逻辑机架的集合，通常位于同一栋建筑中，通过可靠的网络连接。在云端，数据中心通常映射到云区域。如阿里云上的华北1区，华南2区。

一致性Hash

实现数据的分区分布和扩容缩容的数据迁移

Gossip内部通信协议

Cassandra使用Gossip的协议维护集群的状态，在对等节点的网络传播下保持集群状态一致性，这是个端对端的通信协议。通过Gossip，每个节点都能知道集群中包含哪些节点，以及这些节点的状态，

反熵机制

利用anti-entropy(反熵)机制实现数据读取过程中节点之间的比对，保证数据一致性

可调一致性

hinted handoff机制：按照最终一致性的模式，可以极大提升集群可用性

Cassandra数据存储

Cassandra的数据包括在内存中的和磁盘中的数据

这些数据主要分为三种： CommitLog：主要记录客户端提交过来的数据以及操作。这种数据被持久化到磁盘中，方便数据没有被持久化到磁盘时可以用来恢复。 Memtable：用户写的数据在内存中的形式，它的对象结构在后面详细介绍。其实还有另外一种形式是BinaryMemtable 这个格式目前 Cassandra 并没有使用，这里不再介绍了。 SSTable：数据被持久化到磁盘，这又分为 Data、Index 和 Filter 三种数据格式。

CommitLog 数据格式

Cassandra在写数据之前，需要先记录日志，保证Cassandra在任何情况下宕机都不会丢失数据，这就是CommitLog日志。要写入的数据按照一定格式组成 byte 组数，写到 IO 缓冲区中定时的被刷到磁盘中持久化。Commitlog是server级别的。每个Commitlog文件的大小是固定的，称之为一个CommitlogSegment。

当一个Commitlog文件写满以后，会新建一个的文件。当旧的Commitlog文件不再需要时，会自动清除。

Memtable 内存中数据结构

数据写入的第二个阶段，MemTable是一种内存结构，当数据量达到块大小时，将批量flush到磁盘上，存储为SSTable。优势在于将随机IO写变成顺序IO写，降低大量的写操作对于存储系统的压力。每一个columnfamily对应一个memtable。也就是每一张表对应一个。用户写的数据在内存中的形式，

SSTable 数据格式

SSTable是Read Only的，且一般情况下，一个ColumnFamily会对应多个SSTable，当用户检索数据时，Cassandra使用了Bloom Filter，即通过多个hash函数将key映射到一个位图中，来快速判断这个key属于哪个SSTable。

为了减少大量SSTable带来的开销，Cassandra会定期进行compaction，简单的说，compaction就是将同一个ColumnFamily的多个SSTable合并成一个SSTable。

在Cassandra中，compaction主要完成的任务是：

1）垃圾回收： cassandra并不直接删除数据，因此磁盘空间会消耗得越来越多，compaction 会把标记未删除的数据真正删除；

2）合并SSTable：compaction 将多个 SSTable 合并为一个（合并的文件包括索引文件，数据文件，bloom filter文件），以提高读操作的效率；

3）生成 MerkleTree：在合并的过程中会生成关于这个ColumnFamily中数据的 MerkleTree，用于与其他存储节点对比以及修复数据。

每个SSTables是由多个组件存储在单个文件中：

Data.db：实际的数据。
Index.db：来自分区key的索引，定位到data.db文件，因此在大的分区中，也会包含分区行的索引。
Summary.db：摘要，分区键的内容。
Filter.db：Bloom过滤器在SSTable的分区key。
CompressionInfo.db：关于偏移量和在data.db文件压缩的块长度的元数据。
Statistics.db：存储SSTable的元数据，包括时间戳、tombstones、集群键、压缩率、修复等还有更多的信息。
Digest.crc32： CRC-32算法的data.db文件。
TOC.txt：SSTable组件文件的简单的列表。

LSM-Tree（Log-Structured-Merge-Tree）日志结构合并树

Cassandra操作

CREATE KEYSPACE IF NOT EXISTS test  WITH REPLICATION = { 'class' : 'SimpleStrategy', 'replication_factor' : '0' };
 
DESCRIBE keyspaces;
DESCRIBE KEYSPACE test;
 
USE tutorial;
 
CREATE TABLE IF NOT EXISTS tutorial
(
    id          timeuuid PRIMARY KEY,
    title       text,
    description text,
    published   boolean
);
 
DESCRIBE table tutorial;
 
insert into test.tutorial (id,title,description,published) values (now(),'title1','description1',true);

Cassandra备份与恢复

复制策略

Cassandra使用复制策略来存储和维护数据的多个副本。每个分区都有一个主分区副本和多个备份分区副本，可以根据需要进行配置。数据复制可以保证数据的高可用性和灾难恢复。

数据备份

Cassandra提供了多种数据备份方法，包括手动备份和自动备份。手动备份可以通过CQL命令或命令行工具进行，自动备份可以通过设置定期备份的时间间隔和备份文件路径来实现。

数据恢复

Cassandra提供了多种数据恢复方法，包括手动恢复和自动恢复。手动恢复可以通过CQL命令或命令行工具进行，自动恢复可以通过设置自动恢复选项来实现。

增量备份

Cassandra支持增量备份，只备份发生变化的部分，可以提高备份效率和减少备份文件大小。

Cassandra与HBase

对比项	Cassandra	HBase
一致性	可调一致性（AP）：在读取过程中完成最终一致性	强一致性（CP）：数据写入时强一致性
可用性	1，基于Consistent Hash相邻节点复制数据，数据存在于多个节点，无单点故障。 2，某节点宕机，hash到该节点的新数据自动路由到下一节点做 hinted handoff，源节点恢复后，推送回源节点。 3，通过Gossip协议维护集群所有节点的健康状态，并发送同步请求，维护数据一致性。 4，SSTable，纯文件，单机可靠性一般。	1，存在单点故障，Region Server宕机后，短时间内该server维护的region无法访问，等待failover生效。 2，通过Master维护各Region Server健康状况和Region分布。 3，多个Master，Master宕机有zookeeper的paxos投票机制选取下一任Master。Master就算全宕机，也不影响Region读写。Master仅充当一个自动运维角色。 4，HDFS为分布式存储引擎，一备三，高可靠，0数据丢失。 5，HDFS的namenode是一个SPOF。
伸缩性	1，Consistent Hash，快速定位数据所在节点。 2，扩容需在Hash Ring上多个节点间调整数据分布。	1，通过Zookeeper定位目标Region Server，最后定位Region。 2，Region Server扩容，通过将自身发布到Master，Master均匀分布。
读写性能	数据读写定位非常快。	数据读写定位可能要通过最多6次的网络RPC，性能较低。
可维护性	架构无中心化，维护成本低。新增keyspace需要重启整个集群。	组件过多，架构复杂，维护成本较高。但是删除表非常方便。
二级索引	支持	不支持
锁与事务	Client Timestap（Dynamo使用vector lock）	Optimistic Concurrency Control
map/reduce	支持不是很好	1，通过Zookeeper定位目标Region Server，最后定位Region。 2，Region Server扩容，通过将自身发布到Master，Master均匀分布。
存储	LSM-Tree、本地磁盘	LSM-Tree、HDFS
分布式架构	去中心化，节点无差异，支持集群没有HBase大	中心化，分HMaster和HReginServer节点，支持超大集群
SQL支持	良好，CQL语法较为全面，但不支持join	比较差
使用场景	OLTP--联机事务处理	OLAP--联机分析处理
小结	1，弱一致性，数据可能丢失。AP 2，可用性高。 3，扩容方便。 4，如果不需要map/reduce的话，维护相当简单	1，强一致性，0数据丢失。CP 2，可用性低。 3，扩容方便。 4，组件过多，架构复杂，维护成本较高。

Cassandra小结

运维容易，机器成本低，适合小规模集群应用，可用快速支撑海量数据查询业务
高可用，高TPS随机读取，支持海量数据，支持CQL、支持二级索引，适合部分场景代替MySQL
不适合一致性要求很高应用场景

标签：Region,SSTable,一致性,数据,节点,Cassandra
From： https://www.cnblogs.com/april-chen/p/18023594

Cassandra