分布式系统中的主从复制基本原理

复制指在多台机器上保存相同数据的副本，通过数据的复制，人们希望达到以下目的：

本文只讨论一些简单情况：数据规模比较小，每台机器都可以存储数据集的完整副本；只考虑简单的故障问题；不考虑多主节点和无主节点架构。

复制技术广泛应用于各种关系型数据库、非关系型数据库、分布式消息队列、网络文件系统等等。

对于关系型数据库，复制通常是同步或异步可选的的。对于其它系统通常是只能选择其中一个。

上图中表达了向从节点1同步变更，向从节点2异步变更。

从节点的失效恢复比较简单，只需要通过中断前记录的最后一个执行事务的事务号，向主节点请求从这个事务到当前中间执行的所有操作，然后追赶上主节点的进度即可。

当主节点失效，我们要做的是将其中一个从节点提升为主节点，令他行使主节点的职责。这个过程可以手动切换，也可以自动进行，自动进行的步骤如下：

上述过程中存在许多变数：

如果使用的是异步复制，且失效之前新主节点没收到原主节点的所有数据，且选举之后原主节点很快重新上线。接下来新的主节点很可能收到来自原主节点的冲突的写请求，因为原主节点尚未搞明白身份的变化。

常见的解决方案是，原主节点上未完成复制的写请求就此丢弃。
在故障情况下，可能出现两个节点都认为自己是主节点，这种情况非常危险并且难以处理。
难以设置恰好的超时时间来判定主节点失效，过长可能导致恢复时间太长，过短可能导致很多不必要的主节点切换。

最简单的方法，主节点将每个写请求转发给从节点。这样做很合理也不复杂，但有一些不适用的场景：

主节点可以将它的 WAL 日志传输给从节点，从节点依次构造数据副本。

这样做缺点在于复制方案强依赖于存储引擎的实现方式（实质上是 WAL 的实现方式）。

我们也可以令复制和存储引擎采用不同的日志格式，让复制和存储逻辑剥离。

关系型数据库的逻辑日志往往是以下这样的实现：

如果事务涉及多行的修改，则会产生多个这样的日志记录，并在后面跟着一条记录来指出事务已经提交。例如 MySQL 的 binlog 是这样实现的。

前面的复制方法都是数据库提供的，我们也可以自己实现一个触发器，来自己实现复制的逻辑。

标签：主从复制,原主,基本原理,数据库,复制,分布式系统,失效,日志,节点
From： https://www.cnblogs.com/WangXianSCU/p/16749526.html