复制环境搭建

标签：Slave log relay -- 环境复制 Master SQL 搭建

一. 复制环境搭建（基于MySQL 5.7.9-log）

创建一个复制用户

---
--- Master 节点
--
root@mysqldb 10:24:  [(none)]> reset master; # 先将master设置成初始状态

mysql> create user 'repl'@'%' identified by '123456';
Query OK, 0 rows affected (0.01 sec)

mysql> grant replication slave on *.* to 'repl'@'%'; -- 需要replication和slave的权限，线上建议 限制成内网的网段
Query OK, 0 rows affected (0.01 sec)

测试在slave上是否可以连接成功

[root@MySQL-Slave ~]# mysql -urepl -h 192.168.220.10 -p

备份数据

准备测试数据

create table test_1 ( a int not null auto_increment, b int, primary key(a) );
insert into test_1 values(NULL,1),(NULL,2),(NULL,3),(NULL,4)

导出数据库

---
--- 导出数据并传到slave上
---
mysqldump -uroot -p --master-data=1 --single-transaction  --set-gtid-purged=OFF --all-databases --triggers --routines --events > all.sql
rsync all.sql  root@192.168.220.11:/opt/mysql

还原数据

mysql < /opt/mysql/all.sql

CHANGE MASTER

change master to master_host='192.168.220.10',master_user='repl',master_password='123456',master_port=3306,master_log_file='binlog.000001',master_log_pos=1360;

Start slave

root@mysqldb 10:33:  [(none)]> start slave;
Query OK, 0 rows affected, 1 warning (0.00 sec)

root@mysqldb 10:36:  [(none)]> show slave status\G
*************************** 1. row ***************************
               Slave_IO_State: Waiting for master to send event  -- IO 线程的状态
                  Master_Host: 192.168.220.10
                  Master_User: repl
                  Master_Port: 3306
                Connect_Retry: 60
              Master_Log_File: binlog.000001  -- IO线程读取到的文件
          Read_Master_Log_Pos: 2897  -- SQL线程执行到的文件
               Relay_Log_File: relay.000002
                Relay_Log_Pos: 742
        Relay_Master_Log_File: binlog.000001  -- SQL线程执行到的文件
             Slave_IO_Running: Yes  -- io thread 启动成功
            Slave_SQL_Running: Yes  -- sql thread 启动成功
              Replicate_Do_DB:
          Replicate_Ignore_DB:
           Replicate_Do_Table:
       Replicate_Ignore_Table:
      Replicate_Wild_Do_Table:
  Replicate_Wild_Ignore_Table:
                   Last_Errno: 0
                   Last_Error:
                 Skip_Counter: 0
          Exec_Master_Log_Pos: 2897  -- SQL线程执行到文件的位置
              Relay_Log_Space: 939
              Until_Condition: None
               Until_Log_File:
                Until_Log_Pos: 0
           Master_SSL_Allowed: No
           Master_SSL_CA_File:
           Master_SSL_CA_Path:
              Master_SSL_Cert:
            Master_SSL_Cipher:
               Master_SSL_Key:
        Seconds_Behind_Master: 0  -- Slave 落后Master 的秒数
Master_SSL_Verify_Server_Cert: No
                Last_IO_Errno: 0  -- （IO）如果这里有信息的话，就是错误提示信息，可以用来排错
                Last_IO_Error:
               Last_SQL_Errno: 0  -- （SQL）如果这里有信息的话，就是错误提示信息，可以用来排错
               Last_SQL_Error:
  Replicate_Ignore_Server_Ids:
             Master_Server_Id: 11
                  Master_UUID: 3c993697-f4b8-11ed-a315-000c2953dece
             Master_Info_File: mysql.slave_master_info
                    SQL_Delay: 0
          SQL_Remaining_Delay: NULL
      Slave_SQL_Running_State: Slave has read all relay log; waiting for more updates
           Master_Retry_Count: 86400
                  Master_Bind:
      Last_IO_Error_Timestamp:
     Last_SQL_Error_Timestamp:
               Master_SSL_Crl:
           Master_SSL_Crlpath:
           Retrieved_Gtid_Set: 3c993697-f4b8-11ed-a315-000c2953dece:10-11
            Executed_Gtid_Set: 3c993697-f4b8-11ed-a315-000c2953dece:10-11,
c3cb7908-f4b8-11ed-a7d9-000c299ea0a8:1-276
                Auto_Position: 0
         Replicate_Rewrite_DB:
                 Channel_Name:
1 row in set (0.00 sec)

Slave_IO_Running 和 Slave_SQL_Running 这两个指标都为YES ，表示目前的复制的状态是正常的

Slave上的线程状态

root@mysqldb 10:39:  [(none)]> show processlist;
+----+-----------------+-----------+------+---------+------+--------------------------------------------------------+------------------+
| Id | User            | Host      | db   | Command | Time | State                                                  | Info             |
+----+-----------------+-----------+------+---------+------+--------------------------------------------------------+------------------+
|  1 | event_scheduler | localhost | NULL | Daemon  | 3070 | Waiting on empty queue                                 | NULL             |
|  7 | system user     |           | NULL | Connect | 1309 | Waiting for master to send event                       | NULL             |
|  8 | system user     |           | NULL | Connect | 1309 | Slave has read all relay log; waiting for more updates | NULL             | -- SQL 线程
|  9 | system user     |           | NULL | Connect | 1858 | Waiting for an event from Coordinator                  | NULL             | -- 开启了并行复制，则可以看到Coordinator线程 
| 10 | system user     |           | NULL | Connect | 1309 | Waiting for an event from Coordinator                  | NULL             |
| 11 | system user     |           | NULL | Connect | 1309 | Waiting for an event from Coordinator                  | NULL             |
| 12 | system user     |           | NULL | Connect | 1309 | Waiting for an event from Coordinator                  | NULL             |
| 14 | root            | localhost | NULL | Query   |    0 | starting                                               | show processlist |
+----+-----------------+-----------+------+---------+------+--------------------------------------------------------+------------------+
8 rows in set (0.00 sec)

并行复制参数

slave-parallel-type = LOGICAL_CLOCK
slave-parallel-workers = 4

Relay_Log_File 和 Relay_Log_Pos 是中继日志（Relay_Log）信息

由于 IO线程拉取数据的速度快于 SQL线程回放数据的速度，所以 Relay_Log 可在两者之间起到一个缓冲的作用

Relay_Log 的格式和 binlog 的格式是一样的，但是两者的内容是不一样的（不是和binlog一一对应的）

Relay_Log 在 SQL线程回放完成后，（默认）就会被删除，而 binlog 不会（由expire_logs_days 控制）

Relay_Log 可以通过设置 relay_log_purge=0 ，使得 Relay_Log 不被删除（MHA中不希望被Purge），需要通过外部的脚本进行删除

复制搭建总结

Master 和 Slave 上配置不同的 server-id ，且 binlog_format 设置为 ROW 格式
在 Master 上创建一个 'repl'@'%' 的用户（ %替换为内网网段）
将 Master 的备份数据恢复到 Slave 上，注意记录master status信息（ binlog_file 和 position ）
在 Slave 上进行 change master 操作，注意 master_log_file 和 master_log_pos 要和备份中的master status一致
在 Slave 上进行 start slave 操作
在 Slave 上进行 show slave status\G; 操作，确保 Slave_IO_Running 和 Slave_SQL_Running 均为 YES

二. 搭建真正的高可靠复制环境

重要的参数

Master

binlog-do-db = # 需要复制的库

binlog-ignore-db = # 需要被忽略的库

max_binlog_size = 2048M # 默认为1024M

binlog_format = ROW # 必须为ROW

transaction-isolation = READ-COMMITTED

expire_logs_days = 7 # binlog保留多少天，看公司计划安排

server-id = 11 # 必须和所有从机不一样，且从机之间也不一样

binlog_cache_size = # binlog 缓存的大小，设置时要当心

sync_binlog = 1 # 必须设置为1，默认为0

innodb_flush_log_at_trx_commit = 1 # 提交事物的时候刷新日志

innodb_support_xa = 1

Slave

log_slave_updates # 将SQL线程回放的数据写入到从机的binlog中去（用于级联复制）

replicate-do-db = # 需要复制的库

replicate-ignore-db = # 需要忽略的库

replicate-do-table = # 需要复制的表

replicate-ignore-table = 需要忽略的表

server-id = 22 # 必须在一个复制集群环境中全局唯一

relay-log-recover = 1 # I/O thread crash safe – IO线程安全

relay_log_info_repository = TABLE # SQL thread crash safe – SQL线程安全

master_info_repository = TABLE

read_only = 1

SQL线程高可靠问题

SQL线程回放event

将回放到的binlog的文件名和位置写到 relay-info.log 文件

参数 sync_relay_log_info = 10000 （fsync）代表每回放 10000 个event，写一次 relay-info.log

如果该参数设置为 1 ，则表示每回放一个event ，就写一次relay-info.log ，那写入代价很大，且性能很差

设置为1后，即使性能上可以接受，还是会丢最有一次的操作，恢复起来后还是有1062的错误（重复执行event）

SQL线程的数据回放是写数据库操作，relay-info是写文件操作，这两个操作很难保证一致性

当一个Slave节点在复制数据时，可能发生如下情况，数据2和数据3写入成功 (且已经落盘)，但是 relay-info.log 中的记录还是数据1的位置（因为 sync_relay_log_info 的关系，此时还没有fsync），如下图所示：
+----------+ replication +----------+ +----------------+
| Master +-----------------> Slave | | relay-info.log |
+----------+ +----------+ +----------------+
| insert 1 | | insert 1 +------> insert 1 |
+----------+ +----------+ +----------------+
| insert 2 | | insert 2 |
+----------+ +----------+ 2 and 3 no-fsync to
| insert 3 | | insert 3 | relay-info.log
+----------+ +----------+
此时Slave宕机，然后重启，便会产生如下的状况：
+----------+ read info +----------------+
| Slave <---------------+ relay-info.log |
+----------+ +----------------+
| data 1 | | insert 1 |
+----------+ +----------------+
| data 2 |
+----------+
| data 3 |
+----------+
1. Slave的库中存在数据2和数据3
2. Slave读取relay-info.log中的 Relay_log_name和Relay_log_pos ，此时记录的是回放到数据1的位置
3. Slave 从数据1开始回放，继续插入数据2和数据3
4. 但是，此时的数据库中存在数据2和数据3 ，于是发生了 1062 的错误（重复记录）
在MySQL5.6+以后，将 relay_log_info_repository 设置为 TABLE ，relay-info将写入到 mysql.slave_relay_log_info 这张表中

标签：Slave,log,relay,--,环境,复制,Master,SQL,搭建
From： https://www.cnblogs.com/gavin-zheng/p/17410695.html

相关文章

赞助商

阅读排行