一. 复制环境搭建(基于MySQL 5.7.9-log)
创建一个复制用户
---
--- Master 节点
--
root@mysqldb 10:24: [(none)]> reset master; # 先将master设置成初始状态
mysql> create user 'repl'@'%' identified by '123456';
Query OK, 0 rows affected (0.01 sec)
mysql> grant replication slave on *.* to 'repl'@'%'; -- 需要replication和slave的权限,线上建议 限制成内网的网段
Query OK, 0 rows affected (0.01 sec)
测试在slave上是否可以连接成功
[root@MySQL-Slave ~]# mysql -urepl -h 192.168.220.10 -p
备份数据
准备测试数据
create table test_1 ( a int not null auto_increment, b int, primary key(a) );
insert into test_1 values(NULL,1),(NULL,2),(NULL,3),(NULL,4)
导出数据库
---
--- 导出数据并传到slave上
---
mysqldump -uroot -p --master-data=1 --single-transaction --set-gtid-purged=OFF --all-databases --triggers --routines --events > all.sql
rsync all.sql root@192.168.220.11:/opt/mysql
还原数据
mysql < /opt/mysql/all.sql
CHANGE MASTER
change master to master_host='192.168.220.10',master_user='repl',master_password='123456',master_port=3306,master_log_file='binlog.000001',master_log_pos=1360;
Start slave
root@mysqldb 10:33: [(none)]> start slave;
Query OK, 0 rows affected, 1 warning (0.00 sec)
root@mysqldb 10:36: [(none)]> show slave status\G
*************************** 1. row ***************************
Slave_IO_State: Waiting for master to send event -- IO 线程的状态
Master_Host: 192.168.220.10
Master_User: repl
Master_Port: 3306
Connect_Retry: 60
Master_Log_File: binlog.000001 -- IO线程读取到的文件
Read_Master_Log_Pos: 2897 -- SQL线程执行到的文件
Relay_Log_File: relay.000002
Relay_Log_Pos: 742
Relay_Master_Log_File: binlog.000001 -- SQL线程执行到的文件
Slave_IO_Running: Yes -- io thread 启动成功
Slave_SQL_Running: Yes -- sql thread 启动成功
Replicate_Do_DB:
Replicate_Ignore_DB:
Replicate_Do_Table:
Replicate_Ignore_Table:
Replicate_Wild_Do_Table:
Replicate_Wild_Ignore_Table:
Last_Errno: 0
Last_Error:
Skip_Counter: 0
Exec_Master_Log_Pos: 2897 -- SQL线程执行到文件的位置
Relay_Log_Space: 939
Until_Condition: None
Until_Log_File:
Until_Log_Pos: 0
Master_SSL_Allowed: No
Master_SSL_CA_File:
Master_SSL_CA_Path:
Master_SSL_Cert:
Master_SSL_Cipher:
Master_SSL_Key:
Seconds_Behind_Master: 0 -- Slave 落后Master 的秒数
Master_SSL_Verify_Server_Cert: No
Last_IO_Errno: 0 -- (IO)如果这里有信息的话,就是错误提示信息,可以用来排错
Last_IO_Error:
Last_SQL_Errno: 0 -- (SQL)如果这里有信息的话,就是错误提示信息,可以用来排错
Last_SQL_Error:
Replicate_Ignore_Server_Ids:
Master_Server_Id: 11
Master_UUID: 3c993697-f4b8-11ed-a315-000c2953dece
Master_Info_File: mysql.slave_master_info
SQL_Delay: 0
SQL_Remaining_Delay: NULL
Slave_SQL_Running_State: Slave has read all relay log; waiting for more updates
Master_Retry_Count: 86400
Master_Bind:
Last_IO_Error_Timestamp:
Last_SQL_Error_Timestamp:
Master_SSL_Crl:
Master_SSL_Crlpath:
Retrieved_Gtid_Set: 3c993697-f4b8-11ed-a315-000c2953dece:10-11
Executed_Gtid_Set: 3c993697-f4b8-11ed-a315-000c2953dece:10-11,
c3cb7908-f4b8-11ed-a7d9-000c299ea0a8:1-276
Auto_Position: 0
Replicate_Rewrite_DB:
Channel_Name:
1 row in set (0.00 sec)
Slave_IO_Running 和 Slave_SQL_Running 这两个指标 都为YES ,表示目前的 复制 的状态是正常的
Slave上的线程状态
root@mysqldb 10:39: [(none)]> show processlist;
+----+-----------------+-----------+------+---------+------+--------------------------------------------------------+------------------+
| Id | User | Host | db | Command | Time | State | Info |
+----+-----------------+-----------+------+---------+------+--------------------------------------------------------+------------------+
| 1 | event_scheduler | localhost | NULL | Daemon | 3070 | Waiting on empty queue | NULL |
| 7 | system user | | NULL | Connect | 1309 | Waiting for master to send event | NULL |
| 8 | system user | | NULL | Connect | 1309 | Slave has read all relay log; waiting for more updates | NULL | -- SQL 线程
| 9 | system user | | NULL | Connect | 1858 | Waiting for an event from Coordinator | NULL | -- 开启了并行复制,则可以看到Coordinator线程
| 10 | system user | | NULL | Connect | 1309 | Waiting for an event from Coordinator | NULL |
| 11 | system user | | NULL | Connect | 1309 | Waiting for an event from Coordinator | NULL |
| 12 | system user | | NULL | Connect | 1309 | Waiting for an event from Coordinator | NULL |
| 14 | root | localhost | NULL | Query | 0 | starting | show processlist |
+----+-----------------+-----------+------+---------+------+--------------------------------------------------------+------------------+
8 rows in set (0.00 sec)
并行复制参数
slave-parallel-type = LOGICAL_CLOCK
slave-parallel-workers = 4
Relay_Log_File 和 Relay_Log_Pos 是中继日志(Relay_Log)信息
由于 IO线程 拉取数据的速度快于 SQL线程 回放数据的速度,所以 Relay_Log 可在两者之间起到一个 缓冲 的作用
Relay_Log 的格式和 binlog 的 格式 是一样的,但是两者的内容是不一样的(不是和binlog一一对应的)
Relay_Log 在 SQL线程 回放完成 后,(默认)就会被删除,而 binlog 不会(由expire_logs_days 控制)
Relay_Log 可以通过设置 relay_log_purge=0 ,使得 Relay_Log 不被删除(MHA中不希望被Purge),需要通过外部的脚本进行删除
复制搭建总结
- Master 和 Slave 上配置 不同 的 server-id ,且 binlog_format 设置为 ROW 格式
- 在 Master 上创建一个 'repl'@'%' 的用户( %替换为内网网段 )
- 将 Master 的备份数据恢复到 Slave 上, 注意记录master status信息 ( binlog_file 和 position )
- 在 Slave 上进行 change master 操作,注意 master_log_file 和 master_log_pos 要和 备份中的master status一致
- 在 Slave 上进行 start slave 操作
- 在 Slave 上进行 show slave status\G; 操作,确保 Slave_IO_Running 和 Slave_SQL_Running 均为 YES
二. 搭建真正的高可靠复制环境
重要的参数
Master
binlog-do-db = # 需要复制的库
binlog-ignore-db = # 需要被忽略的库
max_binlog_size = 2048M # 默认为1024M
binlog_format = ROW # 必须为ROW
transaction-isolation = READ-COMMITTED
expire_logs_days = 7 # binlog保留多少天,看公司计划安排
server-id = 11 # 必须和所有从机不一样,且从机之间也不一样
binlog_cache_size = # binlog 缓存的大小,设置时要当心
sync_binlog = 1 # 必须设置为1,默认为0
innodb_flush_log_at_trx_commit = 1 # 提交事物的时候刷新日志
innodb_support_xa = 1
Slave
log_slave_updates # 将SQL线程回放的数据写入到从机的binlog中去(用于级联复制)
replicate-do-db = # 需要复制的库
replicate-ignore-db = # 需要忽略的库
replicate-do-table = # 需要复制的表
replicate-ignore-table = 需要忽略的表
server-id = 22 # 必须在一个复制集群环境中全局唯一
relay-log-recover = 1 # I/O thread crash safe – IO线程安全
relay_log_info_repository = TABLE # SQL thread crash safe – SQL线程安全
master_info_repository = TABLE
read_only = 1
SQL线程高可靠问题
如果将 relay_log_info_repository 设置为 FILE ,MySQL会把回放信息记录在一个 relay-info.log 的文件中,其中包含SQL线程 回放到的Relay_log_name和Relay_log_pos ,以及对应的Master的Master_log_name和Master_log_pos
+--------+ replication +--------+
| Master |+-------------------->| Slave |
+--------+ +---+---+
|
| Write
|
+--------v-------+
| relay-info.log | (sync_relay_log_info = 10000)
+----------------+
SQL线程回放event
将 回放到 的binlog的 文件名 和 位置 写到 relay-info.log 文件
参数 sync_relay_log_info = 10000 (fsync)代表每回放 10000 个event, 写一次 relay-info.log
如果该参数设置为 1 ,则表示 每回放一个event , 就写一次relay-info.log ,那写入代价很大,且性能很差
设置为1后,即使性能上可以接受,还是会丢最有一次的操作,恢复起来后还是有1062的错误(重复执行event)
SQL线程的数据回放是 写数据库操作 ,relay-info是 写文件操作 ,这两个操作 很难保证一致性
当一个Slave节点在复制数据时,可能发生如下情况, 数据2和数据3写入成功 (且已经落盘),但是 relay-info.log 中的记录还是 数据1的位置 (因为 sync_relay_log_info 的关系,此时还没有fsync),如下图所示:
+----------+ replication +----------+ +----------------+
| Master +-----------------> Slave | | relay-info.log |
+----------+ +----------+ +----------------+
| insert 1 | | insert 1 +------> insert 1 |
+----------+ +----------+ +----------------+
| insert 2 | | insert 2 |
+----------+ +----------+ 2 and 3 no-fsync to
| insert 3 | | insert 3 | relay-info.log
+----------+ +----------+
此时Slave宕机,然后重启,便会产生如下的状况:
+----------+ read info +----------------+
| Slave <---------------+ relay-info.log |
+----------+ +----------------+
| data 1 | | insert 1 |
+----------+ +----------------+
| data 2 |
+----------+
| data 3 |
+----------+
1. Slave的库中 存在数据2和数据3
2. Slave读取relay-info.log中的 Relay_log_name和Relay_log_pos ,此时记录的是 回放到数据1的位置
3. Slave 从数据1开始回放 ,继续 插入数据2和数据3
4. 但是,此时的数据库中 存在数据2和数据3 ,于是发生了 1062 的错误(重复记录)
在MySQL5.6+以后,将 relay_log_info_repository 设置为 TABLE ,relay-info将写入到 mysql.slave_relay_log_info 这张表中
标签:Slave,log,relay,--,环境,复制,Master,SQL,搭建 From: https://www.cnblogs.com/gavin-zheng/p/17410695.html