标签：10.0 log pt -- kill mysql 优化

一、硬件层面优化

1.0 硬件选配

DELL、HP、IBM、华为、浪潮。
CPU：I、E
内存：ECC
IO : SAS 、 pci-e SSD 、 Nvme flash
raid卡：Raid10
网卡： 单卡单口
云服务器： ECS 、RDS 、PolarDB、TDSQL

1.1 关闭NUMA

a. bios级别:
在bios层面numa关闭时，无论os层面的numa是否打开，都不会影响性能。
# numactl --hardware
available: 1 nodes (0)    #如果是2或多个nodes就说明numa没关掉
b. OS grub级别:
vi /boot/grub/grub.conf
#/* Copyright 2010, Oracle. All rights reserved. */
default=0
timeout=5
hiddenmenu
foreground=000000
background=ffffff
splashimage=(hd0,0)/boot/grub/oracle.xpm.gz
title Trying_C0D0_as_HD0
root (hd0,0)
kernel /boot/vmlinuz-2.6.18-128.1.16.0.1.el5 root=LABEL=DBSYS ro
bootarea=dbsys rhgb quiet console=ttyS0,115200n8 console=tty1
crashkernel=128M@16M numa=off
initrd /boot/initrd-2.6.18-128.1.16.0.1.el5.img
在os层numa关闭时,打开bios层的numa会影响性能，QPS会下降15-30%;
c. 数据库级别:
mysql> show variables like '%numa%';
+------------------------+-------+
| Variable_name     | Value |
+------------------------+-------+
| innodb_numa_interleave | OFF  |
+------------------------+-------+
或者：
vi /etc/init.d/mysqld
找到如下行
# Give extra arguments to mysqld with the my.cnf file. This script
# may be overwritten at next upgrade.
$bindir/mysqld_safe --datadir="$datadir" --pid-file="$mysqld_pid_file_path"
$other_args >/dev/null &
wait_for_pid created "$!" "$mysqld_pid_file_path"; return_value=$?
将$bindir/mysqld_safe --datadir="$datadir"这一行修改为：
/usr/bin/numactl --interleave all $bindir/mysqld_safe --datadir="$datadir"
--pid-file="$mysqld_pid_file_path" $other_args >/dev/null &
wait_for_pid created "$!" "$mysqld_pid_file_path"; return_value=$?

1.3 开启CPU高性能模式

1.4 阵列卡配置建议

raid10(推荐)
SSD或者PCI-E或者Flash
强制回写（Force WriteBack）
BBU 电池 ： 如果没电会有较大性能影响、定期充放电，如果UPS、多路电源、发电机。可以关闭。
关闭预读
有可能的话开启Cache(如果UPS、多路电源、发电机。)

1.5 关闭THP

vi /etc/rc.local
# 在文件末尾添加如下指令：
if test -f /sys/kernel/mm/transparent_hugepage/enabled; then
 echo never > /sys/kernel/mm/transparent_hugepage/enabled
fi
if test -f /sys/kernel/mm/transparent_hugepage/defrag; then
 echo never > /sys/kernel/mm/transparent_hugepage/defrag
fi
[root@master ~]# cat /sys/kernel/mm/transparent_hugepage/enabled
always madvise [never]
[root@master ~]# cat /sys/kernel/mm/transparent_hugepage/defrag
always madvise [never]

1.6 网卡绑定

bonding技术，业务数据库服务器都要配置bonding继续。建议是主备模式。交换机一定要堆叠。

1.7 存储多路径

使用独立存储设备的话，需要配置多路径。
linux 自带 : multipath
厂商提供  :

二、系统层面优化

a. 更改文件句柄和进程数
内核优化 /etc/sysctl.conf
vm.swappiness <= 5（也可以设置为0）
vm.dirty_ratio <= 20
vm.dirty_background_ratio <= 10
net.ipv4.tcp_max_syn_backlog = 819200
net.core.netdev_max_backlog = 400000
net.core.somaxconn = 4096
net.ipv4.tcp_tw_reuse=1
net.ipv4.tcp_tw_recycle=0
limits.conf
nofile 63000

补充,脏页：
vm.dirty_ratio = 20   # 阻塞式刷新
vm.dirty_background_ration = 10 # 异步刷新
内存脏页/系统可用内存(free+buf/cache)百分比，达到比例，会刷新脏页到磁盘

监控内存显示95%，应急处理:
文件系统缓存： ---binlog redo  --->flush os cache ---sync
mysql实例：session mem + shard mem

Innodb flush method = O_Direct
P_S开的项目过多，导致内存泄漏

1.文件系统：buff/cache 20G  --》vm.dirty_ratio
2.数据库   top　　　　　70G  --》ckpt?

快速释放内存,可能导致IO达到瓶颈：人为释放内存，业务繁忙期间不要触发，可能导致数据库崩溃
echo 3 >/proc/sys/vm/drop_caches

b. 防火墙
禁用selinux ： /etc/sysconfig/selinux 更改SELINUX=disabled.
iptables如果不使用可以关闭。可是需要打开MySQL需要的端口号

c. 文件系统优化
推荐使用XFS文件系统
MySQL数据分区独立 ，例如挂载点为: /data
mount参数 defaults, noatime, nodiratime, nobarrier，提高IO能力 如/etc/fstab：
/dev/sdb /data          xfs  defaults,noatime,nodiratime,nobarrier    1 2

d. 不使用LVM

e. io调度
SAS ： deadline
SSD&PCI-E： noop

centos7模式是deadline
cat /etc/block/sda/queue/scheduler

top命令分析
%CPU(s) us，sy 用户和系统使用cpu，id空闲cpu

查看mysql进程占用cpu太高情况
use performance_schema
select * from threads;
查找原因，例如日志：刷新太高之类，可以定义到线程
常规方法： 
top  --pid：110
top -Hp --->TID:110
select * from performance_schema.threads where thread_os_id=110; --->thread_id=999
select * from performance_schema.events_statemements_history where thread_id=999


io问题：
use sys
show tables
io开头的表，查看那个库，那个表，访问那个文件导致IO太高
io_global_by_file_by_bytes 排名

三、数据库版本选择

1、稳定版：选择开源的社区版的稳定版GA版本。
2、选择mysql数据库GA版本发布后6个月-12个月的GA双数版本，大约在15-20个小版本左右。
3、要选择前后几个月没有大的BUG修复的版本，而不是大量修复BUG的集中版本。
4、要考虑开发人员开发程序使用的版本是否兼容你选的版本。
5、作为内部开发测试数据库环境，跑大概3-6个月的时间。
6、优先企业非核心业务采用新版本的数据库GA版本软件。
7、向DBA高手请教，或者在技术氛围好的群里和大家一起交流，使用真正的高手们用过的好用的GA版本
产品。
8.0.24是一个不错的版本选择。向后可以选择双数版。
8.0比5.7版本性能高2.5倍左右，不调参数

四、数据库三层结构及核心参数优化

4.1 连接层

max_connections=单节点不高于3000
max_connect_errors=大一点。
wait_timeout=600  # TP类业务
interactive_wait_timeout=600
net_read_timeout = 120
net_write_timeout = 120
max_allowed_packet = M  # 按需求


查看连接报错：
show variables like '%conn%';

4.2 Server层

sql_safe_updates        =1
slow_query_log         =ON
slow_query_log_file       =/xxx
long_query_time         =1
log_queries_not_using_indexes  =ON
log_throttle_queries_not_using_indexes = 10
sort_buffer\join_buffer\read_buffer\read_rnd_buffer，建议不超过8M
tmp_table、heap_table,建议不要超过128M
sql_mode,建议保持默认。
max_execution_time，建议跑批量是设置较大，默认28800，8.0没限制。
lock_wait_timeout，建议设置在60秒以内
lower_case_table_names     =1
thread_cache_size        =64
character_set_server      =utf8或者utf8mb4
log_timestamps         =SYSTEM
init_connect          ="set names utf8"
event_scheduler         =OFF
secure-file-priv        =/xxx
expire_logs_days        =10
binlog_expire_logs_seconds 8 全备备份时间+1
sync_binlog           =1
log-bin             =/opt/log/mysql/blog/mysql-bin
log-bin-index          =/opt/log/mysql/blog/mysql-bin.index
max_binlog_size         =500M
binlog_format          =ROW
max_binlog_cache_size      =2G
max_binlog_stmt_cache_size   =2G

4.3 存储引擎层

transaction-isolation        ="READ-COMMITTED"
innodb_data_home_dir        =/xxx
innodb_log_group_home_dir      =/xxx
innodb_log_file_size        =2048M
innodb_log_files_in_group      =3
innodb_flush_log_at_trx_commit   =2
innodb_flush_method         =O_DIRECT/fsync
innodb_io_capacity         =1000
innodb_io_capacity_max       =4000   # ssd
innodb_buffer_pool_size       =64G   # 内存50% 16核128G
innodb_buffer_pool_instances    =4
innodb_log_buffer_size       =1024M
innodb_max_dirty_pages_pct     =85  # 脏页达到85%
innodb_lock_wait_timeout      =10
innodb_open_files          =63000
innodb_page_cleaners        =4
innodb_sort_buffer_size       =64M
innodb_print_all_deadlocks     =1
innodb_rollback_on_timeout     =ON
innodb_deadlock_detect       =ON  # 死锁侦测

4.4 复制

# relay_log和binlog与存储数据单独分开，降低IO
relay_log            =/opt/log/mysql/blog/relay
relay_log_index         =/opt/log/mysql/blog/relay.index
max_relay_log_size       =500M
relay_log_purge         =ON
relay_log_recovery       =ON

rpl_semi_sync_master_enabled        =ON
rpl_semi_sync_master_timeout        =1000
rpl_semi_sync_master_trace_level      =32
rpl_semi_sync_master_wait_for_slave_count  =1
rpl_semi_sync_master_wait_no_slave     =ON
rpl_semi_sync_master_wait_point       =AFTER_SYNC  #5.7
rpl_semi_sync_slave_enabled         =ON
rpl_semi_sync_slave_trace_level       =32

binlog_group_commit_sync_delay       =1
binlog_group_commit_sync_no_delay_count   =1000

gtid_mode            =ON
enforce_gtid_consistency    =ON
master_verify_checksum     =ON
sync_master_info        =1

skip-slave-start        =1
#read_only           =ON
#super_read_only        =ON
log_slave_updates        =ON
server_id            =2330602
report_host           =xxxx
report_port           =3306
slave_parallel_type             =LOGICAL_CLOCK
slave_parallel_workers           =4

master_info_repository           =TABLE
relay_log_info_repository          =TABLE

4.5 其它

客户端配置,可以不配置：
[mysql]
no-auto-rehash
pager less

五、开发规范

5.1 字段规范

1. 每个表建议在30个字段以内。
2. 需要存储emoji字符的，则选择utf8mb4字符集。
3. 机密数据，加密后存储。
4. 整型数据，默认加上UNSIGNED。
5. 存储IPV4地址建议用INT UNSIGNE，查询时再利用INET_ATON()、INET_NTOA()函数转换。
6. 如果遇到BLOB、TEXT大字段单独存储表或者附件形式存储。
7. 选择尽可能小的数据类型，用于节省磁盘和内存空间。
8. 存储浮点数，可以放大倍数存储。
9. 每个表必须有主键，INT/BIGINT并且自增做为主键，分布式架构使用sequence序列生成器保存。
10. 每个列使用not null，或增加默认值。

5.2 SQL语句规范

### 1. 去掉不必要的括号
如：   ((a AND b) AND c OR (((a AND b) AND (c AND d))))
修改成  (a AND b AND c) OR (a AND b AND c AND d)
### 2. 去掉重叠条件
如：   (a<b AND b=c) AND a=5
修改成  b>5 AND b=c AND a=5
如：   (B>=5 AND B=5) OR (B=6 AND 5=5) OR (B=7 AND 5=6)
修改成  B=5 OR B=6
### 3. 避免使用not in、not exists 、<>、like %%
select a.id,a.name from a.where a.id not in (select id in b where b.col1='xx');
select a.id,a.name from a left join b on a.id=b.id where b.id is null and b.col1='xx';

### 4. 多表连接，小表驱动大表
### 5. 减少临时表应用，优化order by 、group by、uninon、distinct、join等
### 6. 减少语句查询范围，精确查询条件
### 7. 多条件，符合联合索引最左原则
### 8. 查询条件减少使用函数、拼接字符等条件、条件隐式转换
### 9. union all 替代 union
### 10.减少having子句使用
### 11.如非必须不使用 for update语句
### 12.update和delete，开启安全更新参数
### 13.减少inset ... select语句应用
### 14.使用load 替代insert录入大数据
### 15.导入大量数据时，可以禁用索引、增大缓冲区、增大redo文件和buffer、关闭autocommit、RC级别可以提高效率
### 16.优化limit，最好业务逻辑中先获取主键ID，再基于ID进行查询
　　　　limit 5000000,10
### 17. DDL执行前要审核
### 18. 多表连接语句执行前要看执行计划

六、索引优化

1. 非唯一索引按照“i_字段名称_字段名称[_字段名]”进行命名。
2. 唯一索引按照“u_字段名称_字段名称[_字段名]”进行命名。
3. 索引名称使用小写。
4. 索引中的字段数不超过5个。
5. 唯一键由3个以下字段组成，并且字段都是整形时，使用唯一键作为主键。
6. 没有唯一键或者唯一键不符合5中的条件时，使用自增id作为主键。
7. 唯一键不和主键重复。
8. 索引选择度高的列作为联合索引最左条件
9. ORDER BY，GROUP BY，DISTINCT的字段需要添加在索引的后面。
10. 单张表的索引数量控制在5个以内，若单张表多个字段在查询需求上都要单独用到索引，需要经过DBA评估。查询性能问题无法解决的，应从产品设计上进行重构。
11. 使用EXPLAIN判断SQL语句是否合理使用索引，尽量避免extra列出现：Using File Sort，Using Temporary。
12. UPDATE、DELETE语句需要根据WHERE条件添加索引。
13. 对长度大于50的VARCHAR字段建立索引时，按需求恰当的使用前缀索引，或使用其他方法。
14. 下面的表增加一列url_crc32，然后对url_crc32建立索引，减少索引字段的长度，提高效率。
　　CREATE TABLE all_url(ID INT UNSIGNED NOT NULL PRIMARY KEY AUTO_INCREMENT,
　　url VARCHAR(255) NOT NULL DEFAULT 0,   
　　url_crc32 INT UNSIGNED NOT NULL DEFAULT 0,
　　index idx_url(url_crc32));
15. 合理创建联合索引（避免冗余），(a,b,c) 相当于 (a) 、(a,b) 、(a,b,c)。通过sys表中查询
16. 合理利用覆盖索引，减少回表。
17. 减少冗余索引和使用率较低的索引 sys库

七、全局锁Global Read lock(GRL)

7.1 latch闩锁

7.1.1 介绍

Latch用于管理对共享内存资源的并发访问，例如，操作缓冲池汇总的LRU列表，删除、添加、移动LRU列表中的元素，为了保证一致性，必须有锁的介入，这就是latch锁。

7.1.2 latch和lock的区别

7.1.3 查看latch争用类型

7.1.4 什么时候发生争用

1）a 访问x内存链表
2）b 排队等待x解锁 ，占了cpu，但是cpu发现你在等待，所以cpu将b踢出
3）访问锁链的时间，就是找数据的时间。
4）b知道很a快所以，b不去排队，这时去spin也就是空转cpu，然后再去看一下内存数据结构，a是否已
解锁
5）b转了一圈后，在b spin的时间段的时间中，c进来了，连续多次的spin后，产生了os waits
6）操作系统将b从cpu中踢出
latch争用的表面现象：latch争用会表现为cpu繁忙，IO很闲，没有做实际的事情。

7.1.5 如何监控latach争用较为严重

----------
SEMAPHORES
----------
OS WAIT ARRAY INFO: reservation count 13
OS WAIT ARRAY INFO: signal count 13
RW-shared spins 0, rounds 0, OS waits 0
RW-excl spins 2, rounds 60, OS waits 2
RW-sx spins 2, rounds 60, OS waits 2
Spin rounds per wait: 0.00 RW-shared, 30.00 RW-excl, 30.00 RW-sx
rounds:  意思是每次询问旋转的次数
os waits：表示sleep，当突然增长比较快的时候，说明latch争用比较严重
rw-shared spin的次数
rw-excl   spin的次数

7.1.6 latch争用发生的原因

1、内存访问太频繁（不停地找）
2、list链太长（链上挂10000个快，被持有的几率太大）

7.1.7 如何降低latch争用

如果出现latch争用比较严重
1.优化大sql，降低对内存读的数量——效果比较明显
2.增加instances的数量

7.2 全局锁Global Read lock

7.2.1 介绍

全局读锁。
加锁方法： FTWRL，flush tables with read lock.
解锁方法： unlock tables;
出现场景：
mysqldump --master-data 
xtrabackup（8.0之前早期版本）等备份时。
属于类型： MDL（matedatalock）层面锁
影响情况： 加锁期间，阻塞所有事务写入，阻塞所有已有事务commit。
MDL，等待时间受 lock_wait_timeout=31536000

7.2.2 检测方法

UPDATE performance_schema.setup_instruments
SET ENABLED = 'YES', TIMED = 'YES'
WHERE NAME = 'wait/lock/metadata/sql/mdl';

mysql> select * from performance_schema.metadata_locks;

mysql> select OBJECT_SCHEMA ,OBJECT_NAME
,LOCK_TYPE,LOCK_DURATION,LOCK_STATUS ,OWNER_THREAD_ID,OWNER_EVENT_ID from
performance_schema.metadata_locks;

mysql> show processlist;
mysql> select * from sys.schema_table_lock_waits;

7.2.3 一个经典故障：5.7 xtrabackup/mysqldump备份时数据库出现hang状态，所有查询都不能进行

session1: 模拟一个大的查询或事务
mysql> select *,sleep(100) from city where id<10 limit 1 ;

session2: 模拟备份时的FTWRL
mysql> flush tables with read lock;
-- 此时发现命令被阻塞

session3: 发起正常查询，发现被阻塞
mysql> select * from world.city where id=1;

结论： 备份时，一定要选择业务不繁忙期间，否则有可能会阻塞正常业务。

案例2：
5.7 innobackupex备份全库，进程死了，mysql里就是全库读锁，后边insert 全阻塞了

7.3 Table lock

7.3.1 介绍

一般很少出现，手工时出现锁定
表锁。
加锁方式：
lock table read. 所有会话只读。属于MDL锁。
lock table write.当前持有会话可以RW，其他会被阻塞。属于MDL锁
select for update ;
select for share ;
解锁方式：
unlock tables;

7.3.2 检测方式

[mysqld]
performance-schema-instrument='wait/lock/metadata/sql/mdl=ON'
mysql> select * from performance_schema.metadata_locks;

mysql> select * from performance_schema.threads;

7.4 MDL锁

7.4.1 介绍

Matedata lock .元数据锁。
作用范围：global 、commit、tablespace、schema、table等
默认timeout时间： lock_wait_timeout
mysql> select @@lock_wait_timeout;
+---------------------+
| @@lock_wait_timeout | 参数改成3600s
+---------------------+
|      31536000 |
+---------------------+


# 监控方式
[mysqld]
performance-schema-instrument='wait/lock/metadata/sql/mdl=ON'
mysql> select * from performance_schema.metadata_locks;

找到  
OWNER_THREAD_ID: 62
mysql> select * from threads where thread_id='62'\G

PROCESSLIST_ID: 21
kill 21;

7.5 innodb row lock

7.5.1 介绍

record lock 、gap、next lock
都是基于索引加锁,与事务隔离级别有关。

7.5.2 监控及分析

show status like 'innodb_row_lock%'
select * from information_schema.innodb_trx;
select * from sys.innodb_lock_waits;
select * from performance_schema.threads;
select * from performance_schema.events_statements_current;
select * from performance_schema.events_statements_history;

7.5.3 优化方向

1. 优化索引
2. 减少事务的更新范围
3. RC
4. 拆分语句：
例如： update t1 set num=num+10 where k1 <100; k1 是辅助索引,record lock gap
next
 改为:
 select id from t1 where k1 <100; ---> id: 20,30,50
 update t1 set num=num+10  where id in (20,30,50);

7.6 死锁

7.6.1 介绍及监控分析

dead lock 多个并发事务之间发生交叉资源依赖时，会出现

# 排查业务逻辑
show engine innodb status \G
innodb_print_all_deadlocks =1  # 将死锁记录到错误日志

8.架构选型优化

高可用架构：
    keepalived+双主+GTID+增强半同步（业务量不大，一般不用）
    MHA+ProxySQL+GTID+增强版同步

    MGR\InnoDB Cluster 金融级别
    PXC

    xenon，暂时用的不多，说是替代MHA
    orch+MHA  基于图形化的高可用
    RM 
    consul+zk..

读写分离：
ProxySQL(建议)、MySQL-router

分布式架构：
shardingsphere  ===>sharding-jdbc proxy..   my-cat---dble

NoSQL:
    Redis+sentinel,Redis Cluster
    MongoDB RS/MongoDB SHARDING Cluster
    ES

NewSQL
Pingcap TIDB
TDSQL
PolarDB
OceanBase

HTAP：实时处理分析、出报表
Pingcap TIDB
OcenBase

9.安全优化

1、 使用普通nologin用户管理MySQL
2、 合理授权用户、密码复杂度及最小权限、系统表保证只有管理员用户可访问。
3、 删除数据库匿名用户
4、 锁定非活动用户
5、 MySQL尽量不暴露互联网,需要暴露互联网用户需要设置明确白名单、替换MySQL默认端口号、使用ssl连接
6、 优化业务代码，防止SQL注入
7、 备份
8、 SQL审核  ---爱可生：开源产品
9、 高可用及容灾

10.常用工具介绍

一、 PT（percona-toolkits）工具的应用:
1. pt工具安装
[root@master ~]# yum install -y percona-toolkit-3.1.0-2.el7.x86_64.rpm

2. 常用工具使用介绍
　　pt-archiver pt-osc pt-table-checksum/sync pt-kill pt-heartbeat pt-show-grants pt-query-digest pt-summary pt-pmp
2.1 pt-archiver 归档表
    场景：
    面试题： 亿级的大表，delete批量删除100w左右数据。
    面试题： 定期按照时间范围，进行归档表。

    --limit 100 每次取100行数据用pt-archive处理
    --txn-size 100 设置100行为一个事务提交一次，
    --where 'id<3000' 设置操作条件
    --progress 5000 每处理5000行输出一次处理信息
    -statistics 输出执行过程及最后的操作统计。（只要不加上--quiet，默认情况下pt- archive都会输出执行过程的）
    --charset=UTF8 指定字符集为UTF8—这个最后加上不然可能出现乱码。
    --bulk-delete 批量删除source上的旧数据(例如每次1000行的批量删除操作)
    注意: 需要归档表中至少有一个索引,做好是where条件列有索引

使用案例：
1.归档到数据库
db01 [test]>create table test1 like t100w;
pt-archiver --source h=10.0.0.51,D=test,t=t100w,u=oldguo,p=123 --desth=10.0.0.51,D=test,t=test1,u=oldguo,p=123 --where 'id<10000' --no-check-charset --no-delete --limit=1000 --commit-each --progress 1000 --statistics
还可以归档到其它数据库中，对应IP端口要对

2.只清理数据
pt-archiver --source h=10.0.0.51,P=3306,D=test,t=t100w,u=oldguo,p=123 --where 'id<10000' --purge --limit=1 --no-check-charset
3.只把数据导出到外部文件，但是不删除源表里的数据
pt-archiver --source h=10.0.0.51,D=world,t=city,u=root,p=123 --where '1=1' --no-check-charset --no-delete --file="/tmp/archiver.dat"

2.2 pt-osc
场景：
修改表结构、索引创建删除
不能加快速度，但能减少业务影响（锁）。
面试题 ：
pt-osc工作流程：
1、检查更改表是否有主键或唯一索引，是否有触发器
2、检查修改表的表结构，创建一个临时表，在新表上执行ALTER TABLE语句
create table bak like t1;
alter table bak add telnum char(11) not null;

3、在源表上创建三个触发器分别对于INSERT UPDATE DELETE操作
create trigger
a
b
c

4、从源表拷贝数据到临时表，在拷贝过程中，对源表的更新操作会写入到新建表中
insert into bak select * from t1

5、将临时表和源表rename（需要元数据修改锁，需要短时间锁表）
6、删除源表和触发器，完成表结构的修改。

pt-osc工具限制
1、源表必须有主键或唯一索引，如果没有工具将停止工作
2、如果线上的复制环境过滤器操作过于复杂，工具将无法工作
3、如果开启复制延迟检查，但主从延迟时，工具将暂停数据拷贝工作
4、如果开启主服务器负载检查，但主服务器负载较高时，工具将暂停操作
5、当表使用外键时，如果未使用--alter-foreign-keys-method参数，工具将无法执行
6、只支持Innodb存储引擎表，且要求服务器上有该表1倍以上的空闲空间。

pt-osc之alter语句限制
1、不需要包含alter table关键字，可以包含多个修改操作，使用逗号分开，如"drop clolumn c1, add column c2 int"
2、不支持rename语句来对表进行重命名操作
3、不支持对索引进行重命名操作
4、如果删除外键，需要对外键名加下划线，如删除外键fk_uid, 修改语句为"DROP FOREIGN KEY_fk_uid"

pt-osc之命令模板
    --execute表示执行
    --dry-run表示只进行模拟测试
表名只能使用参数t来设置，没有长参数

pt-online-schema-change \
--host="127.0.0.1" \
--port=3358 \
--user="root" \
--password="root@root" \
--charset="utf8" \
--max-lag=10 \
--check-salve-lag='xxx.xxx.xxx.xxx' \
--recursion-method="hosts" \
--check-interval=2 \
--database="testdb1" \
t="tb001" \
--alter="add column c4 int" \
--execute

例子：
pt-online-schema-change --user=oldguo --password=123 --host=10.0.0.51 --alter "add column state int not null default 1" D=test,t=t100w --print --execute

pt-online-schema-change --user=oldguo --password=123 --host=10.0.0.51 --alter "add index idx(num)" D=test,t=t100w --print --execute

2.3 pt-table-checksum
场景： 校验主从数据一致性

2.3.1 创建数据库
Create database pt CHARACTER SET utf8;
创建用户checksum并授权
GRANT ALL ON . TO 'checksum'@'10.0.0.%' IDENTIFIED BY 'checksum';
flush privileges;

2.3.2 参数:
--[no]check-replication-filters：是否检查复制的过滤器，默认是yes，建议启用不检查模式。
--databases | -d：指定需要被检查的数据库，多个库之间可以用逗号分隔。
--[no]check-binlog-format：是否检查binlog文件的格式，默认值yes。建议开启不检查。因为在默认
的row格式下会出错。
--replicate`：把checksum的信息写入到指定表中。
--replicate-check-only：只显示不同步信息
pt-table-checksum --nocheck-replication-filters --no-check-binlog-format --replicate=pt.checksums --create-replicate-table --databases=test --tables=t1
h=10.0.0.51,u=checksum,p=checksum,P=3306

#!/bin/bash
date >> /root/db/checksum.log
pt-table-checksum --nocheck-binlog-format --nocheck-plan --nocheck-replication-filters --replicate=pt.checksums --set-vars innodb_lock_wait_timeout=120 --databases test --tables t1 -
u'checksum' -p'checksum' -h'10.0.0.51' >> /tmp/checksum.log
date >> /root/db/checksum.log


2.4 pt-table-sync
主要参数介绍
--replicate ：指定通过pt-table-checksum得到的表.
--databases : 指定执行同步的数据库。
--tables ：指定执行同步的表，多个用逗号隔开。
--sync-to-master ：指定一个DSN，即从的IP，他会通过show processlist或show slave status 去自动
的找主。
h= ：服务器地址，命令里有2个ip，第一次出现的是Master的地址，第2次是Slave的地址。
u= ：帐号。
p= ：密码。
--print ：打印，但不执行命令。
--execute ：执行命令。

pt-table-sync --replicate=pt.checksums --databases test --tables t1
h=10.0.0.51,u=checksum,p=checksum,P=3306 h=10.0.0.52,u=checksum,p=checksum,P=3306 --print

pt-table-sync --replicate=pt.checksums --databases test --tables t1
h=10.0.0.51,u=checksum,p=checksum,P=3306 h=10.0.0.52,u=checksum,p=checksum,P=3306 --execute

2.5 pt-duplicate-key-checker
作用：检查数据库重复索引
pt-duplicate-key-checker --database=test h='10.0.0.51' --user=oldguo --password=123

2.6 pt-kill 语句
场景： 无法正常kill的连接。

常用参数说明
--daemonize 放在后台以守护进程的形式运行；
--interval 多久运行一次，单位可以是s,m,h，d等默认是s –不加这个默认是5秒
--victims 默认是oldest,只杀最古老的查询。这是防止被查杀是不是真的长时间运行的查询，他们只是长期等待 这种种匹配按时间查询，杀死一个时间最高值。
--all 杀掉所有满足的线程
--kill-query 只杀掉连接执行的语句，但是线程不会被终止
--print 打印满足条件的语句
--busy-time 批次查询已运行的时间超过这个时间的线程；
--idle-time 杀掉sleep 空闲了多少时间的连接线程，必须在--match-command sleep时才有效—也就是匹配使用 -- –match-command 匹配相关的语句。
----ignore-command 忽略相关的匹配。 这两个搭配使用一定是ignore-commandd在前 match-
command在后，
--match-db cdelzone 匹配哪个库
command有：Query、Sleep、Binlog Dump、Connect、Delayed insert、Execute、Fetch、InitDB、Kill、Prepare、Processlist、Quit、Reset stmt、Table Dump

例子：
杀掉空闲链接sleep 5秒的 SQL 并把日志放到/home/pt-kill.log文
件中
/usr/bin/pt-kill --user=用户名 --password=密码 --match-command Sleep --idle-time 5 --victim all --interval 5 --kill --daemonize -S /tmp/mysql.sock --pid=/tmp/ptkill.pid --print --log=/tmp/pt-kill.log &

查询SELECT 超过1分钟
/usr/bin/pt-kill --user=用户名 --password=密码 --busy-time 60 --match-info "SELECT|select" --victim all --interval 5 --kill --daemonize -S -S /tmp/mysql.sock --pid=/tmp/ptkill.pid --print --log=/tmp/pt-kill.log &

Kill掉 select IFNULl.*语句开头的SQL
pt-kill --user=用户名 --password=密码 --victims all --busy-time=0 --match-info="select IFNULl.*" --interval 1 -S /tmp/mysqld.sock --kill --daemonize --pid=/tmp/ptkill.pid --print --log=/tmp/pt-kill.log&

kill掉state Locked
/usr/bin/pt-kill --user=用户名 --password=密码 --victims all --match-state='Locked' --victim all --interval 5 --kill --daemonize -S /tmp/mysqld.sock --pid=/tmp/ptkill.pid --print --log=/tmp/pt-kill.log &

kill掉 a库，web为10.0.0.11的链接
pt-kill --user=用户名 --password=密码 --victims all --match-db='a' --match-host='10.0.0.11' --kill --daemonize --interval 10 -S /tmp/mysqld.sock --pid=/tmp/ptkill.pid --print-log=/tmp/pt-kill.log &

指定哪个用户kill
pt-kill --user=用户名 --password=密码 --victims all --match-user='root' --kill --daemonize --interval 10 -S /home/zb/data/my6006/socket/mysqld.sock --pid=/tmp/ptkill.pid --print --log=/home/pt-kill.log &

kill掉 command query | Execute
pt-kill --user=用户名 --password=密码 --victims all --match-command= "query|Execute" --interval 5 --kill --daemonize -S /tmp/mysqld.sock --pid=/tmp/ptkill.pid --print --log=/home/pt-kill.log &

7. 显示主从结构监控：pt-slave-find
[root@db01 tmp]# pt-slave-find -h10.0.0.51 -P3306 -uchecksum -pchecksum
10.0.0.51
Version 5.7.28-log
Server ID 51
Uptime 27:57 (started 2020-05-15T13:24:15)
Replication Is not a slave, has 1 slaves connected, is not read_only
Filters
Binary logging ROW
Slave status
Slave mode STRICT
Auto-increment increment 1, offset 1
InnoDB version 5.7.28
+- 10.0.0.52
Version 5.7.28-log
Server ID 52
Uptime 28:18 (started 2020-05-15T13:23:54)
Replication Is a slave, has 0 slaves connected, is not read_only
Filters
Binary logging ROW
Slave status 0 seconds behind, running, no errors
Slave mode STRICT
Auto-increment increment 1, offset 1
InnoDB version 5.7.28

8.监控主从延时pt-heartbeat，8.0版本自带功能
主库：
pt-heartbeat --user=oldguo --ask-pass --host=10.0.0.51 --port=3306 --create-table -D test --interval=1 --update --replace --daemonize

从库：
pt-heartbeat --user=oldguo --ask-pass --host=10.0.0.52 --port=3306 -D test --table=heartbeat --monitor

9.pt-show-grants 
作用: 用户和权限信息迁移

pt-show-grants -h10.0.0.51 -P3306 -uchecksum -pchecksum
-- Grants dumped by pt-show-grants
-- Dumped from server 10.0.0.51 via TCP/IP, MySQL 5.7.28-log at 2020-05-15 17:11:06 -- Grants for 'checksum'@'10.0.0.%'

CREATE USER IF NOT EXISTS 'checksum'@'10.0.0.%';

ALTER USER 'checksum'@'10.0.0.%' IDENTIFIED WITH 'mysql_native_password' AS '*E5E390AF1BDF241B51D9C0DBBEA262CC9407A2DF' REQUIRE NONE PASSWORD EXPIRE DEFAULT ACCOUNT UNLOCK;
GRANT ALL PRIVILEGES ON . TO 'checksum'@'10.0.0.%'

-- Grants for 'mysql.session'@'localhost'
CREATE USER IF NOT EXISTS 'mysql.session'@'localhost';
ALTER USER 'mysql.session'@'localhost' IDENTIFIED WITH 'mysql_native_password' AS 'THISISNOTAVALIDPASSWORDTHATCANBEUSEDHERE' REQUIRE NONE PASSWORD EXPIRE DEFAULT ACCOUNT LOCK;

GRANT SELECT ON  mysql . user TO 'mysql.session'@'localhost';
GRANT SELECT ON  performance_schema . TO 'mysql.session'@'localhost';
GRANT SUPER ON . TO 'mysql.session'@'localhost';

-- Grants for 'mysql.sys'@'localhost'
CREATE USER IF NOT EXISTS 'mysql.sys'@'localhost';
ALTER USER 'mysql.sys'@'localhost' IDENTIFIED WITH 'mysql_native_password' AS 'THISISNOTAVALIDPASSWORDTHATCANBEUSEDHERE' REQUIRE NONE PASSWORD EXPIRE DEFAULT ACCOUNT LOCK;

GRANT SELECT ON  sys . sys_config TO 'mysql.sys'@'localhost';
GRANT TRIGGER ON  sys . TO 'mysql.sys'@'localhost';
GRANT USAGE ON . TO 'mysql.sys'@'localhost';

-- Grants for 'repl'@'10.0.0.%'
CREATE USER IF NOT EXISTS 'repl'@'10.0.0.%';
ALTER USER 'repl'@'10.0.0.%' IDENTIFIED WITH 'mysql_native_password' AS '*23AE809DDACAF96AF0FD78ED04B6A265E05AA257' REQUIRE NONE PASSWORD EXPIRE
DEFAULT ACCOUNT UNLOCK;
GRANT REPLICATION SLAVE ON . TO 'repl'@'10.0.0.%';

-- Grants for 'root'@'10.0.0.%'
CREATE USER IF NOT EXISTS 'root'@'10.0.0.%';
ALTER USER 'root'@'10.0.0.%' IDENTIFIED WITH 'mysql_native_password' AS '*23AE809DDACAF96AF0FD78ED04B6A265E05AA257' REQUIRE NONE PASSWORD EXPIRE
DEFAULT ACCOUNT UNLOCK;
GRANT ALL PRIVILEGES ON . TO 'root'@'10.0.0.%';

-- Grants for 'root'@'localhost'
CREATE USER IF NOT EXISTS 'root'@'localhost';
ALTER USER 'root'@'localhost' IDENTIFIED WITH 'mysql_native_password' AS '*23AE809DDACAF96AF0FD78ED04B6A265E05AA257' REQUIRE NONE PASSWORD EXPIRE
DEFAULT ACCOUNT UNLOCK;
GRANT ALL PRIVILEGES ON . TO 'root'@'localhost' WITH GRANT OPTION;
GRANT PROXY ON ''@'' TO 'root'@'localhost' WITH GRANT OPTION;

标签：10.0,log,pt,--,kill,mysql,优化
From： https://www.cnblogs.com/yangmeichong/p/18219998

mysql优化