前言

当MySQL数据库架构使用主从时，由于事务创建和提交的顺序并不一致。例如我们先创建A事务，在创建B事务，但我们在提交的时候可能先提交B事务，在提交A事务。此时我们从服务在重放二进制日志时，会先执行B，再执行A。这样就会导致最终主从数据不一致。在一些对数据一致性要求高的场景下，我们就需要检测主从数据的一致性。接下来我们将会介绍percona工具包中的pt-table-checksum做一致性检测，以及pt-table-sync同步数据。

一. 部署percona tookit

下载安装包
~]# wget https://www.percona.com/downloads/percona-toolkit/3.0.5/binary/redhat/7/x86_64/percona-toolkit-3.0.5-1.el7.x86_64.rpm
安装
~]# yum install percona-toolkit-3.0.5-1.el7.x86_64.rpm

二. 一致性检测工具pt-table-checksum

1. 一致性检测原理

pt-table-checksum是percona-toolkit系列工具中的一个，用于检测主从数据库中的一致性。一次只工作在一张表上，会将主库上的表切割成一个一个的chunk，这种切割要依赖于表上的index。所以在检测时不需要大量的内存和前期工作，而且还可以在数据尖峰是通过指数衰减算法，快速选择适合的chunk大小，减轻服务器压力。将表切割成一个一个的chunk接下来会对chunk进行checksum，并记录下来。并对比从库上的checksum是否一致，从而判断数据是否一致。并且在检测过程中会自动判断master负载，以及slave延迟，一旦超过阈值就会停止下来。对于线上的环境影响不大。而且他还可以随时停止，只需在重启时加入--resume就会从上次的检测重新开始。接下来介绍其详细过程。

1) 表结构的检查

表结构的检查也称之为单行数据checksum值的计算，并获取每一列的数据类型，把所有数据类型都转化为字符串，然后用concat_ws()函数进行连接，由此计算出该行的checksum值。checksum默认采用crc32计算。

2) 数据块checksum的计算

pt-table-sync会智能分析表上的索引，然后把表的数据split成若干个chunk，计算的时候以chunk为单位。可以理解为把chunk内所有行的数据拼接起来，再计算crc32的值，即得到该chunk的checksum值。所以它把checksum结果存储到统计表，然后把执行过的sql语句记录到binlog中，任务就算完成。然后从服务器会读取到binlog的SQL语句依次执行，并将checksum保存在表中。

2. 校验

1）授权

Create database pt CHARACTER SET utf8;
GRANT UPDATE,INSERT,DELETE,SELECT, PROCESS, SUPER, REPLICATION SLAVE ON . TO 'checksums'@'192.168.239.135' identified by 'check_pass';
GRANT ALL ON pt.* TO 'checksums'@'192.168.%';
在这里我们创建了一个数据库，用于存储一致性检测生成的数据。主从同步工具pt-table-sync根据此数据库中的数据查找有不一致的数据，并同步。其中135为主，136为从。

2）校验（Master服务器运行）

pt-table-checksum --nocheck-binlog-format --nocheck-plan --nocheck-replication-filters --replicate=pt.checksums --set-vars innodb_lock_wait_timeout=120 --databases newtable -u'checksums' -p'checksums' -h192.168.239.135
#-h -u -p -P -S -d 连接信息
#--nocheck-replication-filters 检测中忽略mysql 配置参数binlog_ignore_db等。
#--nocheck-binlog-format 不检测日志格式，默认是使用statement 格式，如果binlog的日志与默认不同将会检测失败。所以我们会关闭binlog格式的检测
#--replicate 指定checksum 存储的db和表，如test.checksum
#--chunk-size， --chunk-size-limit 用于指定检测块的大小。可控性更强，Number of rows to select for each checksum query。默认是1000。对于--chunk-size-limit来说，他可以避免当主服务器为空，而从服务数据很大时造成的从延时过大。
#--lock-wait-timeout innodb 锁的超时设定，默认为1
#--max-load ： Examine SHOW GLOBAL STATUS after every chunk, and pause if any status variables are higher than their thresholds
#--replicate-check-only 只输出数据不一致的信息。
#--resume: pt-table-checksum停止后，使用此参数可以接着停止的地方开始。

注意：
pt-table-checksum前提假设主从的表和表结构是一致的，如果不一致pt-table-checksum会失败

三. 数据同步工具pt-table-sync

pt-table-sync是MySQL数据同步工具，并不仅仅是同步主从数据，任意主机上的表都可以同步。
pt-table-checksum只是校验，所以它把checksum结果存储到统计表，然后把执行过的sql语句记录到binlog中，任务就算完成。
pt-table-sync则不同，工作流程如下：

a) 连接到主库：pt工具连接到主库，然后自动发现主库的所有从库。默认采用show full processlist来查找从库，但是这只有在主从实例端口相同的情况下才有效
b) 在主库上对每一个chunk，在校验时加上for update锁。一旦获得锁，就记录下当前主库的show master status值。在从库上执行select master_pos_wait()函数，等待从库sql线程执行到show master status得到的位置。以此保证，主从上关于这个chunk的内容均不再改变。
c) 对这个chunk执行checksum，然后与主库的checksum进行比较
d) 如果checksum相同，说明主从数据一致，就继续下一个chunk
e) 如果checksum不同，说明该chunk有不一致。深入chunk内部，逐行计算checksum并比较
f) 如果发现某行不一致，则标记下来。继续检测剩余行，直到这个chunk结束
g) 对找到的主从不一致的行，采用replace into(如果数据不存在则插入,存在则更新,避免了主键约束)语句，在主库执行一遍以生成该行全量的binlog,并同步到从库，这会以主库数据为基准来修复从库;对于主库有的行而从库没有的行，采用replace在主库上插入(必须不能是insert);于从库有而主库没有的行,通过在主库执行delete来删除(pt-table-sync强烈建议所有的数据修复都只在主库进行,而不建议直接修改从库数据;但是也有特例，后面会讲到)。
h) 直到修复该chunk所有不一致的行。继续检查和修复下一个chunk
i) 直到这个从库上所有的表修复结束。开始修复下一个从库

四. 实验示例

1. 实验环境

主机IP : 192.168.239.135 192.168.239.136
主机系统 : centos7.2
MySQL版本 : 5.5.56
两台主机已经配置好主从，其中135为主，136为从

2. 主从数据一致性检查

1）授权（master主机上）
mysql> CREATE DATABASE pt; #创建数据库pt用于存放checksum的值
mysql> GRANT UPDATE,INSERT,SELECT,PROCESS,SUPER,REPLICATION SLAVE ON . 'checksum'@'192.168.%' IDENTIFIED BY "check_pass"; #创建checksum用户用于执行检测，以及分配检测时要用的权限。
mysql> GRANT ALL ON pt.* TO checksum@'192.168.%'; #checksum用户要将checksum的值写入pt数据库中所以需要分配权限给checksum用户。
权限解释：
```
select     //查看所有库的表,原理可加 explain选项查看
process    //show processlist
super      //set binlog_format='statement'
replication slave   //show slave hosts
```
注意 : 在master上执行一致性检测时，master会通过show processlist查看slave主机，并通过连接master的账号和密码连接slave，所以master上一致性检测的账号在slave上一定要有。
2）在master上执行一致性检测
首先我们需要人为创造不一致，在slave中删除一条记录

执行一致性检测（主从上都可执行）
~]# pt-table-checksum --nocheck-binlog-format --nocheck-plan --nocheck-replication-filters --replicate=pt.checksums --databases=hellodb -u 'checksum' -p 'check_pass' -h 192.168.239.135
```
                   TS ERRORS  DIFFS     ROWS  CHUNKS SKIPPED    TIME TABLE
03-14T16:25:21               0      1                  8              1       0           0.011 hellodb.classes
03-14T16:25:21               0      0                 14             1       0           0.017 hellodb.coc
03-14T16:25:21               0      0                 7               1       0           0.032 hellodb.courses
03-14T16:25:21               0      0                15              1       0          0.015 hellodb.scores
03-14T16:25:21               0      0                25              1       0          0.016 hellodb.students
03-14T16:25:21               0      0                4                1       0          0.018 hellodb.teachers
03-14T16:25:21               0      0                0                1       0          0.016 hellodb.toc
```
显示数据解释
TS : 完成检测表时的时间，不显示年份。
ERRORS : 在checksum时发生的错误和警告的次数
DIFFS : 主从之间chunk不同的个数，如果不为0，表明主从数据有不一致的。
ROWS : 检测表时一个chunk有多少行。如果使用了-where选项，一个表中的chunk可能不同
CHUNKS : 表被切割成了多少个chunk
SKIPPED : 由于某种原因跳过检测chunk的数量
TIME : checksum此表所花的时间。
TABLE : 被checksum的表明
由上可知classes表中有数据不一致。

3. 主从同步

主从实现同步，往往都是借助pt-table-checksum产生的checksum表来说实现数据同步。

1）手动同步

~]# pt-table-sync --print --sync-to-master h=192.168.239.136,u=checksum,p=check_pass --databases=hellodb --replicate=pt.checksums
h=192.168.239.136,u=checksum,p=check_pass 指明需要同步的slave主机，以及登录的用户名和密码
--databases=hellodb：指明同步的数据
--replicate=pt.checksums：同步时使用的checksum数据库。
--sync-to-master：会通过show slave status去自动找主服务器同步数据，如果没有此参数，我们需要通过h p u同时指明master和slave，即两组h p u。
--print：主从不同的数据仅打印出来，并不在从上执行。
此命令在主从上都可执行。输出信息如下：

我们只需在从服务器上执行REPLACE INTO hellodb.classes(classid, class, numofstu) VALUES ('1', 'Shaolin Pai', '10')这条sql语句即可

2）自动同步

~]# pt-table-sync --execute --sync-to-master h=192.168.239.136,u=checksum,p=check_pass --databases=hellodb --replicate=pt.checksums
--execute：自动修复主从不同的数据
自动同步出现如下错误：

pt-table-sync在实现同时时并不会直接在slave上进行操作，都是在master上执行命令，进而影响slave，这种修改数据的方式更加安全。所以master需要在slave上有对应的权限。
上图显示master在slave上没有delete权限，查看slave分配的权限，如下图可知确实没有delete权限，只需在master上将checksum用户添加delete权限即可

在master上修改checksum的权限，由于主从同步，slave也会修改对应用户权限

mysql GRANT UPDATE,INSERT,SELECT,DELETE,PROCESS,SUPER,REPLICATION SLAVE ON . TO 'checksum'@'192.168.%';

执行数据同步，再次执行checksum检测，可以看到没有不同，而且查看slave中classes数据发现删除的数据又出现了

参考

https://www.percona.com/doc/percona-toolkit/3.0/pt-table-sync.html
https://www.percona.com/doc/percona-toolkit/3.0/pt-table-checksum.html

转载于:https://blog.51cto.com/13589448/2086866

MySQL之一致性检测及数据同步相关推荐

Canal监听mysql的binlog日志实现数据同步
Canal监听mysql的binlog日志实现数据同步 1. canal概述 1.1 canal简介 1.2 技术选型 1.3 原理分析 1.3.1 MySQL主备复制原理 1.3.2 canal原理 ...
MySQL 到 SQL Server 实时数据同步实操分享
摘要:很多 DBA 和开发同学经常会遇到要从一个数据库实时同步到另一个数据库的问题,同构数据还相对容易,遇上异构数据.表多.数据量大等情况就难以同步.最近了解到一款实时数据同步工具 Tapdata C ...
美团外卖MySQL数据库_美团DB数据同步到数据仓库的架构与实践
背景在数据仓库建模中,未经任何加工处理的原始业务层数据,我们称之为ODS(Operational Data Store)数据.在互联网企业中,常见的ODS数据有业务日志数据(Log)和业务DB数据( ...
mysql binlog查看工具_数据同步工具otter（一）谈谈binlog和canal
之前因为懒,没有针对otter做更多的解释和说明,在使用过程中,也发现了一些问题,此次补上一个完整的文档,方便大家使用. Otter是基于cannal开源的,canal又是基于mysql binlog ...
这款 MySQL、Oracle、HDFS 数据同步工具，有点牛逼！
点击上方"Java基基",选择"设为星标" 做积极的人,而不是积极废人! 每天 14:00 更新文章,每天掉亿点点头发... 源码精品专栏原创 | Java ...
mysql两个数据库表数据同步_php同步mysql两个数据库中表的数据
分别创建两个数据库和两张表 study库-zone表 teaching库-area表 //****SQL脚本****// 1.创建teaching数据库area数据表 create database ...
实时监控Mysql数据库变化_进行数据同步_了解Canal_---Canal工作笔记001
1.Canal是阿里巴巴旗下的一款开源项目,纯Java开发. 2.由来:阿里巴巴B2B公司,因为业务的特性,卖家主要集中在国内,买家主要集中在国外,所以衍生出了杭州和美国异地机房的需求,从2010年开 ...
gearman mysql redis_gearman redis mysql 数据同步
一.mysql数据库操作: [root@localhost html]# mysql -u root -p mysql> create database mytest; mysql> CR ...
canal+Kafka实现mysql与redis数据同步
前言上篇文章简单介绍canal概念,本文结合常见的缓存业务去讲解canal使用.在实际开发过程中,通常都会把数据往redis缓存中保存一份,做下简单的查询优化.如果这时候数据库数据发生变更操作,就不 ...

MySQL之一致性检测及数据同步

前言