前言

在之前的月报 RDS 只读实例延迟分析 中,我们介绍了一些常见的备库延迟的场景,今天给大家分享一个比较少见的特殊场景。

简单的来说,就是在 UK 索引中存在大量 NULL 值情况下,如果备库选用这个 UK 来同步更新,会导致非常大的延迟。

背景知识

UK 中有大量 NULL 值,第一次看到这个可能会觉得有点奇怪,但是这确实是允许的,官方文档写的非常清楚:

A UNIQUE index creates a constraint such that all values in the index must be distinct. An error occurs if you try to add a new row with a key value that matches an existing row. For all engines, a UNIQUE index permits multiple NULL values for columns that can contain NULL.

同时这个也是SQL92标准定义的:

A unique constraint is satisfied if and only if no two rows in a table have the same non-null values in the unique columns. In addition, if the unique constraint was defined with PRIMARY KEY, then it requires that none of the values in the specified column or columns be the null value.

关于这个问题,官方bug list 也有激烈的讨论: Bug #8173 unique index allows duplicates with null values,有的人认为是 feature,有的人认为是 bug。

NULL 和 NULL 是不一样的,我们可以将 NULL 理解为未知,虽然现在不知道,但它未来有很多可能性,只是我们现在还不知道而已。

MySQL 对于 NULL 也有专门的处理,例如比较运算符,以及一些函数在 NULL 上是失效的,结果可能出乎意料,详细情况可以参考官方文档 Working with NULL Values 和 Problems with NULL Values。

问题描述

介绍完背景知识,我们来看下具体问题吧。问题来源于真实用户 case,下面的表结结构和数据是为了说明方便特殊构造的。

表结构如下:

ds_logs_uk
Create Table: CREATE TABLE `rds_logs_uk` (`id` bigint(20) NOT NULL,`ins_name` varchar(32) NOT NULL DEFAULT 'ins',`ins_uuid` varchar(36) DEFAULT NULL,UNIQUE KEY `idx_uuid` (`ins_uuid`),KEY `idx_name` (`ins_name`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8

可以看到 UK 的 column 是允许 NULL的,我们看下数据分布情况:

mysql> select count(*) from rds_logs_uk where ins_uuid is NULL;
+----------+
| count(*) |
+----------+
| 24549655 |
+----------+mysql>  select count(ins_uuid) from rds_logs_uk where ins_uuid is not NULL;
+-----------------+
| count(ins_uuid) |
+-----------------+
|        20505406 |
+-----------------+

可以看到 NULL 基本占了一半多。

我们用脚本在主库上,每隔 1s 执行下面的 SQL:

delete from rds_logs_uk where ins_name >= '888' and ins_name <= '899' and ins_uuid is NULL limit 1;

然后监控主备的 InnoDB rows 统计信息:

可以看到备库在做大量的查询,还没有删到一条记录,这就导致了备库延迟。

问题分析

为什么会差别这么大呢,我们在主库只删除一条记录,扫了317行,但是到了备库后,扫了很多行,连一条匹配的记录都没找到,一个比较可能的解释是走的索引不一样了。主库上 explain 的结果如下:

主库用了 idx_name 这个普通二级索引,而没有用UK,因为主库优化器算出来,走 UK 的代价更大。

从上面的现象,我们可以大致推出,备库跑的更慢,是因为备库在同步更新时,用错了索引,用 UK 来更新。
为什么会选错索引呢,在 ROW 格式下,备库在同步更新时,索引的选择是基于简单规则的,没有走优化器的代价模型,规则如下:

  1. PK
  2. UK without NULL
  3. other keys(include UK with NULL)
  4. table_scan

从1到4,优先级依次递减,在选择时,只要有索引满足规则,就选择这个索引,并不再往下找了。具体的逻辑在 sql/log_event.cc:search_key_in_table() 中,大家可以自己看下代码,这里就不在贴了。

按照我们的表结构,是会用第3条规则来选出索引的,按索引的先后顺序,遍历一遍,找到第一个可用的。什么样的索引是可用呢,只要索引对应的字段,在 event row 中存在,就是可用的,而我们的 binlog_row_image = FULL,这样每一个索引都是用到的,而 UK 是排在普通二级索引前面的,所以就选了 UK。做删除时,需要先查到和 delete image 匹配的记录,然后再删除。用NULL值在UK上扫描,虽然 NULL 和 NULL 值是不一样的,但是在实现表示上都是一样的,也就是说所有的 NULL 在索引在是排列在一起的,这样通过在 UK 查找很多 NULL 然后回表拿到全字段记录,发现和 delete image 中记录不匹配,最终导致在找到匹配记录前,扫描了大量的NULL。

为什么这里没用优化器的代码计算呢,小编认为有正面的原因,也有反面的原因:

正面来看,因为在 row 格式 full image 下,相当于 where 条件所有字段都有的,PK/UK 这种索引如果有是肯定能用上的,而通常都会有PK的。

反面来看,因为每个 row 都做一次代价评估,太不划算了。。。主库上一条 SQL 可能更新了 n 条记录,只需要做一次代价计算,而备库在同步row binlog 时,每个 row 都要做一次代价计算,这样代价计算的成本,就会非常高。

问题解决

如果遇到这种情况,怎么解呢?解法有多种,目的都是一样,让备库不选择 UK 来做同步。

  1. 加法:在备库加一个比当前 UK 更好的索引,需要更好的UK和PK,不能是普通二级索引,因为普通二级索引,是排在UK后面的,不会被选择。
  2. 减法:直接 drop 掉 UK,在做读写分离的备库上,不建议这么做,因为可能影响业务的查询。
  3. 比 2 轻量一点,用 Invisible Index 特性。MySQL 官方 8.0 和 AliSQL 都支持 Invisible Index,我们可以在备库上把 UK 临时改成 Invisible,等备库同步完后,再改回 Visible。不过我们在实际测试中,发现这个方法不起作用,因为备库应用 row 时,根本不认 invisible 属性,这个已经跟官方提 bug#88847,AliSQL 在即将发布的新版本中,会 fix 掉这个问题,欢迎大家使用。

MySQL · 捉虫动态 · UK 包含 NULL 值备库延迟分析相关推荐

  1. mysql不等于条件不包含NULL值问题

    mysql不等于条件不包含NULL值问题 table表中,type为1(100条记录).2(50条记录).NULL(50条记录) 查询:select * form table where type & ...

  2. MySQL · 捉虫动态 · 并行复制外键约束问题二

    背景 并行复制可以大大提高备库的 binlog 应用速度,内核月报也多次对并行复制特性进行介绍,感兴趣的朋友可以回顾下:5.6 并行复制实现分析.5.6 并行复制恢复实现 和 5.6并行复制事件分发机 ...

  3. MySQL · 捉虫动态 · 信号处理机制分析

    背景 在 AliSQL 上面有人提交了一个 bug,在使用主备的时候 service stop mysql 不能关闭主库,一直显示 shutting down mysql -,到底怎么回事呢,先来看一 ...

  4. MySQL · 捉虫动态 · event_scheduler 慢日志记错

    问题背景 最近遇到了 event_scheduler 在记录慢日志时的一个 bug,在这里分享给大家. 为了方便描述问题,先构造一个简单的 event,如下: delimiter // create ...

  5. MySQL · 捉虫动态 · show binary logs 灵异事件

    问题背景 最近在运维 MySQL 中遇到一个神奇的问题,分享给大家.现象是这样的,show binary logs 没有返回结果,flush binary logs 后也不行, 但是 binlog 是 ...

  6. mysql 去掉日期.0_简单介绍MySQL数据库中日期中包含零值的问题

    下面小编就为大家带来一篇浅谈MySQL数据库中日期中包含零值的问题.小编觉得挺不错的,现在就分享给大家,也给大家做个参考.一起跟随小编过来看看吧 默认情况下MySQL是可以接受在日期中插入0值,对于现 ...

  7. MySQL中order by中关于NULL值的排序问题

    MySQL中order by 排序遇到NULL值的问题 MySQL数据库,在order by排序的时候,如果存在NULL值,那么NULL是最小的,ASC正序排序的话,NULL值是在最前面的. 如果我们 ...

  8. MySQL内核月报 2014.09-MySQL· 捉虫动态·auto_increment

    背景: Innodb引擎使用B_tree结构保存表数据,这样就需要一个唯一键表示每一行记录(比如二级索引记录引用). Innodb表定义中处理主键的逻辑是: 1.如果表定义了主键,就使用主键唯一定位一 ...

  9. mysql数据库表删了重建error_数据库内核月报 - 2015 / 09-MySQL · 捉虫动态 · 建表过程中crash造成重建表失败-阿里云开发者社区...

    问题描述 主库的create table语句传到备库,备库SQL线程执行过程中报错: Error 'Can't create table 'XXX.XX' (errno: -1)' on query. ...

最新文章

  1. 机器学习Basics-第十一期-循环神经网络RNN
  2. Linux 系统上出现^H
  3. 如何理解Mysql的索引及他们的原理--------二叉查找树和平衡二叉树和B树和B+树
  4. mysql学习笔记03 mysql数据类型
  5. C语言 判断两个字符串大小相等关系
  6. Memcached:高性能的分布式内存缓存服务器
  7. 从博客专栏想到的数据分析
  8. 基于asp.net317员工出差企业差旅管理系统
  9. QTTabBar 「资源管理器」让你的文件夹拥有浏览器标签页般的体验
  10. Django 项目部署
  11. html页面js跨域获取json数据,JS跨域获得Json的应用
  12. 木马开发的基本理论基础(四)
  13. Python 图像拼接
  14. Keil_V5 MDK编译时出现:关于core_cm3.c的错误
  15. HTML常用meta小结
  16. Windows 系统维护
  17. Excel和Python实现梯度下降法
  18. c语言double型小数点后几位小数,c语言double类型默认输出几位小数?
  19. STM32之独立看门狗
  20. 中心矩和原点矩_原点矩与中心矩.ppt

热门文章

  1. python import相对引用和绝对引用
  2. 2022全新萝卜影视系统APP源码+超好看金色UI版
  3. OLE时间和CTime时间相互转换
  4. 【小程序】tabbar用法
  5. 联想小新设置指纹登录
  6. 美颜sdk对直播平台有多重要?为什么需要接入直播美颜sdk?
  7. 程序员转正述职报告/总结
  8. 视觉-惯性SLAM入门与实践教程(基于VINS-Fusion)
  9. android表情符号使用,android评论输入表情符号
  10. 结构光N步相移+多频外差法之解相位:三频四相