个人不是很喜欢在技术上跟人互喷,尤其是不在同一个岗位上的人。一方面本人的性格如此,另一方面,我自身的口水也确实是不行,人生经历了第一次的双11洗礼,在大促的环境下,总算知道了有些东西是否应该规避,这次的大促中,因为读库的延时,导致了主从这块的延时差异几乎持续了6个小时,这个也确实是跟我经验有关系。虽然对方的话语还是有点难听,但自己没有很清晰的对这个主从延时进行剖析,就是自己的问题,在阿里的论坛上看到对只读延时的剖析,觉得写的很好,分享出来,同时在这里做了一下对应的排版,希望遇到这问题的人,可以有所明白,也希望能看到这篇文章的人,能有所收获,IT道路本身就容易受到委屈,受到委屈了没有关系,做好自己的事情先。

原文分享--个人经过排版了一下

只读实例是目前RDS用户实现数据读写分离的一种常见架构,用户只需要将业务中的读请求分担到只读节点上,就可以缓解主库查询压力,同时也可以把一些OLAP的分析查询放到另外的只读节点上,减小复杂统计查询对主库的冲击,RDS只读节点架构图如下:

由于RDS只读节点采用原生的MySQL Binlog复制技术,那么延迟必然会成为他成立之初就会存在的问题。延迟会导致只读节点与主库的数据出现不一致,进而可能造成业务上逻辑的混乱或者数据不正确;另外只读实例延迟同样也会触发binlog堆积,导致只读实例的空间迅速消耗完,这样会导致只读实例被锁定,锁定之后应用则无法完成读操作。 
 
 
最近也收到了很多用户关于只读实例延迟的问题反馈,下面将会分析RDS只读实例出现延迟的几种常见场景,希望能够帮助用户理解和处理只读节点的延迟,更好地使用只读节点:

一.只读节点规格过小(10%)
二.主库的TPS过高(20%)
三.主库的DDL(alter、drop、repair)(40%)
四.主库大事务(insert..select)(20%)
五.其他(无主键,主机压力)(10%) 

数据图:

--------------------------------------------------------------------------------------------------------------------------------------------------------------------

只读实例延迟场景一:只读实例规格配置过小导致slave延迟,这类延迟场景的出现往往主节点购买的一个非常大规格的配置,而只读节点却购买了一个最小规格的配置(240M内存/150 IOPS)。 
分析:只读节点的数据为了和主节点保持同步,采用了MySQL原生的binlog复制技术,由一个IO线程和一个SQL线程来完成,IO线程负责将主库的binlog拉取到只读节点,SQL线程负责消费这些binlog日志,这两个线程会消耗掉只读节点的IO资源,所以当只读节点IOPS配置不够的时候,则会导致只读节点的数据出现延迟:

可以通过只读节点性能监控来判断是否已经达到只读实例的资源配额:

所以当这样的延迟情况的发生的时候,需要用户升级只读实例的规格(可以参考主库此时的IOPS的消耗情况),防止由于只读实例的规格较小导致了数据延迟。最佳实践:只读实例节点的配置大于或者等于主节点的配置;

这里补充一下:

mysql的主从复制都是单线程的操作,主库对所有DDL和 DML产生binlog,binlog是顺序写,所以效率很高,slave的Slave_IO_Running线程到主库取日志,效率很比较高,下一步, 问题来了,slave的Slave_SQL_Running线程将主库的DDL和DML操作在slave实施。DML和DDL的IO操作是随即的,不是顺 序的,成本高很多,还可能可slave上的其他查询产生lock争用,由于Slave_SQL_Running也是单线程的,所以一个DDL卡主了,需要 执行10分钟,那么所有之后的DDL会等待这个DDL执行完才会继续执行,这就导致了延时。有朋友会问:“主库上那个相同的DDL也需要执行10分,为什 么slave会延时?”,答案是master可以并发,Slave_SQL_Running线程却不可以。

--------------------------------------------------------------------------------------------------------------------------------------------------------------------

只读实例延迟场景二:主库的TPS(insert,update,delete)过高导致只读节点延迟,这一类的延迟也是非常常见的延迟,由于只读节点与主库的同步采用的是单线程同步,而主库的压力是并发多线程写入,这样势必会导致只读节点的数据延迟,可以通过观察只读节点的TPS与主节点的TPS性能数据来完成判断: 
主库的TPS性能数据:

只读节点的TPS性能数据:

针对这样场景的延迟,开启只读节点的并行复制是解决这一问题的根本方法,但目前RDS线上还没有大规模的使用,所以用户需要排查主库的这些写入压力是否正常,如果正常则需要对业务进行优化或者拆分,保证主库的TPS不会导致slave出现延迟。

--------------------------------------------------------------------------------------------------------------------------------------------------------------------

只读实例延迟场景三:主库的DDL(alter、drop、repair、create)导致只读节点延迟,这种延迟是非常常见的延迟, 可以分为两类: 
第一类:只读节点与主库的数据同步是串行进行的,如果DDL操作在主库执行时间很长,那么同样在备库也会消耗同样的时间,比如在主库对一张500W的表添加一个字段耗费了10分钟,那么在只读节点上也同样会耗费10分钟,所以只读节点会延迟600S,其他常见操作比如create index,repair table,alter table add column; 
范例:只读节点出现延迟

主库备库同样出现延迟:

查看主库这这一段时间是否存在DDL,发现主库在添加索引:

第二类:由于只读节点上会有用户的查询在上面运行,所以如果只读节点上有一个执行时间非常长的的查询正在执行,那么这个查询会堵塞来自主库的DDL,直到查询结束为止,进而导致了只读节点的数据延迟。在只读节点上可以通过执行show processlist命令查看连接的状态处于: Waiting for table metadata lock

为什么要标红这个,因为,这个就是他妈的坑货害的我主从延时这么大的根本原因,而我经验的问题,却没有在当时的情况下,通过processlist查看是否有metadata lock,经验问题,希望看到此处的朋友,能用心记一下

这个时候只需要kill掉只读节点上的大查询就可以恢复只读节点与主节点的数据同步。

--------------------------------------------------------------------------------------------------------------------------------------------------------------------

只读实例延迟场景四:主库执行大事务大事务导致延迟,这一种延迟场景也是比较常见的,比如在主库执行一个大的update、delete、insert ….select的事务操作,产生大量的binlog传送到只读节点,只读节点需要花费与主库相同的时间来完成该事务操作,进而导致了只读节点的延迟。只读实例发生延迟,在只读节点执行show slave status\G命令,可以通过两个关键的位点参数来判断只读实例上是否在执行大事务:Seconds_Behind_Master不断增加, 但是Exec_Master_Log_Pos却没有发生变化,这样则可以判断只读节点的SQL线程在执行一个大的事务或者DDL操作。 
例如下面的例子,用户在主库执行了一条insert ..select非常大的插入操作,该操作产生了近几十G的binlog文件传输到只读节点,进而导致了只读节点出现应用binlog延时

针对此类大事务延迟的场景,需要将大事务拆分成为小事务进行,这样只读节点就可以迅速的完成事务的执行,不会造成数据的延迟。

--------------------------------------------------------------------------------------------------------------------------------------------------------------------

只读实例延迟场景五:其他只读实例出现延迟的情况比如只读实例的主机IO压力出现异常,或者对无主键的表进行删除(可以参考mysql主键的缺少导致备库hang),RDS目前已经支持对表添加隐士主键,但是对于以前历史创建的表需要进行重建才能支持隐士主键。 
综上所述,把目前RDS只读实例出现延迟的场景都进行了分析,可以简单归纳一下,当只读实例出现延迟后,通过

一看只读节点IOPS定位是否存在资源瓶颈二看只读节点的binlog增长量定位是否存在大事务三看只读节点的commdml性能指标,对比主节点的commdml定位是否是主库写入压力过高导致四看只读节点show full processlist,判断是否有Waiting for table metadata lock和alter,repair,create等ddl操作

如果上述四看都还没有发现问题,那么在最后再检查一下只读节点是否存在无主键表的删除或者更新操作,可以通过在只读节点执行:show engine innodb status\G或者show open tables状态为in_use为1的表: 
mysql> show open tables; 
+————–+———————+——–+————-+ 
| Database     | Table               | In_use | Name_locked | 
+————–+———————+——–+————-+ 
| aixuedai_web   | sd_repay            |      4 |       0 | 
| mysql         | slow_log             |      0 |       0 | 
| dw           | dw_acc_sd_expectpay  |     1 |      0  |

差点忘了摘录地址:

https://bbs.aliyun.com/read/250956.html

文章由阿里的团队所发,论据充分而有条理。

转载于:https://www.cnblogs.com/olinux/p/6085405.html

有关RDS上只读实例延时分析-同适用于自建MySQL主从延时分析判断相关推荐

  1. Mysql 主从延时监控(pt-heartbeat)详解

    主从延时在主从环境中是一个非常值得关注的问题,有时候我们可以通过show slave status命令查看Seconds_Behind_Master值来分析主从的延时情况:但是由于该值是来自binlo ...

  2. MySQL主从延时这么长,要怎么优化

    点击上方"java全栈技术"关注,每天学习一个java知识点 原创: 58沈剑 MySQL主从复制,读写分离是互联网常见的数据库架构,该架构最令人诟病的地方就是,在数据量较大并发量 ...

  3. MySQL主从延时这么长,要怎么优化?

    MySQL主从复制,读写分离是互联网常见的数据库架构,该架构最令人诟病的地方就是,在数据量较大并发量较大的场景下,主从延时会比较严重. 为什么主从延时这么大? 答:MySQL使用单线程重放RelayL ...

  4. MySQL主从延时这么长,怎么优化?

    点击▲关注 "数据和云"   给公众号标星置顶 更多精彩 第一时间直达 MySQL主从复制,读写分离是互联网常见的数据库架构,该架构最令人诟病的地方就是,在数据量较大并发量较大的场 ...

  5. mysql主从延时这么长_MySQL主从延迟问题解决

    今天我们就来看看为什么会产生主从延迟以及主从延迟如何处理等相关问题. 坐好了,准备发车! 主从常见架构 随着日益增长的访问量,单台数据库的应接能力已经捉襟见肘.因此采用主库写数据,从库读数据这种将读写 ...

  6. Mysql主从延时-Multi-threaded slave statistics for channel

    今天Mysql从库日志抛以下note信息,起初是主库上这几天有很大的并发事务,导致从库延时非常大,但是从库并没有什么压力,我们来分析下这个问题. 2021-01-10T16:08:39.947611+ ...

  7. Mysql主从延时解决办法

    1.忍受大法 第一种解决办法,很简单,无他,不管他,没有读到也没事.这时业务不需要任何改造,你好,我好,她也好~ 如果业务对于数据一致性要求不高,我们就可以采用这种方案. 2.数据同步写方案 主从数据 ...

  8. 26 | MySQL主从延迟分析以及HA保障(柯南版的中篇)

    〇.前言 下面的笔记都是一主一备,或者叫一主一从. 一.前置背景 上一篇中讲到主从延迟场景对于从库的影响一般是分钟级别的,备库恢复之后都可以追上来,但是第四点如果备库执行日志的速度低于主库生成日志的速 ...

  9. mysql发生只读的原因_关于同步延迟原因与处理的RDS MySQL 只读实例

    关于同步延迟原因与处理的RDS MySQL 只读实例 RDS MySQL只读实例一般来说用于分担主实例的查询(Select)压力,或者用于运行OLAP类型的分析应用,避免复杂统计查询对主实例的性能影响 ...

最新文章

  1. 全面解读WEB 2.0
  2. 正则表达式之?、(?:pattern)、(?!pattern)、(?=pattern)理解及应用
  3. 吴麒pdf 自动控制原理下_设施大棚灌溉设备工作原理
  4. 关于SparkMLlib的基础数据结构Spark-MLlib-Basics
  5. C 链表(单链表的操作)
  6. golang语言变量定义、打印、占位符
  7. 【co】ES6-20/21 iterator与generator
  8. 你准备好了在云中工作吗?
  9. 神奇又好玩的谢尔宾斯基雪花!
  10. php invalid access,PHP出错消息PHP has encountered an Access Violation at XXXXXXXX 如何解决?...
  11. 数据处理入门干货:MongoDB和pandas极简教程
  12. java中删除特定后缀名文件
  13. RBF神经网络算法分析与应用(适合快速入门实战)
  14. JavaScript正则表达式大全
  15. 移动海信IP102H_905L3-B_线刷固件包
  16. 01_摄像头基础知识
  17. 双控 嵌入式. linux,大华 DH-ESS6024S-F 专业SAN磁盘阵列 网络智能存储服务器
  18. 安卓小游戏之2048
  19. Learun FrameWork,基于.NET的智能化开发工具
  20. 代理模式相关简单论述

热门文章

  1. 一个mongosee例子
  2. idea自动捕获_Smilefie:如何通过检测微笑来自动捕获自拍
  3. WebSocket协议分析
  4. linux系统管理及vim
  5. 英语计算机作文初中.,初中英语作文:电脑游戏
  6. 使用计算机辐射最大,计算机辐射的主要来源及其对人体的危害
  7. 什么样的人合适学习Python?
  8. https和http有什么区别?看下面介绍就知道了!
  9. Apache工具类ToStringBuilder用法简介
  10. .net内存回收与Dispose﹐Close﹐Finalize方法