作者:VipAugus

https://juejin.im/post/5ce906a3e51d455a2f2201dc

MySQL对我说“Too young, too naive!"

大概过程


在测试环境Docker容器中,在跨进程调用服务的时候,A应用通过Dubbo调用B应用的RPC接口,发现B应用接口超时错误,接着通过debug和日志,发现具体耗时的地方在于一句简单SQL执行,但是耗时超过1000ms。

通过查看数据库的进程列表,发现是有死锁锁表了,很多进程状态status处于'sending data',最后为锁住的表添加索引,并且kill掉阻塞的请求,解除死锁,服务速度恢复正常。

下面记录的是大致排查过程:

通过观察业务代码,确认没有内存溢出或者其它事务问题,于是只能考虑Docker环境的数据库和jvm底层详情了。

使用Druid监控SQL执行状态


通过日志,发现有一句SQL严重超时,一句简单SQL,原本是批量插入多条记录,为了定位问题,测试时Mybatis只插入一条记录,但即便如此,还是耗时10秒

于是打算使用阿里巴巴的数据库连接池Druid进行监控,监控SQL效果如下:

在SQL监控Tab中,可以看到执行SQL的具体情况,包括某条SQL语句执行的时间(平均、最慢)、SQL执行次数、SQL执行出错的次数等。
上面显示的是正常情况下,时间单位是ms,正常的SQL一般在10ms之内,数据量大的控制在30ms之内,这样用户的使用体验感才会良好。所以说之前的1000ms,是不可接受的结果。

通过JMC远程监控Tomcat


JMC(java mission control)是jdk自带的一个监控工具,在jdk的bin目录下(java大法好,该目录下有很多实用的工具)。
此处加了一个tomcat无验证模式:

  • #在tomcat的conf目录下的catalina.sh增加如下java启动参数:-Dcom.sun.management.jmxremote=true-Dcom.sun.management.jmxremote.port=8888-Dcom.sun.management.jmxremote.ssl=false-Dcom.sun.management.jmxremote.authenticate=false-XX:+UnlockCommercialFeatures -XX:+FlightRecorder

下面是自己本地调试的截图

然后打开jmc,创建一个JMX连接,输入对应的ip和JMX端口。接着可以设定一段时间内的飞行监控,监测这一分钟内jvm具体参数
当时调试的时候,发现内存使用、CPU占用率、线程状态也挺正常的,没有发现明显的异常错误,效果如下图:

唯一比较耗时的是在代码tab页中,当时发现了大量的I/O,比上图的比例还高,当时大概占了80%,查看调用树,很多循环tcp socket连接,考虑到应用中本来就有很多需要io以及netty也需要tcp连接,所以大概排除了jvm虚拟机的问题,然后就去排查MySQL的问题。

排查MySQL


在了解MySQL锁概念的时候,由于现在使用的比较多的是InnoDB,所以可以着重看看InnoDB锁问题。

直接执行SQL语句

通过DEBUG代码,从mybatis中取出映射后的SQL语句,在MySQL客户款直接执行SQL和Explain查看执行计划,速度都很快,排除了SQL语句的问题。

查看MySQL线程列表

  • show processlist;

从图中可以看出,有些线程的状态处于sending data,查阅资料:所谓的“Sending data”并不是单纯的发送数据,而是包括“收集 + 发送 数据”。
然后后面一列info显示的是具体信息,是查询用来生成主键ID的函数,之前速度都很快,为啥突然就这么慢呢,于是回过头去查看该函数:

  • select next_value into ret_val from `xxx` where table_name=tableName for update;update `xxx` set current_value=current_value+step, next_value=next_value+stepwhere table_name=tableName;

select for update,给这个表加了排它锁,阻止其它事务取得相同数据集的共享读锁和排他写锁,同时,这个序列表表中,用来检索的字段没有加索引,在InnoDB行锁机制中:

由于MySQL的行锁是针对索引加的锁,不是针对记录加的锁,所以虽然是访问不同行的记录,但是如果是使用相同的索引键(在我们的场景中,就是查询时用到的table_name),是会出现锁冲突的。
所以了解到其它团队因为查询这个表产生事务问题,造成死锁,这个序列表被锁住了。Java提升篇-事务隔离级别和传播机制Java提升篇-事务隔离级别和传播机制
由于这个自增序列表每个团队都在使用,所以当时测试环境中,经常有dao层超时错误,最终将这些阻塞的线程kill掉,为序列表加了索引,解决了问题。

小结


下次遇到MySQL执行耗时的情况,排除了代码问题之后,要去看数据库是否有死锁的情况存在,观察有没有被阻塞的线程,排查被阻塞的线程具体info,定位到具体问题。

一条简单的 SQL 执行超过1000ms,纳尼?相关推荐

  1. 一条SQL要28秒 mysql_一条简单的 SQL 执行超过 1000ms,纳尼?

    阅读本文大概需要 2.8 分钟. MySQL 对我说 "Too young, too naive!" ▌大概过程 在测试环境 Docker 容器中,在跨进程调用服务的时候,A 应用 ...

  2. 一条简单的sql语句运行15天的原因分析(r5笔记第17天)

    在测试环境中,可能一个测试库中会有几十上百套环境在运行,一般DBA不会去主动干涉测试环境中的一些使用细节,可能问题都是开发测试来反馈给DBA采取做一个被动的处理.今天也算主动了一把,在测试环境中发现了 ...

  3. 一条简单的sql语句导致的系统问题(r4笔记第51天)

    新年,给大家拜年了.祝大家工作顺利,万事如意.今天照例简单检查了系统的情况,发现在客户的服务器在下午的3-5点这个时间段,数据库负载略有上升,但是幅度不大,因为生产的awr抓取频率是10分钟,所以还是 ...

  4. 从一条巨慢SQL看基于Oracle的SQL优化(重磅彩蛋+PPT)

    本文根据DBAplus社群第110期线上分享整理而成,文末还有好书送哦~ 讲师介绍 丁俊 新炬网络首席性能优化专家 SQL审核产品经理 DBAplus社群联合发起人.<剑破冰山-Oracle开发 ...

  5. 一条简单 SQL 执行耗时超 1000ms,问题解决全过程!

    点击上方"Java精选",选择"设为星标"别问别人为什么,多问自己凭什么! 下方留言必回,有问必答! 每天 08:00 更新文章,每天进步一点点... 大概过程 ...

  6. 字节面试官:一条sql执行慢的原因?如何优化?

    点击上方"程序猿技术大咖",关注并选择"设为星标" 回复"加群"获取入群讨论资格! 作为二本上岸大厂的后端应届生,深知没人带一路摸索的艰辛, ...

  7. mybatisplus执行sql语句_一条更新的SQL语句是如何执行的?

    提出问题 UPDATE student SET score = score + 1 WHERE uid = 666; 以上就是一条最简单的SQL更新语句,想要知道上面这句SQL语句是怎么执行的先要了解 ...

  8. mysql执行一条语句会加锁吗_一条简单的更新语句,MySQL是如何加锁的?

    看如下一条sql语句: # table T (id int, name varchar(20)) delete from T where id = 10: MySQL在执行的过程中,是如何加锁呢? 在 ...

  9. mybatis mysql 调用存储过程 多个返回值_MyBatis的SQL执行流程不清楚?很简单!

    点击上方蓝色字体,选择"标星公众号" 优质文章,第一时间送达 作者:双子孤狼- blog.csdn.net/zwx900102/article/details/108455514 ...

最新文章

  1. 从0开始的微服务架构:(一)重识微服务架构
  2. pytorch 保存网络的时候值得注意的事情
  3. pycharm 调试(debug)模式时界面上的 mute breakpoint 是什么意思?(239)
  4. Oracle如何监控表的DML次数
  5. 转:SharePoint站点中用户信息与AD用户信息的“不一致”问题
  6. SAP Cloud for Customer和SAP Fiori系统里的OData测试工具
  7. 使用junit进行单元测试_使用JUnit5对DynamoDB应用程序进行单元测试
  8. 31.QT中串口操作
  9. 第二阶段冲刺第六天站立会议
  10. 在css中使用hover来控制其他元素的样式,该两个元素必须是父子元素
  11. Could not find a version that satisfies the requirement PyQt5
  12. qq安全使用NTFS权限设置法
  13. 华为手机字体改简体_华为繁体字体怎么更换 华为手机字体改简体
  14. 大学课程 | 《计算机系统结构》详细知识点总结
  15. 15 年工龄的阿里P9职场历程自述
  16. FreeCAD源码分析:Assembly3模块
  17. 企业内IT部/信息部发展阶段和趋势(第一阶段)
  18. 5421. 【NOIP2017提高A组集训10.25】嘟嘟噜—mayuri
  19. SVN_处理文件误删恢复
  20. Android 蓝牙 A2dp音频数据通过L2cap 发往Controller -- 代码详解

热门文章

  1. java数据类型,取值范围,引用类型解析
  2. 完整iOS APP发布App Store上架流程
  3. 微软发布.NET Core Tools 1.0版本
  4. MAC下安装多版本JDK和切换几种方式
  5. activiti监听器使用
  6. facl:文件访问控制列表
  7. HDMI_VGA_CBVS同时显示
  8. C#中全角与半角的转换
  9. Matlab/Simulink电力系统——无穷大功率电源供电系统三相短路仿真
  10. 使用Matlab求解定积分/不定积分