【作者】

王栋:携程技术保障中心数据库专家,对数据库疑难问题的排查和数据库自动化智能化运维工具的开发有强烈的兴趣。

【问题描述】

我们生产环境有一组集群的多台MySQL服务器(MySQL 5.6.21),不定期的会crash,但error log中只记录了重启信息,未记录crash时的堆栈:

mysqld_safe Number of processes running now: 0

mysqld_safe mysqld restarted

接下来首先排查系统日志/var/log/message文件,crash时没有其他异常信息,也不是OOM导致的。

【排查思路】

由于日志中未记录有价值的信息。为定位crash的原因,首先开启mysql core dump的功能。

下面是开启core dump的步骤:

1、在my.cnf文件中增加2个配置项

[mysqld]

core_file

[mysqld_safe]

core-file-size=unlimited

2、修改系统参数,配置suid_dumpable

echo 1 >/proc/sys/fs/suid_dumpable

3、重启mysql服务,配置生效

【问题分析】

开启core dump后,服务器再次crash时生成了core file。

用gdb分析生成的core file,可以看到crash时的堆栈信息如下:

从函数table_esms_by_digest::delete_all_rows可以看出触发crash的是truncate table events_statements_summary_by_digest操作。

我们内部有个DML的分析工具,用来统计数据库每分钟增删改查的访问量。该工具的数据源是events_statements_summary_by_digest表,采集程序会每一分钟采集一次这张表的数据,采集完成后执行truncate操作。

暂停这组集群上DML采集程序后MySQL没有再发生crash。

进一步分析多个core file,发现最终函数的调用都发生在_lf_pinbox_real_free函数上。

结合现场环境,有两处地方值得分析:

1、内存的不正常值。当打印该变量时,此处变量的地址偏低,不太正常:

(gdb) p pins->pinbox

$2 = (LF_PINBOX *) 0x1367208

2、红字部分为pfs逐条释放digest记录的操作,正在释放某行数据时出现错误:

void reset_esms_by_digest()

{

uint index;

if (statements_digest_stat_array == NULL)

return;

PFS_thread *thread= PFS_thread::get_current_thread();

if (unlikely(thread == NULL))

return;

for (index= 0; index statements_digest_stat_array[index].reset_index(thread);

statements_digest_stat_array[index].reset_data();

}

digest_index= 1;

}

猜测有两种可能导致错误:

1、高并发下,对内存访问出现冲突;

2、某个特殊SQL导致,在处理hash时。

在网上搜索类似的问题,有了进一步的进展,基本确定了这个问题是bug导致

查到5.6.35上的bug fix的修复内容,和我们碰到的情况非常类似。

对比_lf_pinbox_real_free的修改,该部分确实进行很大的调整。

下面是MySQL 5.6.35函数_lf_pinbox_real_free的代码片段:

static void _lf_pinbox_real_free(LF_PINS *pins)

{

LF_PINBOX *pinbox= pins->pinbox;

struct st_match_and_save_arg arg = {pins, pinbox, pins->purgatory};

pins->purgatory= NULL;

pins->purgatory_count= 0;

lf_dynarray_iterate(&pinbox->pinarray,

(lf_dynarray_func)match_and_save, &arg);

if (arg.old_purgatory)

{

void *last= arg.old_purgatory;

while (pnext_node(pinbox, last))

last= pnext_node(pinbox, last);

pinbox->free_func(arg.old_purgatory, last, pinbox->free_func_arg);

}

}

下面是MySQL 5.6.21函数的_lf_pinbox_real_free的代码片段

static void _lf_pinbox_real_free(LF_PINS *pins)

{

int npins;

void *list;

void **addr= NULL;

void *first= NULL, *last= NULL;

LF_PINBOX *pinbox= pins->pinbox;

npins= pinbox->pins_in_array+1;

if (pins->stack_ends_here != NULL)

{

int alloca_size= sizeof(void *)*LF_PINBOX_PINS*npins;

if (available_stack_size(&pinbox, *pins->stack_ends_here) > alloca_size)

{

struct st_harvester hv;

addr= (void **) alloca(alloca_size);

hv.granary= addr;

hv.npins= npins;

_lf_dynarray_iterate(&pinbox->pinarray,

(lf_dynarray_func)harvest_pins, &hv);

npins= hv.granary-addr;

if (npins)

qsort(addr, npins, sizeof(void *), (qsort_cmp)ptr_cmp);

}

}

同时观察到出问题的集群有指标异常,QPS不到6000,Threads_connected将近8000。(对比其他高并发的集群,QPS在20000以上,Threads_connected也只有300左右)。

排查应用端的连接方式,了解到其中一个应用有近百台应用服务器,可能同时发起请求,却没有合理的复用连接,维持大量的连接线程增大了bug触发的概率。

Bugs Fixed的描述如下:

Miscalculation of memory requirements for qsort operations could result in stack overflow errors in situations with a large number of concurrent server connections. (Bug #73979, Bug #19678930, Bug #23224078)

【解决思路】

我们通过分析crash时的core file文件,找到crash时的触发条件,暂停DML采集程序(truncate table events_statements_summary_by_digest操作)后恢复。

后面了解到这是MySQL的一个bug,在MySQL 5.6.35版本后已修复。这个bug在应用端与数据库建立大量的连接时,更容易触发。

170301、使用Spring AOP实现MySQL数据库读写分离案例分析

使用Spring AOP实现MySQL数据库读写分离案例分析 原创 2016-12-29 徐刘根 Java后端技术 一.前言 分布式环境下数据库的读写分离策略是解决数据库读写性能瓶颈的一个关键解决方案 ...

161220、使用Spring AOP实现MySQL数据库读写分离案例分析

一.前言 分布式环境下数据库的读写分离策略是解决数据库读写性能瓶颈的一个关键解决方案,更是最大限度了提高了应用中读取 (Read)数据的速度和并发量. 在进行数据库读写分离的时候,我们首先要进行数据库 ...

mysql转ElasticSearch的案例分析

前言 最近工作中在进行一些技术优化,为了减少对数据库的压力,对于只读操作,在程序与db之间加了一层-ElasticSearch.具体实现是db与es通过bin-log进行同步,保证数据一致性,代码调用 ...

使用Spring AOP实现MySQL数据库读写分离案例分析

一.前言 分布式环境下数据库的读写分离策略是解决数据库读写性能瓶颈的一个关键解决方案,更是最大限度了提高了应用中读取 (Read)数据的速度和并发量. 在进行数据库读写分离的时候,我们首先要进行数据库 ...

MySQL排序原理与案例分析

前言      排序是数据库中的一个基本功能,MySQL也不例外.用户通过Order by语句即能达到将指定的结果集排序的目的,其实不仅仅是Order by语句,Group by语句,Distinct ...

[转]MySQL批量更新死锁案例分析

文章出处:http://blog.csdn.net/aesop_wubo/article/details/8286215 问题描述 在做项目的过程中,由于写SQL太过随意,一不小心就抛了一个死锁异常, ...

[转]MySQL排序原理与案例分析

这篇文章非常好,就把他转过来 前言      排序是数据库中的一个基本功能,MySQL也不例外.用户通过Order by语句即能达到将指定的结果集排序的目的,其实不仅仅是Order by语句,Grou ...

MySQL批量更新死锁案例分析--转载

问题描述 在做项目的过程中,由于写SQL太过随意,一不小心就抛了一个死锁异常,如下: com.mysql.jdbc.exceptions.jdbc4.MySQLTransactionRollbackE ...

MySQL数据库crash的问题分析

[问题] 生产环境有多台slave服务器,不定期的会crash,下面是error log中的堆栈信息 Thread pointer: 0x7f1e54b26410 Attempting backtra ...

随机推荐

Eclipse下新建Maven项目、自动打依赖jar包

当我们无法从本地仓库找到需要的构件的时候,就会从远程仓库下载构件至本地仓库.一般地,对于每个人来说,书房只有一个,但外面的书店有很多,类似第,对于Maven来说,每个用户只有一个本地仓库,但可以配置访 ...

织梦dedecms后台添加图片style全部都变成st<x>yle的解决办法

可乐站长在建站的时候,上传缩略图喜欢输入图片路径,不喜欢上传图片,有几次我上传图片路径为:/style/image/**.jpg,然后返回修改后,图片为路径却为:/style/ima ...

jquery中ajax的用法

Jquery中队Ajax操作进行了封装,可分为3层:1.最底层$.ajax(),2.第二层load().$.get().$.post()方法,3.第三层$.getScript()和$.getJSON( ...

clip原理

1.clip的概述: clip是修剪之意 clip有4个属性值:inherit auto rect(20px,40px,60px,0px) !important 其中有作用的仅rect这个属性值,着重 ...

JavaSE复习日记 : 算是个小前言吧

/* * Java也学了好久了,抽个时间整理了一下课堂笔记,也有些是我刚开始学会犯的一些错误.在这里浅谈一下JavaSE的基础内容,对我来说也是一种不错的复习方式. * * 那好,对于初学者来说,学习 ...

【iOS】OC-时间转化的时区问题

-(void)testTime{ NSDate *now = [NSDate date];//根据当前系统的时区产生当前的时间,绝对时间,所以同为中午12点,不同的时区,这个时间是不同的. NSDat ...

基于SpringBoot从零构建博客网站 - 技术选型和整合开发环境

技术选型和整合开发环境 1.技术选型 博客网站是基于SpringBoot整合其它模块而开发的,那么每个模块选择的技术如下: SpringBoot版本选择目前较新的2.1.1.RELEASE版本 持久化 ...

C#中dll调用方法

我不创造方法,只做方法的搬运工. https://www.cnblogs.com/Asuphy/p/4206623.html

SSM商城项目(十一)

1.   学习计划 1.sso注册功能实现 2.sso登录功能实现 3.通过token获得用户信息 Ajax跨域请求(jsonp) 2.   Sso系统工程搭建 需要创建一个sso服务工程,可以参考e ...

一道简单树形dp

题意:给定一棵树,从中选出一些节点,使得不成父子关系的节点对数最多.问这个最大值是多少. 思路:首先既然是给定一颗树,先要选择合适的数据结构,来保存这颗树.由于这颗树只关心根节点在哪里,所以只需要用一 ...

mysql安全性案例分析_MySQL实例crash的案例分析相关推荐

  1. mysql crash定位分析_MySQL实例crash的案例详细分析

    [问题描述] 我们生产环境有一组集群的多台MySQL服务器(MySQL 5.6.21),不定期的会crash,但error log中只记录了重启信息,未记录crash时的堆栈: mysqld_safe ...

  2. mysql案例_MySQL实例crash的案例详细分析

    [问题描述] 我们生产环境有一组集群的多台MySQL服务器(MySQL 5.6.21),不定期的会crash,但error log中只记录了重启信息,未记录crash时的堆栈: mysqld_safe ...

  3. mysql crash 如何定位_MySQL实例crash的案例详细分析

    [问题描述] 我们生产环境有一组集群的多台MySQL服务器(MySQL 5.6.21),不定期的会crash,但error log中只记录了重启信息,未记录crash时的堆栈: mysqld_safe ...

  4. mysql用户阻塞数_MySQL实例阻塞分析一例(线程statistics状态)

    本文用实例来分析MySQL阻塞-线程statistics状态. 一. 现象 某日下午下班后低峰期,现网MySQL一个库突然报出大量慢sql,状态是 statistics,但是过后拿这些sql去执行的时 ...

  5. mysql crash 如何导出数据库_MySQL数据库crash的问题分析

    [问题] 生产环境有多台slave服务器,不定期的会crash,下面是error log中的堆栈信息 Thread pointer: 0x7f1e54b26410 Attempting backtra ...

  6. php mysql 连接方法 对比_Mysql实例php连接MySQL的两种方式对比

    <Mysql实例php连接MySQL的两种方式对比>要点: 本文介绍了Mysql实例php连接MySQL的两种方式对比,希望对您有用.如果有疑问,可以联系我们. MYSQL数据库记录一下P ...

  7. mysql二进制大文件_Mysql实例Mysql LONGTEXT 类型存储大文件(二进制也可以) (修改+调试+整理)...

    <Mysql实例Mysql LONGTEXT 类型存储大文件(二进制也可以) (修改+调试+整理)>要点: 本文介绍了Mysql实例Mysql LONGTEXT 类型存储大文件(二进制也可 ...

  8. mysql慢查询原因_mysql 慢查询的原因分析点滴

    我们知道Mysql可以log下来运行的比较慢的sql语句. 不过,默认是没有这个log的,为了开启这个功能,要修改my.cnf或者在MySQL启动的时候加入一些参数. 如果在my.cnf里面修改,需增 ...

  9. mysql lucene 索引区别_MySQL和Lucene索引对比分析

    MySQL和Lucene都可以对数据构建索引并通过索引查询数据,一个是关系型数据库,一个是构建搜索引擎(Solr.ElasticSearch)的核心类库.两者的索引(index)有什么区别呢?以前写过 ...

最新文章

  1. EasyUI datagrid动态加载json数据
  2. 递归式的时间复杂度的计算
  3. JS解决在提交form表单时某个值不存在 alter弹窗点确定不刷新界面
  4. python内置作用域_python中的作用域
  5. cognos报表导出excel_有了这个报表工具,一键生成自定义的各种报表,还可以导出Excel...
  6. python中有数组吗_python里面有数组吗
  7. Run-time error “70“:Permission denied
  8. 【模板】链式前向星+spfa
  9. 温度湿度传感器流程图_温度传感器和湿度传感器在高铁轨道板智能养护中的应用...
  10. windows 运行banana
  11. Nginx多进程高并发、低时延、高可靠机制在滴滴缓存代理中的应用
  12. 如何测试前台获得的数据
  13. Java游戏程序设计 第3章 游戏程序的基本框架
  14. 129 爬虫 requests request 爬图片
  15. Power BI桌面版与Online版功能区别
  16. 计算机硬件系统基本组成
  17. 圣诞小程序服务器,微信圣诞帽2018小程序_微信圣诞帽头像自动换预约_第一手游网...
  18. Android编程权威指南
  19. 模拟角频率和数字角频率区别
  20. 『一起学AI』生成对抗网络(GAN)原理学习及实战开发

热门文章

  1. 微信小程序拼图游戏(有效果图)
  2. 蔡明亮 “水”三部曲
  3. Photoshop如何改变背景底色并调整照片尺寸和图像大小
  4. 如何确定scrum的story之一:识别利益相关者和目标
  5. 新手程序猿编程实战项目推荐「附源码下载」
  6. 服务器显示资源不够用,Docker服务器存储资源池不足的问题解决
  7. 小数化分数(C++)
  8. HDU 4379 The More The Better
  9. 一个命令禁用baloo_file及baloo_file_extractor
  10. 华为2022数字芯片笔试题