瞬发大量并发连接 造成MySQL连接不响应的分析
http://www.actionsky.com/docs/archives/252
目录
- 1 现象
- 2 猜想
- 3 检查环境
- 4 猜想2
- 5 分析
- 5.1 TCP握手的第三步ACK包为什么丢失
- 6 恢复故障与日志的正关联
- 7 解决方案
现象
Sysbench对MySQL进行压测, 并发数过大(>5k)时, Sysbench建立连接的步骤会超时.
猜想
猜想: 直觉上这很简单, Sysbench每建立一个连接, 都要消耗一个线程, 资源消耗过大导致超时.
验证: 修改Sysbench源码, 调大超时时间, 仍然会发生超时.
检查环境
猜想失败, 回到常规的环境检查:
- MySQL error log 未见异常.
- syslog 未见异常.
- tcpdump 观察网络包未见异常, 连接能完成正常的三次握手; 只观察到在出问题的连接中, 有一部分的TCP握手的第一个SYN包发生了重传, 另一部分没有发生重传.
- 自己写一个简单的并发发生器, 替换sysbench, 可重现场景. 排除sysbench的影响
猜想2
怀疑 MySQL 在应用层因为某种原因, 没有发送握手包, 比如卡在某一个流程上:
- 检查MySQL堆栈未见异常, 仿佛MySQL在应用层没有看到新连接进入.
- 通过strace检查MySQL, 发现
accept()
调用确实没有感知到新连接.
怀疑是OS的原因, Google之, 得到参考文档: A TCP “stuck” connection mystery
分析
参考文档中的现象跟目前的状况很类似, 简述如下:
正常的TCP连接流程:
- Client 向 Server 发起连接请求, 发送SYN.
- Server 预留连接资源, 向 Client 回复SYN-ACK.
- Client 向 Server 回复ACK.
- Server 收到 ACK, 连接建立.
- 在业务层上, Client和Server间进行通讯.
当发生类似SYN-flood的现象时, TCP连接的流程会使用SYN-cookie, 变为:
- Client 向 Server 发起连接请求, 发送SYN.
- Server 不预留连接资源, 向 Client 回复SYN-ACK, 包中附带有签名A.
- Client 向 Server 回复ACK, 附带 f(签名A) (对签名进行运算的结果).
- Server 验证签名, 分配连接资源, 连接建立.
- 在业务层上, Client和Server间进行通讯.
当启用SYN-cookie时, 第3步的ACK包因为 某种原因 丢失, 那么:
- 从Client的视角, 连接已经建立.
- 从Server的视角, 连接并不存在, 既没有建立, 也没有”即将建立” (若不启用SYN-cookie, Server会知道某个连接”即将建立”)
发生这种情况时:
- 若业务层的第一个包应是从 Client 发往 Server, 则会进行重发或抛出连接错误
- 若业务层的第一个包应是从 Server 发往 Client的, Server不会发出第一个包. MySQL的故障就属于这种情况.
TCP握手的第三步ACK包为什么丢失
参考文档中, 对于TCP握手的第三步ACK包的丢失原因, 描述为:
Some of these packets get lost because some buffer somewhere overflows.
我们可以通过Systemtap进一步探究原因. 通过一个简单的脚本:
probe kernel.function("cookie_v4_check").return {source_port = @cast($skb->head + $skb->transport_header, "struct tcphdr")->sourceprintf("source=%d, return=%d\n", readable_port(source_port), $return)
}function readable_port(port) {return (port & ((1<<9)-1)) << 8 | (port >> 8)
}
观察结果, 可以确认cookie_v4_check
(syn cookie机制进行包签名检查的函数)会返回 NULL(0). 即验证是由于syn cookie验证不通过, 导致TCP握手的第三步ACK包不被接受.
之后就是对其中不同条件进行观察, 看看是哪个条件不通过. 最终原因是accept队列满 (sk_acceptq_is_full
):
796 static inline bool sk_acceptq_is_full(const struct sock *sk)
797 {
798 return sk->sk_ack_backlog > sk->sk_max_ack_backlog;
799 }
恢复故障与日志的正关联
在故障处理的一开始, 我们就检查了syslog, 结论是未见异常.
当整个故障分析完成, 得知了故障与syn cookie有关, 回头看syslog, 里面是有相关的信息, 只是和故障发生的时间不匹配, 没有正关联, 因此被忽略.
检查Linux源码:
6130 if (!queue->synflood_warned &&
6131 sysctl_tcp_syncookies != 2 &&
6132 xchg(&queue->synflood_warned, 1) == 0)
6133 pr_info("%s: Possible SYN flooding on port %d. %s. Check SNMP counters.\n",
6134 proto, ntohs(tcp_hdr(skb)->dest), msg);
可以看到日志受到了抑制, 因此日志与故障的正关联被破坏.
粗看源码, 每个listen socket只会发送一次告警日志, 要获得日志与故障的正关联, 必须每次测试重启MySQL.
解决方案
这种故障一旦形成, 难以检测; 系统日志中只会出现一次, 在下次重启MySQL之前就不会再出现了; Client如果没有合适的超时机制, 万劫不复.
解决方案:
1. 修改MySQL的协议, 让Client先发握手包. 显然不现实.
2. 关闭syn_cookie. 有安全的人又要跳出来了.
3. 或者调高syn_cookie的触发条件 (syn backlog长度). 降低系统对syn flood的敏感度, 使之可以容忍业务的syn波动.
有多个系统参数混合影响syn backlog长度, 参看http://blog.dubbelboer.com/2012/04/09/syn-cookies.html
瞬发大量并发连接 造成MySQL连接不响应的分析相关推荐
- mysql .net连接字符串,MySQL连接字符串的实际操作步骤汇总
此文章主要向大家描述的是MySQL连接字符串的实际操作步骤汇总,其中包括MySQL Connector/ODBC 2.50 (MyODBC 2.50)连接方式 ,MySQL Connector/ODB ...
- mysql 并发 链接失败_瞬发大量并发连接 造成MySQL连接不响应的分析
现象 Sysbench对MySQL进行压测, 并发数过大(>5k)时, Sysbench建立连接的步骤会超时. 猜想 猜想: 直觉上这很简单, Sysbench每建立一个连接, 都要消耗一个线程 ...
- php mysql 持久连接_PHP MySQL连接持久性
从我阅读文档和评论,我看到: mysql_pconnect上的文档(不建议使用的方法) Second, the connection to the SQL server will not be clo ...
- mysql 连接配置
一.什么是连接? 什么是连接池? mysql连接 如果你要使用程序进行一次mysql查询,mysql就会返回一个连接.或者你使用命令行mysql -u root -p123456主动发起一个mysq ...
- java自动化测试语言高级之MySQL 连接
java自动化测试语言高级之MySQL 连接 文章目录 java自动化测试语言高级之MySQL 连接 Java MySQL 连接 Java MySQL 连接 本章节我们为大家介绍 Java 如何使用 ...
- swoole mysql 并发_Swoole4 如何打造高并发的PHP7协程Mysql连接池?
一.数据库连接池基本概念 所谓的数据库连接池,一般指的就是程序和数据库保持一定数量的数据库连接不断开,并且各请求的连接可以相互复用,减少重复新建数据库连接的消耗和避免在高并发的情况下出现数据库max ...
- mysql killed进程不结束_php和mysql连接方式(短 长 池)
一个php work进程只能处理一个请求,当完成一个请求了,才能处理下一次的请求 2.短连接: 执行到php关闭mysql连接的代码时,就断开,否则在处理本次请求结束的时候,释放mysql连接 实验: ...
- 【腾讯二面】5s内建立多少个mysql连接?
牛牛在2020年面试腾讯时面试官问过这样一个场景: 以100每秒的速度向mysql写数据,持续5s,此时我们的程序和mysql建立了多少个tcp连接? 从编程的角度来看,一个问题的解答过程,无非是寻求 ...
- mysql多个字符串连接池_使用Coroutine\Channel实现一个简单的MySQL连接池
Channel通道,类似于go语言的chan,支持多生产者协程和多消费者协程,Swoole底层自动实现了协程的切换和调度 Channel实现原理 通道与PHP的Array类似,仅占用内存,没有其他额外 ...
最新文章
- 在nodejs中的集成虹软人脸识别
- Linux下 WRF Domain Wizard 使用教程(PART1:下载+安装)
- 线程池ThreadPoolExcutor
- Jenkins部署:The username and password you provided are not correct (error 401)
- C++检查给定数字是否为4的幂的算法实现(附完整源码)
- 检索数据_7_拼接列的值
- (一)深入浅出TCPIP之理解TCP报文格式和交互流程
- Leetcode每日一题:416.partition-equal-subset-sum(分割等和子集)
- FFmpeg API 变更记录
- ct与x光的哪个辐射大_听说做一次CT所受到的辐射剂量和损害 = 拍400张X光片?
- Windows Phone 7 不温不火学习之《工程结构》
- VS应用程序无法正常启动0xc0150002
- IOS OpenGL ES GPUImage 图像 XYDerivative 边缘检测 GPUImageXYDerivativeFilter
- Photoshop CS6版本安装及破解教程
- C语言逻辑运算符: 和 ||
- 库克是个挺不错的接班人,但是苹果公司的价值已经见顶
- Vuex的使用(九)——actions的其他用法
- 解除Word的编辑保护【简单版】
- RHEL5.5下载地址及安装序列号
- Flink反压如何排查
热门文章
- 浅淡Webservice、WSDL三种服务访问的方式(附案例)
- Hadoop For Windows
- 程序员面试题精选100题(44)-数值的整数次方[算法]
- Scala基础教程(四):if语句、循环语句、while语句
- 《大话数据结构》第2章 算法基础 2.9 算法的时间复杂度
- 《分布式操作系统》知识点(8~14)二
- 关于Mysql5.7高版本group by新特性报错
- 2017年 JavaScript 框架回顾 -- 前端框架
- OAF在打开的新页面中添加按钮,功能是关闭当前页面
- eclipse常用快捷键汇总