女主宣言

当客户端频繁的采用短链接时候,经常会遇到[110][connection time out]和[99][could not assigned requested address]的错误。以下是对两种错误的分析以及优化建议,希望对大家有所帮助。

PS:丰富的一线技术、多元化的表现形式,尽在“HULK一线技术杂谈”,点关注哦!

短链接常见的两种错误

当客户端频繁的采用短链接时候,经常会遇到[110][connection time out]和[99][could not assigned requested address]的错误。前段时间我们的存储服务就遇到了这样的一拨报警,经过调研分析,基本确定以上这两个错误与客户端端口的TIME-WAIT状态以及服务端的listen队列有关(当然也有其它可能的原因,这里只分析这两种)。

从客户端来看,在我们的应用场景中,因为频繁的使用端连接,而且在同一台机上的客户端的数量比较多,造成了大量的TIME-WAIT状态的端口,当TIME-WAIT状态端口的数量铺满了整个port_range(由ip_local_port_range内核参数指定)范围后,就会产生99号错误;从服务端来看,因为频繁大量的accept短链接,到达一定量后,服务端口的listen队列会出现溢出,这个时候,新的连接请求会被丢弃,连接建立失败,客户端也就产生了110号错误。

两种错误产生的原因

[99][could not assigned requested address]

TIME-WAIT状态是连接一端主动关闭并发送完最后一个ACK之后所处的状态,这个状态一般会存在2MSL(Max Segment Lifttime,即一个包在传输过程中的最大生存时间)时间(所以又叫2MSL状态),之所以要有这个状态,是为了让前一个连接的包不影响后面的链接,并且可以被有效的应答,以保证TCP连接的可靠性。

为了避免混淆在TIME-WAIT状态连接上的处理的包是前一个连接迟到的包还是新连接的包,TCP协议规定在整个TIME-WAIT状态下,不能再建立同样的连接(即四元组一样的连接,但是可以利用处于TIME-WAIT的端口建立四元组不一样的连接)Linux的TCP/IP协议栈在判断一个处于TIME-WAIT状态的本地端口是否可以作为一个新连接的本地绑定端口时,需要对这个端口做一个是否可用的的判断(在四员组符合之后)。

下面是linux.2.6.32.70内核中这一部分逻辑的代码片段

在上面的逻辑中返回1表示可以用,返回0表示不可用,不可用后报的错是"EADDRNOTAVAIL", 也就是“[99][could not assigned requested address]”。从上面的代码逻辑中可以看出,当tcp_tw_resuse对能否重用处于TIME-WAIT状态的端口至关重要

  1. 若tcp_tw_resuse未打开,且没有空闲的窗口使用时,则会报“[99][could not assigned requested address]”的错误

  2. 若tcp_tw_reuse打开了,且处于TIME_WAIT状态端口的连续两次连接使用间隔要小于等于1秒,也会报“[99][could not assigned requested address]”的错误

验证:1的情况好理解,现在验证2的情况,这也是我们线上的客户端的情况,设定系统的port_range只有一个元素

$cat "net.ipv4.ip_local_port_range = 1024 1024" >> /etc/sysctl.conf && sysctl -p

然后客户端果然返回"[99][could not assigned requested address]"错误,验证成功。

[110][connection time out]

Linux的服务端从listen的端口建立的连接要经过两个队列的过渡,分别是SYN队列和ACCEPT队列。服务端接受到SYN请求后,会发送SYNACK,并把这个request sock存在SYN队列内;等到三次握手完成后,再存放到ACCEPT队列内;然后再由accept系统调用,从ACCEPT队列内拿出,交给用户使用。

SYN队列和ACCEPT队列都是有长度限制的,这个长度限制与以下三个参数有关:

a. 调用listen接口,传递给back_log参数; 
b. 内核参数somaxconn; //与ACCEPT队列相关 
c.内核参数tcp_max_syn_backlog; //与SYN队列相关

我们线上的问题主要是ACCEPT队列出现溢出造成的,所以这里主要分析ACCEPT队列长度限制的情况 。

在调用listen接口的时候,内核会用系统的somaxconn参数去截断传递给listen的back_log参数。下面是linux2.6.32-70的相关代码片段

上面的sk_max_ack_backlog就是listen端口的ACCEPT队列的最大长度 
当短链接的量太大,accept系统调用接口处理来不及时,ACCEPT队列就可能会阻塞溢出,这个时候,Linux的TCP/IP协议栈的做法是把新来的SYN请求丢弃掉( Accept backlog is full. If we have already queued enough of warm entries in syn queue, drop request. It is better than clogging syn queue with openreqs with exponentially increasing timeout.),这样当客户端设定的连接超时不够发送第二次SYN请求时,就会收不到服务端ack,连接建立失败,这个时候报的错误是ETIMEDOUT,也就是“[110][connection time out]“。

下面是linux.2.6.32-70的相关代码片段

在上面的代码段中,sk_acceptq_is_full(sk)是判断ACCEPT队列是否满了(队列长度限制已经在listen系统调用中被截断了,这也是为什么我们修改内核somaxconn内核参数,对当前应用程序的已经listen的端口的ACCEPT队列长度限制不产生影响的原因,需要重起,才能够使用新的内核参数),如果满了,而且SYN队列中又有新的没有完成握手的连接请求,则丢弃当前这个链接请求,这个时候的如果客户端设置的链接超时只够它发送一次SYN请求,则链接失败,发生“[110][connection time out]“报错。

验证: 
1.按照线上情况,设置somaxconn为128,listen接口的back_log为8192 运行一定数量的客户端,频繁的向服务端建立TCP链接,然后释放,观察情况 。
2.设置somaxconn为8192, 同时设置listen的接口的back_log参数也为8192,重复1的步骤。

上面是单个客户端的代码逻辑,很简单。

somaxconn为128

客户端大量报错

服务端

从上面的结果可以看出,被丢弃的SYNs在不断的增加

somaxconn为8192

客户端没有报错 
服务端

可以看出,这段时间内没有被丢弃的SYNs

总结

验证的结果和内核代码以及我们的预想是吻合的

解决办法

  1. 提高客户端的链接超时限制。当前是300ms,比如可以提升到3s等;

  2. 提高服务端的somaxconn限制,这是个指标不治本的方法,只能是一定程度的缓解。(修改内核的其他的网络参数也是一样,只能是缓解,并不能解决根本问题)。

  3. 在客户端使用连接缓冲池,将短链接转换成长链接来使用(个人认为这个才是更好的办法,一劳永逸)。

HULK一线技术杂谈

由360云平台团队打造的技术分享公众号,内容涉及云计算、数据库、大数据、监控、泛前端、自动化测试等众多技术领域,通过夯实的技术积累和丰富的一线实战经验,为你带来最有料的技术分享

TCP连接的99号和110号错误相关推荐

  1. 下面是以十六进制格式存储的一个 UDP 首部:~~~TCP连接使用1000字节的窗口值,而上一次的确认号是22001~~那么下一个报文段的序号是否就是 x + 1 呢?在本题中列出的 8 种情况下,画

    5-10 试说明运输层中伪首部的作用 用于计算运输层数据报校验和 5-11 某个应用进程使用运输层的用户数据报UDP,然而继续向下交给IP层后,又封装成IP数据报.既然都是数据报,可否跳过UDP而直接 ...

  2. TCP:SEQ号与ACK号

    三次握手Three-way Handshake 一个虚拟连接的建立是通过三次握手来实现的 1. (B) –> [SYN] –> (A) 假如服务器A和客户机B通讯. 当A要和B通信时,B首 ...

  3. TCP协议中的Ack和Seq号

    TCP协议中的Ack和Seq号 一.基本概念 seq:表示本次发送数据的偏移量,也就是从哪里开始发送数据. len:表示本次tcp携带的数据长度. ack:首先意味着已经收到对方多少字节数据,其次告诉 ...

  4. C++中比较大小的表达式中,小于号和大于号都是不能连着打的,要用连接起来

    C++中比较大小的表达式中,小于号和大于号都是不能连着打的,要用&&连接起来,这一点不同于日常的数学表达式,例如if(a<b<c)或者if(0<a<100)都是 ...

  5. 集装箱号识别率99.98%+实时返回结果高泛化,全球领先飞瞳引擎集装箱识别检测云服务全球三千企业使用,集装箱号识别铅封号识别免费

    集装箱号识别率99.98%+实时返回结果高泛化,全球领先飞瞳引擎集装箱识别检测云服务全球三千企业使用,集装箱号识别铅封号识别免费.CIMCAI是全球规模领先应用范围领先,核心技术领先的港航AI企业,工 ...

  6. [转帖]IP地址、子网掩码、网络号、主机号、网络地址、主机地址以及ip段/数字-如192.168.0.1/24是什么意思?...

    IP地址.子网掩码.网络号.主机号.网络地址.主机地址以及ip段/数字-如192.168.0.1/24是什么意思? 2016年03月26日 23:38:50 JeanCheng 阅读数:105674  ...

  7. 网络号和主机号具体计算原理-ipv4篇

    来自之前163网易博客,因博客倒闭,放CSDN供 大家学习. 1.标准分类的ip地址的网络号是, A类是前8位 B类是前16位 C类是前24位 举一个例子 如172.16.10.2,因为172.16. ...

  8. 关于IP网络号和主机号的原理

    网络号和主机号具体怎么弄出来的? ? ? ? 1.标准分类的ip地址的网络号是,  A类是前8位  B类是前16位  C类是前24位  举一个例子  如172.16.10.2,因为172.16.10. ...

  9. TCP连接的状态详解以及故障排查

    转载于https://blog.csdn.net/hguisu/article/details/38700899 我们通过了解TCP各个状态,可以排除和定位网络或系统故障时大有帮助.(总结网络上的内容 ...

最新文章

  1. 【leetcode】Remove Linked List Elements(easy)
  2. Idea 七步建立Spring Mvc 的web项目,极其简单
  3. spark python 上传代码包_使用 Livy Rest API 提交 spark 批量任务 (jar,Python, streaming)...
  4. C#根据网址生成静态页面
  5. 业务重点-实现一个简单的手机号码验证
  6. Android影视APP源码,影视APP源码,可打包成安卓苹果,亲测可用
  7. ERP仓库管理系统主要功能
  8. python怎么写代码求年华收益率_如何计算年化收益率?
  9. 美团一面:线程崩溃了,进程也会崩溃吗?
  10. 寂寞沙洲冷c语言程序,周传雄《寂寞沙洲冷》钢琴谱
  11. 【消息中间件MQ系列】消息队列之ActiveMQ、RocketMQ、RabbitMQ、Kafka不得不说的秘密
  12. 博图程序需要手动同步_西门子博途S7-1200 PWM 功能组态及编程方法
  13. Sothink.SWF.Decompiler.v4.5-SHOCK
  14. 踩坑日常_MinGW-w64安装教程及踩坑记录
  15. 智能车竞赛技术报告 | 智能车视觉 - 中国海洋大学 - The Waves
  16. 【人工智能】观看人工智能 (AI) 入门课程,一起来看看都讲了什么
  17. 静态网页 爬虫实战(二)
  18. Java BufferedReader类简介说明
  19. 如何修改安卓界面上的图片和文字
  20. 一个后端程序员如何被公司逼的开始写前端代码!奉劝各位最好选择前后端分离的公司...

热门文章

  1. LG电子计划到2010年实现利润翻番
  2. Intellij Idea插件利器推荐大全
  3. 设计模式之不简单的工厂模式(三)
  4. 设计模式综和实战项目x-gen系列二
  5. VMware ESX 5.0 网卡负载均衡配置3种方法
  6. 《日志管理与分析权威指南》一1.6 人、过程和技术
  7. Mysql取分组中前N条记录
  8. ffmpeg,rtmpdump和nginx rtmp实现录屏,直播和录制
  9. ***常用的***手段
  10. Leetcode Math刷题笔记