目录

1.端口与socket

2.端口耗尽

3.socket资源耗尽

4.回到正题来


解决方案:

echo "net.ipv4.ip_local_port_range = 1024 65535" >> /etc/sysctl.conf
echo "net.ipv4.tcp_mem = 786432 2097152 3145728">> /etc/sysctl.conf
echo "net.ipv4.tcp_rmem = 4096 4096 16777216">> /etc/sysctl.conf
echo "net.ipv4.tcp_wmem = 4096 4096 16777216">> /etc/sysctl.conf
sysctl -p /etc/sysctl.conf

起因:同事在服务器上部署了单个golang编写的HTTPDNS实例,一个固定的端口9981对外提供服务。当QPS达到几十万以上时,该实例崩溃,且无法再次启动

dmesg 查看系统日志,发现大量日志,如下:

TCP:too many orphaned sockets

看到这个日志想到了可能是sockets资源耗尽了。下面来分析下如何解决吧

1.端口与socket

端口

Linux下端口号范围0~65535,其中0~1023是系统保留端口号,1024~65535是用户可使用端口号,Linux下默认用户可用端口号范围如下:

cat /proc/sys/net/ipv4/ip_local_port_range
32768   60999

可用端口号为28232个,可以通过参照https://charlescui.iteye.com/blog/341713这个链接中的方式修改

socket

要明确两点:

  1. 端口并不等同于socket ,网络中每个通信实体的 socket 是用一个三元组标识的。三元组指的是:协议族(地址族),网络地址、和传输层端口 (某些时候其实也可以把协议族去了,理解为二元组)。socket pair(也就是一个TCP连接中两端的socket)则是(source_ip;source_port;destination_ip;destination_port)组成的四元组,socket pair唯一标识一个网络上的每个TCP连接。其中任意一元不同,都是一个新的新的连接。参考:《TCP-IP详解》卷一
  2. 在Linux中,一切都可以看成文件,包括磁盘,外设等,内核(kernel)利用文件描述符(file descriptor)来访问文件。文件描述符是非负整数,打开现存文件或新建文件时,内核会返回一个文件描述符。读写文件也需要使用文件描述符来指定待读写的文件。socket是一个抽象出来的概念,本质上也是一个文件描述符。
    参考:《unix网络编程》·卷1

2.端口耗尽

上面已经写了,端口号是有范围的,因此可能存在被耗尽的风险。
这种情况一般是出现在客户端机器上的。因为一般服务端都是固定端口的,由客户端动态的使用一个端口号,与目标服务器连接。
比如下面的客户端代码:

# 创建 socket 对象
s = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
host = '10.32.4.95'
port = 9999
# 连接服务,指定主机和端口
s.connect((host, port))

客户端都是动态的使用一个端口号,来连接服务端(10.32.4.95:9999),如果在客户端上不断的同服务端建立连接,那么客户端端口号可能被耗尽。压测的时候就算是使用短连接也可能导致客户端端口被耗尽。
因为TCP四次挥手最后过程,主动关闭连接的一端都会处于TIME_WAIT等待2MSL,一般是60s

修改内核参数主要目标就是加快TIME_WAIT状态套接字的回收(快速回收无效连接)

客户端:

#开启TCP连接中TIME-WAIT套接字的快速回收
net.ipv4.tcp_tw_recycle=1     #开启重用,表示是否允许将处于TIME-WAIT状态的socket(TIME-WAIT的端口)用于新的TCP连接 。
net.ipv4.tcp_tw_reuse=1       #对于本端断开的socket连接,TCP保持在FIN-WAIT-2状态的时间(秒)。
#对方可能会断开连接或一直不结束连接或不可预料的进程死亡。
net.ipv4.tcp_fin_timeout=5      #TCP时间戳(会在TCP包头增加12个字节),以一种比重发超时更精确的方法(参考RFC 1323)
#来启用对RTT 的计算,为实现更好的性能应该启用这个选项。
net.ipv4.tcp_timestamps=1    #收缩TIME_WAIT状态socket的回收时间窗口
net.ipv4.tcp_tw_timeout=3

一般也就上面这些参数,参考:
https://woodding2008.iteye.com/blog/2336704
https://blog.csdn.net/leijie0322/article/details/70821237

3.socket资源耗尽

注意,是资源耗尽,并不是socket耗尽,资源耗尽是指什么呢?严格来讲,socket是一个三元组(或者说二元组),一抽象出来的东西因此我觉得不存在socket耗尽的说法,但由于socket本质是一个文件描述符,因此存在文件描述符被耗尽的可能,下面再说
引用下这个总结

linux系统单机支持的tcp连接数主要受三个方面的限制:
1.文件描述符的限制 (socket本质上也是一个文件描述符)
2.系统内存限制
3.Linux内核的限制

参考:https://blog.csdn.net/ybxuwei/article/details/77969032

对于上面三点,一一说明一下
文件描述符的限制:在64位的系统上,文件描述符单机可以达到20亿+,因此这个限制基本不用考虑,绝对够用
系统内存限制:一个socket连接大概占用4~10Kb内存,要想单机1百万连接,那么就至少需要大概4G内存。这个用量对于现在的服务器来说还是很轻松就满足的
因此最关键的在于 Linux内核的限制,如果突破了这个限制就会出问题。
Linux对TCP、UPD连接是做了内存限制的,通过以下命令查看

cat /proc/sys/net/ipv4/tcp_mem
186135  248180  372270cat /proc/sys/net/ipv4/udp_mem
372270  496361  744540

上面的数据 (参考连接)
第一个:low:当TCP使用了低于该值的内存页面数时,TCP不会考虑释放内存。
第二个:pressure:当TCP使用了超过该值的内存页面数量时,TCP试图稳定其内存使用,进入pressure模式,当内存消耗低于low值时则退出pressure状态。
第三个:high:允许所有tcp sockets用于排队缓冲数据报的页面量,当内存占用超过此值,系统拒绝分配socket,后台日志输出“TCP: too many of orphaned sockets” (应该是Out of Socket memory)。
如果超过最大限制,dmesg中会报Out of Socket memory错误,且程序会被杀死
上面的数据单位是页,页大小通过以下命令查看

 getconf PAGESIZE
4096

1 page =4096 byte
计算下得到,在我的电脑上Linux默认TCP连接可使用的内存上限是:1.4GB左右,当然了这个是我笔记本上的参数,服务器上的会更大
可以通过如下图所示命令查看tcp socket使用情况
[]

tcp_mem是设定了所有tcp连接能够使用的内存大小,此外对于单个tcp连接还可以调节一下参数:
rmem_max最大的TCP数据接收缓冲
wmem_max最大的TCP数据发送缓冲
tcp_rmem
tcp_wmem
这几个是tcp读写缓冲区的大小。

echo "net.ipv4.tcp_mem = 786432 2097152 3145728">> /etc/sysctl.conf
echo "net.ipv4.tcp_rmem = 4096 4096 16777216">> /etc/sysctl.conf
echo "net.ipv4.tcp_wmem = 4096 4096 16777216">> /etc/sysctl.conf

对于一般情况来说,上面的操作就已经足够了:保证能提供足够的连接数和足够的内存

但是还应该考虑soconnmax这个参数,这个参数限制了socket接收新 TCP 连接侦听队列的大小,在高并发的请求中,默认的值可能会导致链接超时或者重传。默认是128,挺小的,对于一个经常处理新连接的高负载 web服务环境来说建议调大。
参考:
https://blog.51cto.com/wujianwei/2104779
https://jaminzhang.github.io/linux/understand-Linux-backlog-and-somaxconn-kernel-arguments/
http://www.blogjava.net/yongboy/archive/2014/07/30/416373.html
https://fixatom.com/some-doubts-and-misunderstandings-of-tcp/

4.回到正题来

dmesg中出现tcp too many orphaned sockets信息是为什么呢?HTTPDNS服务器中,一般都是一些短连接,因此会产生大量orphan socket
什么是orphan socket?

First of all: what’s an orphan socket? It’s simply a socket that isn’t associated to a file descriptor. For instance, after you close() a socket, you no longer hold a file descriptor to reference it, but it still exists because the kernel has to keep it around for a bit more until TCP is done with it. Because orphan sockets aren’t very useful to applications (since applications can’t interact with them), the kernel is trying to limit the amount of memory consumed by orphans, and it does so by limiting the number of orphans that stick around. If you’re running a frontend web server (or an HTTP load balancer), then you’ll most likely have a sizeable number of orphans, and that’s perfectly normal.

意思就是说:orphan sockets是没有与任何文件描述符关联的socket,当你调用close()关闭一个socket后,你就不再拥有这个socket的引用了,但是它仍然存在与操作系统中,直到TCP完成挥手流程。因为orphan sockets对程序来说没有什么用,因此内核会限制其数量

Linux内核对orphaned sockets也做出了限制

cat /proc/sys/net/ipv4/tcp_max_orphans
65536

要避免这种情况,可以将tcp_max_orphans的值也设大一点,并且建议同时也参照上述2(快速回收无效连接),3(增加TCP socket可使用内存)进行优化
也看到一些建议修改net.ipv4.tcp_orphan_retries参数的

linux 网络错误 TCP: too many orphaned sockets 解决方法相关推荐

  1. linux 挂载错误 mount: unknown filesystem type LVM2_member 解决方法

    系统启动到request_module: runaway loop modprobe binfmt-464c挂起 利用U盘系统,挂载硬盘出现:mount: unknown filesystem typ ...

  2. tcp too many orphaned sockets 问题引发的思考

    起因:同事在服务器上部署了单个golang编写的HTTPDNS实例,一个固定的端口9981对外提供服务.当QPS达到几十万以上时,该实例崩溃,且无法再次启动 dmesg 查看系统日志,发现大量日志,如 ...

  3. Linux网络-UDP/TCP协议详解

    Linux网络-UDP/TCP协议详解 零.前言 一.UDP协议 二.TCP协议 1.应答机制 2.序号机制 3.超时重传机制 4.连接管理机制 三次握手 四次挥手 5.理解CLOSE_WAIT状态 ...

  4. Linux网络编程之IP地址转换为无符号整数的方法

    Linux网络编程之IP地址转换为无符号整数的方法,代码如下:(没考虑异常输入) #include <stdio.h> #include <string.h> #include ...

  5. linux系统找不到网卡配置文件,Linux系统Centos没有网卡eth0配置文件的解决方法

    Linux系统Centos没有网卡eth0配置文件的解决方法 大家都知道linux系统一般作为服务器来用,而且很多情况的设置都是需要通过字符界面修改配置文件来设置.比如说配置网卡IP是修改/etc下面 ...

  6. linux找不到动态链接库 .so文件的解决方法(转自:http://www.cnblogs.com/xudong-bupt/p/3698294.html)

    linux找不到动态链接库 .so文件的解决方法 如果使用自己手动生成的动态链接库.so文件,但是这个.so文件,没有加入库文件搜索路劲中,程序运行时可能会出现找不到动态链接库的情形. 可以通过ldd ...

  7. Linux下安装mysql后无法启动的解决方法

    在Linux下安装完mysql后,mysql服务无法启动,总是failer.       这个不是因为mysql安装失败,而是因为启动了SELinux.       进入/etc/selinux/co ...

  8. win7无法打开无线网络服务器,笔记本win7系统无线网络连接受限制或无连接的解决方法...

    笔记本win7系统无线网络连接受限制或无连接的解决分享给大家,随着网络科技的发展,无线网络已经在广泛的被使用了,而在使用过程中会遇到一些问题,比如遇到无线网络连接受限制,导致无法连接,这是怎么回事呢? ...

  9. win7打不开计算机网络连接,win7系统有网络但是打不开网页的解决方法【图文】...

    ‍ ‍电脑上有显示连接网络但是打不开网络怎么回事?win7 32位旗舰版系统用户就遇上了这样的问题,那么要怎么让网页恢复正常使用呢?且看以下的教程.‍ 具体的解决方法: 解决方法1: 1.建议下载并安 ...

最新文章

  1. 一文看懂Modbus协议
  2. 活动 | 智源学者计划启动暨联合实验室发布会(4月16日)
  3. 初心大陆-----python宝典之以外学习对比去重
  4. 算法导论chapter6 堆排序的代码
  5. Android之UI控件
  6. Android复习10【Service与Thread的区别、Service的生命周期、Service生命周期解析(相关方法详解、启动方式的不同、绑定)、音乐播放器+服务】
  7. Shell case esac语句
  8. 如何结合IbatisNet的LIST遍历实现模糊查询
  9. 使用默认Model Binding支持集合类
  10. python刷新_如何在python中刷新输入流?
  11. R中Factor类型选取子集
  12. CentOS6.9快速安装配置svn
  13. 前端MVC学习总结(三)——AngularJS服务、路由、内置API、jQueryLite
  14. ofo 辟谣滴滴收购;美团饿了么回应数据泄露;金立转战海外 | CSDN 极客头条
  15. 《诗经》(全集) (2)
  16. 10本深入学习Spring框架的最佳书籍和课程
  17. windows系统安全基础知识——系统进程与病毒
  18. python中,除法运算后取整数的几种情况
  19. 直播倒计时android,直播代码,Android实现验证码倒计时
  20. uniapp 模块权限配置 权限管理中英对照

热门文章

  1. Kubernetes — Kubespray 开箱即用的部署工具
  2. 简易的 Linux 流量实时监控工具 watch+ifstat
  3. PyQt4 Python GUI窗体应用程序
  4. NanoPi NEO Air使用十五:使用V4L2驱动USB摄像头
  5. 一致性哈希算法介绍,及java实现
  6. python3 爬淘女郎
  7. [js对象]JS入门之Global对象
  8. C语言按要求打印数组
  9. 正则表达式贪婪与懒惰
  10. Exchange2010配置实验(六)部署forefront到edge服务器