本文出自 “技术成就梦想” 博客,请务必保留此出处http://ixdba.blog.51cto.com/2895551/1432521

一、问题现象

这是一个基于Java的Web应用系统,在后台添加数据时提示无法添加,于是登录服务器查看tomcat日志,发现了如下异常信息:

java.io.IOException: Too many open files

通过这个错误,基本判断是系统可用的文件描述符不够了,由于tomcat服务是系统www用户启动的,于是用www用户登录系统,通过“ulimit -n”命令查看系统可以打开最大文件描述符的数量,输出如下:

[www@tomcatserver ~]$ ulimit  -n

65535

可以看到这个服务器设置的最大可打开的文件描述符已经是65535了,这么大的一个值应该够用了,但是为什么还是提示这么个错误呢?


二、解决思路

这个案例涉及到linux下ulimit命令的使用,这里简单介绍下ulimit的作用和使用技巧。ulimit主要是用来限制进程对资源的使用情况的,它支持各种类型的限制,常用的有:

内核文件的大小限制

进程数据块的大小限制

Shell进程创建文件大小限制

可加锁内存大小限制

常驻内存集的大小限制

打开文件句柄数限制

分配堆栈的最大大小限制

CPU占用时间限制用户最大可用的进程数限制

Shell进程所能使用的最大虚拟内存限制

ulimit使用的基本格式为:

ulimit [options] [limit]

具体的options参数含义如下表所示:

选项 含义

-a 显示当前系统所有的limit资源信息。

-H 设置硬资源限制,一旦设置不能增加。

-S 设置软资源限制,设置后可以增加,但是不能超过硬资源设置。

-c 最大的core文件的大小,以 blocks 为单位。

-f 进程可以创建文件的最大值,以blocks 为单位.

-d 进程最大的数据段的大小,以Kbytes 为单位。

-m 最大内存大小,以Kbytes为单位。

-n 可以打开的最大文件描述符的数量。

-s 线程栈大小,以Kbytes为单位。

-p 管道缓冲区的大小,以Kbytes 为单位。

-u 用户最大可用的进程数。

-v 进程最大可用的虚拟内存,以Kbytes 为单位。

-t 最大CPU占用时间,以秒为单位。

-l 最大可加锁内存大小,以Kbytes 为单位。

在使用ulimit时,有以下几种使用方法:

(1)在用户环境变量中加入

如果用户使用的是bash,那么就可以在用户目录的环境变量文件.bashrc或者.bash_profile中加入“ulimit -u 128”来限制用户最多可以使用128个进程。

(2)在应用程序的启动脚本中加入

如果应用程序是tomcat,那么就可以在tomcat的启动脚本startup.sh脚本中加入“ulimit -n 65535”来限制用户最多可以使用65535个文件描述符。

(3)直接在shell命令终端执行ulimit命令

这种方法的资源限制仅仅在执行命令的终端生效,退出或者关闭终端后,设置失效,并且这个设置不影响其它shell终端。

有时候为了方便起见,也可以将用户资源的限制统一由一个文件来配置,这个文件就是/etc/security/limits.conf,该文件不但能对指定用户的资源进行限制,还能对指定组的资源进行限制。该文件的使用规则如下:

<domain> <type> <item> <value>

其中:

domain表示用户或者组的名字,还可以使用 * 作为通配符,表示任何用户或用户组。

Type 表示限制的类型,可以有两个值,soft 和 hard,分别表示软、硬资源限制。

item 表示需要限定的资源名称,常用的有nofile、cpu、stack等。分别表示最大打开句柄数、占用的cpu时间、最大的堆栈大小。

value 表示限制各种资源的具体数值。

除了limits.conf文件之外,还有一个/etc/security/limits.d目录,可以将资源限制创建一个文件放到这个目录中,默认系统会首先去读取这个目录下的所有文件,然后才去读取limits.conf文件。所有资源限制设置完成后,退出shell终端,再次登录shell终端后,ulimit设置即可自动生效。


三、解决问题

在介绍了ulimit知识后,紧接着上面的案例,既然ulimit设置没问题,那么一定是设置没有生效导致的,接下来检查下启动tomcat的www用户环境变量下是否添加了ulimit限制,检查发现,www用户下并无ulimit资源限制,于是继续检查tomcat启动脚本startup.sh文件中,是否添加了ulimit限制,检查发现也并无添加,最后考虑是否将限制加到了limits.conf文件中,于是检查limits.conf文件,操作如下:

1
2
3
[root@tomcatserver ~]# cat /etc/security/limits.conf|grep www
www soft nofile 65535
www hard nofile 65535

从输出可知,ulimit限制是加在了limits.conf文件中,既然限制已经加了,配置也没有错,为何还是报错呢,经过长时间思考,判断只有一种可能,那就是tomcat的启动时间早于ulimit资源限制的添加时间,于是首先查看下tomcat的启动时间,操作如下:

1
2
3
4
5
6
7
8
9
[root@tomcatserver ~]# more /etc/issue
CentOS release 6.3 (Final)
Kernel \r on an \m
[root@tomcatserver ~]# uptime
 15:10:19 up 283 days,  5:37,  4 users,  load average: 1.20, 1.41, 1.35
[root@tomcatserver ~]# pgrep –f  tomcat                     
4667
[root@tomcatserver ~]# ps -eo pid,lstart,etime|grep 4667
4667 Sat Jul  6 09:33:39 2013 77-05:26:02

从输出看,这台服务器已经有283天没有重启过了,而tomcat是在2013年7月6号9点多启动的,启动了近77天零五个半小时了,接着继续看看limits.conf文件的修改时间,操作如下图所示:

通过stat命令可以很清楚的看出,limits.conf文件最后的修改时间是2013-07-12,通过查问相关的Linux系统管理人员,他们基本确认就是在这个时候添加的ulimit资源限制,这样此案例的问题就很明确了。由于ulimit限制的添加时间晚于tomcat最后一次的启动时间,而在此期间内,tomcat服务一直未重启过,操作系统也一直未重启过,那么ulimit资源限制对于tomcat来说始终是不生效的,同时,由于此操作系统是Centos6.3,系统默认的最大可用句柄数是1024,那么java进程还是用的Linux默认的这个值,出现“Too many open files”的错误,也是合乎情理的。

问题清楚之后,解决问题的方法非常简单,重启tomcat服务即可。

运维实战案例之“Too many open files”错误与解决方法相关推荐

  1. linux list 添加失败,linux运维实战案例之Argument list too long错误与解决方法

    1.错误现象 这是一台Mysql数据库服务器,在系统中运行了很多定时任务,今天通过crontab命令又添加了一个计划任务,退出时发生了如下报错: #crontab -e 编辑完成后,保存退出,就出现下 ...

  2. 运维实战案例之文件已删除但空间不释放问题解析

    1.错误现象 运维的监控系统发来通知,报告一台服务器空间满了,登陆服务器查看,根分区确实没有空间了,如下图所示: 这里首先说明一下服务器的一些删除策略,由于Linux没有回收站功能,我们的线上服务器所 ...

  3. linux服务器运维实战记录,linux运维好书推荐《高性能Linux服务器运维实战》

    本书整体分为4个篇幅,以Linux运维平台下的开源应用软件为中心,涉及Linux运维的各个方面,主要从系统基础运维(命令.shell编程).系统性能调优.智能运维监控平台构建.运维实战案例四个方面展开 ...

  4. 运维人员mysql如何访问_MySQL运维实战 之 PHP访问MySQL你使用对了吗

    原标题:MySQL运维实战 之 PHP访问MySQL你使用对了吗 大家都知道,slow query系统做的好不好,直接决定了解决slow query的效率问题 一个数据库管理平台,拥有一个好的slow ...

  5. 《VMware vSphere 6.5企业运维实战》已经出版

    <VMware vSphere 6.5企业运维实战>已经由人民邮电出版社出版,购买链接: https://item.jd.com/26391828617.html 本书以vSphere 6 ...

  6. 大数据运维实战第一课 大话 Hadoop 生态圈

    你好,欢迎来到<大数据运维实战>专栏. 入行以来,我从事大数据运维也有十多年了,期间我做过系统运维.DBA,也做过大数据分析师,最后选择了大数据运维方向,曾设计并管理超过千台.PB 级的数 ...

  7. 重磅!由Linux面试出发,看清华大佬教你如何企业级运维实战

    其实当时没有想到去面试,只是在智联上更新了一下简历,就陆陆续续接到很多公司的邮件和电话,闲话少说,下面就分享给大家面试Linux的经历: 首先,公司HR会把公司的介绍及岗位要求发到你邮箱(或者QQ.微 ...

  8. python运维实战--跨堡垒机连接二级服务器上传文件

    python运维实战--跨堡垒机连接二级服务器上传文件 paramiko的有关概念和操作 Welcome to Paramiko! - Paramiko documentation 这个python脚 ...

  9. 《Splunk智能运维实战》——3.11 制作折线图显示项目浏览量和购买量随时间的变化...

    本节书摘来自华章计算机<Splunk智能运维实战>一书中的第3章,第3.11节,作者 [美]乔史·戴昆(Josh Diakun),保罗R.约翰逊(Paul R. Johnson),德莱克· ...

最新文章

  1. Java注解(Annotation)详解
  2. 从range和xrange的性能对比到yield关键字(中)
  3. 让product description 成为mandatory field
  4. 关于Unsafe类的一点研究
  5. java位运算求幂,程序员必学:快速幂算法
  6. C++中类所占内存,父类与子类所占内存大小的关系(详细记忆)
  7. stm32cubeide 汉化包_经过两天瞎折腾,分享下STM32CUBE IDE的用法
  8. python读取excel数据绘制简单曲线图
  9. python学习之编写学员管理系统
  10. 深度学习在情感分类中的应用
  11. 那些年的自动驾驶仿真软件
  12. Java面试基础知识III
  13. Metasploit的简单应用
  14. 一般网站有哪些常见漏洞?
  15. Macbook Pro 外接显卡实现Tensorflow GPU运行之MacOS系统重装
  16. Saber仿真软件no active design解决方法
  17. mybatis 项目启动时报“Result Maps collection already contains value forxxx”错误
  18. ATtiny13与Proteus仿真-TM1637简单时钟仿真
  19. 常用的android开发框架有哪些
  20. Zedboard开发板的linux搭建

热门文章

  1. 一些SharePoint 2007开发的在线课程
  2. 西门子修复因使用第三方组件引起的90多个漏洞
  3. django获取字段列表(values/values_list/flat)
  4. 云计算网络基础第一天
  5. SYSTEM 表空间管理及备份恢复
  6. IT人士|不可不知的10个行业内幕
  7. 消息通知的正向和反向
  8. 同步 Github fork 分支
  9. 面试题32.从1到n整数中1出现的次数
  10. 当post 的字段很多,post的字段并不完全修改(有的值是前端input的值,有的任保留原来原来数据库的值),...