笔者之前分享过两篇有关生产中疑难杂症的解决问题,效果出乎意料的好,其实工作这么多年,有关疑难杂症的素材真是遇到得很多,也值得好好总结一下,那么今天就继续和大家分享一下在日常工作中碰到的难解问题,当然具体的敏感信息我会略去,只是把问题的现象和经验总结一下,避免大家再踩坑。

近年来由于云计算的不断盛行,很多企业的数据中心都开始了大规模的扩容之旅,其中不少网络规划中都将用于部署备份、监控设备的网络区域,单独划分成一个大的子网,没有进行进一步的规划,在监控服务器随着生产业务服务节点一并扩容时,实际中发现两个问题,

  1. 是在子网内部无法互相ping通
  2. 跨子网可以Ping通,但是却无法建立连接。

这两个现象其实对应了两个问题,如果单拿出来一个问题都很很快解决,但是两个简单问题混杂在一起,解决起来还真是费了一番周折。具体问题情况如下图:

同子网缘何ping不通?

首先我们最开始先尝试将两个问题合并,认为是由同一个原因引起的,这里我们做了很多尝试,后来发现一个关键的信息,

一、arpping的提示

即使用arpping命令互ping,可以让同一子网内的两台节点恢复连通性。即先在两台机器上执行

1.ping 对端ip,结果不通:

2.arpping 对端ip

3.ping 对端ip:结果恢复通讯

二、系统日志输出为何无异常

即我们基本定位到这是由于arp表的原因造成的,我们知道同子网内的节点互访是不过网关的,因此arpping刷新本机arp表即可恢复连通性的情况,让我们基本排除了网络设备的问题,而把目光集中到了节点自身的arp配置。

但是奇怪的是如果真是arp配置错误造成网络不通,那么系统的syslog为何没有反应呢?我首先排除这个日志的问题,经排查发现,Linux对于内核日志的打印是有限制的,具体如下:

1. /proc/sys/kernel/printk_ratelimit 限制的时间间隔,默认值是5

2. /proc/sys/kernel/printk_ratelimit_burst 时间间隔内的最大打印条数,默认值是10

也就是默认的打印速率是每5秒最多打印10条。

因此基本确定报错日志受到限制而未输出。

三、Linux默认arp表的大小才是主因

排查到这步已经相对比较明确了,就是同子网内相关服务器的配置问题,经进一步确认Linux默认arp表大小为1024,而一般将所有备份、监控的网络区域全部划归为一个子网的做法,导致只有1024大小的arp表溢出,而且发生问题的监控、备份服务器中还安装了很多安全类的软件,都通过printk输出syslog,Linux内核日志打印限制速度的情况下,arp表满的问题并没有通过系统syslog报出来。

四:整改措施

1.调整内核参数

vi /etc/sysctl.conf

修改以下配置进行修改:

net.ipv4.neigh.default.gc_thresh1 = 512

net.ipv4.neigh.default.gc_thresh2 = 2048

net.ipv4.neigh.default.gc_thresh3 = 10240

2、更新配置

sysctl -p

当然我们确定了arp表的问题是造成同子网内部机器不通的原因后,其实也就基本确定了跨网段还是无法telnet建链的问题另有原因。因为跨网是要通过网关的。

跨网为何无法telnet?

在解决了同网段的问题之后,跨网无法telnet的问题还是存在问题,其实从结果上看这是一个比较典型的低级错误,简要分享一下相关排查过程。

  • 跨网ping可通,但新部署的节点无法建立到对应端口的连接,老部署长链接未断,但是无法实际传送数据

1.ping 跨网的对端ip,结果通:

2.新监控节点:telnet 对端ip 监控响应端口 不通

3.老监控节点:netstat -an|grep 监控响应端口,状态为ESTABLISHING,但此链路无流量

二、检查监控节点service列表发现iptables被启动

1.执行chkconfig --list

2.发现iptables服务的状态为running

3.停止iptables发现过一段时间还会被自动拉起

三、确认是安全软件策略的配置问题

由于我们的规范中iptables是默认不开启的,最终确认是由于安全软件误将备份、监控子网纳入iptables的启动清单中所导致。而iptables的白名单配置为空,这也导致了他们到生产节点的监控端口不通,其实这与跨不跨网没有关系。

四、iptables本质是基于hook机制的内核模块

什么hook可以参考笔者前文《疑难杂症:Linux下杀毒软件CPU占用率为何持续升高》,iptables本身其实也是一个基于netfilter的hook软件,不过他不会对于已经建立好链接强行断链,只是会将相应流量阻止,因此对于老服务来说他的长链接早在iptables启动之前就已经建立了,因此这个链接虽然不在iptables的白名单还可以存续一段时间,但无法发包,而新服务器干脆链接都建立不了。

疑难杂症:同网段ping不通,跨网段建不了链,怎么破?相关推荐

  1. 能够PING通同网段的节点, 但却PING不通其他网段的所有节点的最可能的原因是

    能够PING通同网段的节点, 但却PING不通其他网段的所有节点的最可能的原因是 A: 本机网关设置错误 B: 本机没有正确设置DNS C: 对方运行的是不同的操作系统 D: 二层交换机故障 正确选项 ...

  2. 能ping通本网段,ping不通其他网段

    win7进行了网卡绑定,关闭了防火墙,ip地址.子网掩码.网关跟其他终端比对正常,能ping通本网段及网关,ping不通其他网段.换了其他能ping通其他网段的IP及连接交换机的端口,还是原现象.后取 ...

  3. smb协议只能在同一网段吗_跨网段使用SMB共享服务

    环境说明 网段1:192.168.0.0/24 网段2:192.168.1.0/24 两个网段之间可以使用IP地址进行互相访问.但是无法使用主机名(HostName)访问. 处理过程 问题原因 直接使 ...

  4. Windows系统ping不通同网段主机解决方法

    ​ 在实验过程中,检查俩主机是否建立网络连接最简单的方法就是看是否能够相互ping通.我们往往发现自己的主机无法ping通同一网段主机,虚拟机无法ping通主机或者主机无法ping通虚拟机. 解决方法 ...

  5. linux跨网段获取主机名,跨网段NetBios主机名无法解析该如何处理

    跨网段NetBios主机名无法解析该如何处理 本文主要给大家详细的介绍了对于用户主机如果与他要访问的主机不在同一个网段的话,就可能无法把主机名转换为IP地址就无法通过主机名来访问另一个网段的主机.遇到 ...

  6. ONE DAY |网络安全渗透测试之跨网段攻击

    目录 ​​​​​​一.网络安全 1.什么是渗透测试? 2.渗透测试的完整流程 3.渗透测试方法 二.实验阶段 1.实验项目名称 2.实验所需工具 3.实验目的及要求 作业要求: 4.实验开始 1.配置 ...

  7. 何解决柯尼卡美能达 bizhub C226 MFP 跨网段不能打印?

    何解决柯尼卡美能达 bizhub C226 MFP 跨网段不能打印? ©Lander Zhang 专注外企按需IT基础架构运维服务,IT Helpdesk 实战培训践行者 https://blog.5 ...

  8. ARP 协议工作原理(同网段及跨网段)

    目录 一.ARP简介 二.ARP的工作原理 三.ARP协议在同网段工作原理 四.ARP协议在不同网段工作原理 一.ARP简介 ARP全称是"Address Resolution Protoc ...

  9. 社死,客户现场网络一直ping不通咋办?

    网络ping不通是网络中出现频率最高的故障之一,同时也是最让人抓狂的故障,基本上大部分人都遇到过了,如果在项目中出现网络ping不通,没有一个有序的方法去排除解决,那么很难入手,也是讨论最多的问题之一 ...

最新文章

  1. 用cookie实现保存密码
  2. 编译时检查JPA查询
  3. 面试--输入一堆随机数(0-1000),这里面会有重复的数字,把他们去除掉。然后由大到小排列。
  4. sklearn保存svm分类模型_【菜菜的sklearn】07 支持向量机(上)
  5. Java数组实现五子棋功能
  6. 【Qt串口波形绘图】基于QCustomPlot的串口波形绘图上位机,源码开放
  7. 从头开发一个 RPC 是种怎样的体验?
  8. Oracle查看表空间使用率及爆满解决方案
  9. 【WPS】数学公式用插入打的 为什么公式显得比字体靠上
  10. 游戏音效制作《航海王:热血航线》奇亿音乐
  11. mysql存储特殊表情符号_解决mysql存储特殊文字(表情符号)utf8mb4-阿里云开发者社区...
  12. Python tkinter(GUI编程)模块最完整讲解(上)
  13. layui 借助 parseData 回调函数解析table 组件所规定的数据格式
  14. Tomcat 启动速度慢,一直转圈的原因
  15. java计算机毕业设计的小区物业管理系统源程序+mysql+系统+lw文档+远程调试java计算机毕业设计的小区物业管理系统源程序+mysql+系统+lw文档+
  16. Android指南针代码示例
  17. 分享一个python生成ico图片程序
  18. C++格式化输入输出控制----iomanip
  19. 打电话一直显示服务器错误是为什么,打电话总是显示连接失败如何解决
  20. 手机照片局部放大镜_最强单摄手机?新iPhone SE拍照体验

热门文章

  1. 软件工程专业的论文答辩_软件工程专业论文答辩一般都会问些什么问题啊?(我们老师没联系过我们,什么都不知道)?...
  2. android系统电视升级包下载地址,海美迪HD600A四代官方固件ROM升级包下载_升级教程...
  3. vue中的数字动画及数字逗号显示
  4. 三菱PLC第一篇:GXWORK3与三菱FX5UPLC同通过交换机连接
  5. 隐藏index.php
  6. RGB排列和Pentile排列有什么区别
  7. html 实现在线选房,线上开盘选房技巧有哪些
  8. unity保存游戏对象到mysql_非常好用的游戏数据保存类:ScriptableObject
  9. AI遮天传 ML-SVM
  10. 【Flink】Flink中的窗口API、窗口函数以及迟到数据处理问题