近期国内很多用户曝出在阿里云的环境中无法使用Rancher的VXLAN网络,现象是跨主机的容器无法正常通信,healthcheck服务一直无法更新正常状态。经过一系列走访排查,最终定位此现象只发生在阿里云的经典网络环境下。如果你也遭遇了同样的情况,请关注此文。

阿里云经典网络部署最新的stable(v1.6.7)版本并启用VXLAN网络,使用经典网络的内网IP加入两台主机,现象如下:

Rancher的VXLAN网络除了VXLAN本身的机制外,还需要在IPtables中的RAW表中进行数据包标记,然后在Filter表中对标记数据包设置ACCEPT规则,进而实现容器跨主机通信。但是在阿里云经典网络环境中,无论如何配置安全组功能,RAW表中始终无法匹配进入主机栈的数据包。

依据“大胆假设,小心求证”的troubleshooting原则,首先我们验证了使用经典网络的公网IP注册主机,VXLAN并没有问题,这说明存在某种安全规则是作用在经典网络的内网IP的。

其次,我们知道Rancher VXLAN的实现是基于Linux kernel的VXLAN module,IPtables的数据包处理也基本是kernel处理,所以理论上讲肯定系统中存在权限更高的组件截获了VXLAN的数据,因为我们测试了在其他公有云环境并无此问题,考虑阿里云会对经典网络的内网安全做诸多限制,所以怀疑阿里云镜像内做了一些特殊的定制。

以过往使用阿里云的经验,我们对系统中内置的“安全加固”组件疑惑很大,尝试删除这个组件,可以使用这个脚本 http://update.aegis.aliyun.com/download/uninstall.sh ,但重启机器后发现VXLAN网络依然不通。无法确定是否存在删除不彻底的情况,所以重建环境并在创建VM时选择去掉“安全加固”选项。

重新添加主机,发现VXLAN一切恢复正常。

我们也正在尽力与阿里云官方取得联系,确认这种情况是否存在误杀。当前可选择的临时方案除了按照上面的说明删除“安全加固”组件外,还可以在创建VM的时候选择不使用安全加固镜像,这样Rancher VXLAN就可以正常工作。

在这里,非常感谢社区用户的热情发问,没有大家对技术专注的态度和刨根问底的精神,Rancher也无法真正发现问题的根源,Rancher会一如既往地接受用户的问题与需求,改进自身产品,真真正正能够提供一个有生产力的工具。


9月27日,北京海航万豪酒店,容器技术大会Container Day 2017即将举行。

CloudStack之父、海航科技技术总监、华为PaaS部门部长、恒丰银行科技部总经理、阿里云PaaS工程总监、民生保险CIO······均已加入豪华讲师套餐!

11家已容器落地企业,15位真·云计算大咖,13场纯·技术演讲,结合实战场景,聚焦落地经验。免费参会+超高规格,详细议程及注册链接请戳

本文转自 RancherLabs 51CTO博客,原文链接:http://blog.51cto.com/12462495/1964570

阿里云经典网络与Rancher VXLAN兼容性问题相关推荐

  1. vpc经典网络区别_阿里云经典网络与VPC网络互通的实现

    众所周知,阿里云在目前的网络条件下,具有两套类型的网络,即经典网络和 VPC网络:对于申请阿里云较早的用户,大多环境下使用的是经典网络,而后 期一般申请的vps主机都是VPC网络的: 于是乎这里就出现 ...

  2. 双十一丝般顺滑体验背后:阿里云洛神网络虚拟化系统揭秘

    摘要: 摘要:2017年12月20日在北京云栖大会上,阿里云高级技术专家梵叶在计算与网络分论坛上做了主题分享<双十一丝般顺滑体验背后:阿里云洛神网络虚拟化系统揭秘>.为大家介绍了洛神系统的 ...

  3. 阿里云域名解析网络和服务架构设计(三) 之阿里云CLB负载均衡

    一.回顾 阿里云域名解析网络和服务架构设计总概览(一)_飞鸽FlyGo的博客-CSDN博客云解析DNS.负载均衡SLB.阿里云ECS服务器.阿里云ECS服务器Nginx代理https://flygo. ...

  4. 全景剖析阿里云容器网络数据链路(五):Terway ENI-Trunking

    近几年,企业基础设施云原生化的趋势越来越强烈,从最开始的IaaS化到现在的微服务化,客户的颗粒度精细化和可观测性的需求更加强烈.容器网络为了满足客户更高性能和更高的密度,也一直在高速的发展和演进中,这 ...

  5. 阿里云服务器网络收发包PPS性能25万/80万/100万PPS详解

    阿里云服务器ECS网络收发包PPS是什么?云服务器PPS多少合适?网络收发包PPS是指云服务器每秒可以处理的网络数据包数量,单位是PPS即packets per second每秒发包数量.阿里云百科来 ...

  6. 阿里云域名解析网络和服务架构设计(二) 之云解析DNS-全局流量管理

    一.回顾 阿里云域名解析网络和服务架构设计总概览(一)_飞鸽FlyGo的博客-CSDN博客https://flygo.blog.csdn.net/article/details/123604615 二 ...

  7. 阿里云服务器网络收发包PPS多少合适?

    什么是网络收发包PPS?云服务器网络收发包PPS多少合适?网络收发包PPS是指云服务器每秒可以处理的网络数据包数量,单位是PPS即packets per second每秒发包数量.云服务器吧来详细说下 ...

  8. 阿里云域名解析网络和服务架构设计(四) 之阿里云ECS服务器Nginx代理实践

    一.回顾 阿里云域名解析网络和服务架构设计总概览(一)_飞鸽FlyGo的博客-CSDN博客云解析DNS.负载均衡SLB.阿里云ECS服务器.阿里云ECS服务器Nginx代理https://flygo. ...

  9. 阿里云容器网络文件系统 CNFS 1.0 发布,体验云原生时代的容器共享存储

    简介:CNFS 通过将阿里云的文件存储抽象为一个 Kubernetes 对象(CRD)进行独立管理,包括创建.删除.描述.挂载,监控及扩容等运维操作,使用户可以在享受容器使用文件存储带来的便捷的同时, ...

最新文章

  1. python在线编辑器最新_skulpt搭建Python在线编译器(一):下载、安装
  2. (8)hibernate四种继承映射
  3. Java GC系列(4):垃圾回收监视和分析
  4. 极狐(GitLab)发布首款“GitNative”DevOps云一体化解决方案
  5. linux打开二进制文件后终端乱码处理
  6. 解决办法:atoi不能将CString 转化为char *
  7. 使用weblogic部署应用
  8. 用python制作微信小程序_微信小程序能用python开发
  9. Duilib的界面设计工具DuiDesigner的使用说明
  10. windows调节屏幕文字清晰度、锐度,屏幕字体模糊怎么办,屏幕字体不清晰
  11. 基于ubuntu18.04搭建双线adsl路由器和私有云服务器(samba、ftp和http)
  12. 全面解析流式大数据实时处理技术、平台及应用
  13. Docker拉取Solace pubsub+镜像timeout的问题
  14. [数据库]数据库临时表
  15. Ubuntu18 安装SciDavis
  16. 高通收购恩智浦过审,完美的AI布局即将开启
  17. PHP实现棱形代码(PHP练习)
  18. 解决word2013老是打开未响应情况
  19. 解决Win7下苹果笔记本键盘不亮问题
  20. bullmins-在线思维导图软件

热门文章

  1. H264解码的一个測试程序
  2. android 捕捉home键
  3. 算法导论 CLRS 22.4-4 解答
  4. 蓝桥杯第八届省赛JAVA真题----日期问题
  5. python增量赋值是什么意思_关于python中的增量赋值的理解
  6. java获取本周的开始时间和结束时间_创业板注册制开始时间/股票开户流程结束后,怎么炒股?...
  7. 计算机语言2进制怎么计算,计算机语言二进制…八进制、十进制…怎样推算?数制是怎么读?...
  8. linux安装各种文件格式,Embeded linux中的各类文件系统
  9. java cache-control_详解浏览器Cache-Control缓存策略
  10. 计算机结构介绍,计算机系统结构介绍.pdf