2019独角兽企业重金招聘Python工程师标准>>>

前 言

Weave作为Docker(一个开源的应用容器引擎)跨主机集群网络解决方案的一种,可以用于连接部署在多台主机上的Docker容器,使用网络的应用程序不必去配置端口映射、链接等信息。另外,Weave的通信支持加密,用户可以从一个不受信任的网络连接到主机。

Weave在控制层和Calico类似,在数据层通过UDP封装实现L2 overlay。Weave在1.2 版本之前都是通过usersapce实现,在Weave-1.2版本之后,Weave结合了内核Open vSwitch模块,实现了Open vSwitch datapath(ODP)功能,结合kernel的vxlan特性,在网络性能上有较大提升。

由于ODP功能与内核相关模块结合较为紧密,因此在实际使用中可能会遇到一些与内核相关的“坑”。本文描述的这两个问题都跟内核有关系。

坑一:使用Weave FastDb造成网络中断

问题描述

在Weave的1.2版本之后,考虑到原先sleeve模式网络性能较差,故增加FastDb模式,该模式也成为Weave启动时的默认模式。在FastDb模式中使用了kernel中的Open vSwitch模块,做报文封装时使用vxlan协议。在使用qemu-kvm创建的云主机上,如果安装CentOS7.0,内核版本为kernel-3.10.123,那么在启动Weave并使用FastDb模式时,会造成virtio_net虚拟网卡无法发送数据,进而导致整个虚拟机的网络中断。

问题分析

导致网络断开的原因是由于触发了内核的一个bug,该内核bug的commit链接地址http://t.cn/Ro53BsH。

触发该bug主要是因为Weave在初始化时会发送一个60000字节的UDP数据包进行PMTU探测,并且 Weave发送使用的套接字为raw socket,导致virtio_net使用的内存被污染,具体表现就是无法通知到宿主机上vhost获取数据,在接口上看到发送报文的计数始终不会增加。

该问题不是只有Weave才能触发,用普通应用程序建立socket时使用raw socket,并且发送的数据大于接口的MTU值,接口的UFO功能是打开的,这些情况下都极有可能触发该问题,造成网络中断。

(图1:FastDb模式的数据流原理)

解决方法

1、升级内核,保证内核版本大于等于3.13;

2、关闭虚拟机网卡的ufo特性;

3、CentOS7.1的kernel-3.10.229内核已经修复了该问题。

(图2:guest通知vhost读取数据流程)

坑二:Weave无法使用FastDb模式

问题描述

在内核版本CentOS Linux (3.10.0-327.10.1.el7.x86_64) 7 (Core)上 ,Weave版本大于1.2,如果云主机的MTU值为1450或者小于1474,Weave启动时无法正常选择Fast Data Path模式。在Weave启动后一直选择sleeve模式,本应该默认模式为FastDb,该问题也和内核的版本相关。

问题分析

Weave的Fast Data Path路径使用到ODP技术,也就是内核中的OVS模块,在Container中直接发送数据包到ovs模块。在启动Weave时,会自动选择使用sleeve模式还是FastDb模式,这里通过发送心跳包来决定。出现该问题时,在云主机通过Docker logs Weave日志可以看到出错信息:"FastDb timed out waiting for vxlan heartbeat"。

heartbeat数据包是一个UDP包,目的端口号为6784,在某些云主机上接口的MTU值为1454,但在发送UDP的heartbeat数据包时,发送的是1474字节,这样就会对报文在IP层进行分片,而在主机上发现心跳报文发送不出去,当MTU的值修改为1500后,就可以发送出去。

在MTU为1454的情况下,会出现下面的ICMP错误报文:

(图3: 出现的错误ICMP报文)

上面出现错误的ICMP报文是内核中的ip_fragment函数调用ICMP_send函数发送的:

if (unlikely(((iph->frag_off & htons(IP_DF)) && !skb->ignore_df) ||

(IPCB(skb)->frag_max_size &&

IPCB(skb)->frag_max_size > mtu))) {

IP_INC_STATS(dev_net(dev), IPSTATS_MIB_FRAGFAILS);

ICMP_send(skb, ICMP_DEST_UNREACH, ICMP_FRAG_NEEDED,

htonl(mtu));

kfree_skb(skb);

return -EMSGSIZE;}

通过上述代码可以看出,如果出现错误ICMP报文,下面的判断条件iph->frag_off & htons(IP_DF)) && !skb->ignore_df 需要成立。通过对抓取的报文分析可知iph->frag_off & htons(IP_DF))的值为真,那么skb->ignore_df值需要为0,而此处的关键在于skb->ignore_df的值是何时赋值为0的。

通过分析Weave发送心跳包的流程可知,在vxlan_tnl_send函数中,对skb->ignore_df赋值为1,最后调用tunnel的发送函数iptunnel_xmit时,调用了skb_scrub_packet函数,在该函数中又重新对skb->ignore_df赋值为0(kernel版本为:3.10.0-327.el7),造成后续发送报文时,ICMP目的不可达,并且错误码为ICMP_FRAG_NEEDED的报文。

void skb_scrub_packet(struct sk_buff *skb, bool xnet){

skb->tstamp.tv64 = 0;

skb->pkt_type = PACKET_HOST;

skb->skb_iif = 0;

skb->ignore_df = 0;

skb_dst_drop(skb);

secpath_reset(skb);

nf_reset(skb);

nf_reset_trace(skb);

if (!xnet)

return;

skb_orphan(skb);

skb->mark = 0;

}

上面代码是CentOS7的3.10.0-327.el7,而在一些旧内核版本3.10.0-123.el7上,iptunnel_xmit调用的是secpath_reset(skb)函数,该函数并没有对skb->local_df(低版本内核使用local_df)进行重新初始化,也就是skb->local_df值仍旧为1,因此在该版本上不会出现上述问题。

static inline void

secpath_reset(struct sk_buff *skb){

#ifdef CONFIG_XFRM

secpath_put(skb->sp);

skb->sp = NULL;

#endif}

(图4:内核版本不同造成设置不同)

虽然新的内核版本中存在该问题,不过内核本身没有问题,还是Weave用户态管理datapath程序与内核适配上出现问题(它并不是使用ovs-switchd),在OVS中对tunnel类型可以设置为df_default=false进行分片。

解决方法

保证接口的MTU值为默认为1500。

总 结

Weave的ODP功能使用了内核特性,在使用Weave的FastDb功能时遇到上述两个问题都与内核密切相关。通过对内核层分析,可以定位到问题的根本原因,所以后续遇到类似问题时,可以多从内核角度进行考虑。

转载于:https://my.oschina.net/u/3675312/blog/1571204

如何跨过Docker集群网络Weave遇到的“坑”?相关推荐

  1. 使用docker创建swarm集群网络

    Docker集群网络,解决的问题是能同时响应多少请求.不是分布式计算,因为分布式计算是将一个任务拆分若干个子任务,然后将子任务分配到不同的机器上去执行. 集群网络的命令 (1)docker swarm ...

  2. docker集群运行在calico网络上

    2019独角兽企业重金招聘Python工程师标准>>> ##网络及版本信息 docker1 centos7 192.168.75.200 docker2 centos7 192.16 ...

  3. PPTV Docker集群的网络方案选型

     原作者:李周     转载来源:http://dockone.io/article/1673 PPTV Docker集群的网络方案选型 作者介绍:李周,现PPTVDCOS技术主要负责人.专注于Doc ...

  4. Docker集群(一) —— Docker网络及flannel介绍

    [摘要]本文介绍docker网络原理和设置,以及在docker集群中需要解决的问题.最后介绍flannel在解决docker网络问题中的作用. 1   基础 在介绍docker的网络之前,必须先认识d ...

  5. Kubernetes与docker集群管理常见问题解析

    很荣幸受邀参加开源中国社区的高手问答,我是时速云团队的后端工程师,负责主机管理功能开发.在互动过程中,发现大家在使用/调研kubernetes(简称k8s)过程中遇到了很多问题,这里我总结为几点: l ...

  6. Docker 集群环境实现的新方式

    近几年来,Docker 作为一个开源的应用容器引擎,深受广大开发者的欢迎.随着 Docker 生态圈的不断建设,应用领域越来越广.云计算,大数据,移动技术的快速发展,加之企业业务需求的不断变化,紧随技 ...

  7. docker swarm的应用----docker集群的构建

    一.docker安装 这里我们安装docker-ce 的18.03版本 yum    -y remove docker  删除原有版本 #安装依赖包 [root@Docker ~]# yum -y i ...

  8. VituralBox从零搭建基于CentOS 7(64位)的Kubernetes+docker集群

    VituralBox从零搭建基于CentOS 7(64位)的Kubernetes+docker集群 1. 下载CentOS 7官方minimal镜像 2. 安装VituralBox(Windows 1 ...

  9. 基于Gitlab Jenkins Docker集群 微服务搭建自动化部署平台

    随着公司应用系统的不断增多,原有手工部署流程越来越不满足上线的需求.为了各个系统能快速迭代与测试,减少上线流程时间和人为出错,迫切需要一套自动化部署系统. 转载原文:https://luoji.liv ...

最新文章

  1. 大有乾坤,售前机器人背后的 AI 技术
  2. SpringBoot监听redis订阅监听和发布订阅
  3. NoSQL数据库之Redis数据库:Redis的介绍与安装部署(redis-2.8.19/3.2.5)
  4. 苹果平板可以用html么,9.7寸ipad pro能用pencil吗?ipad pro全面支持Apple Pencil
  5. L2-005 集合相似度 (25分)
  6. python开发个人博客_[Web开发] Flask+Python 开发个人博客(一)
  7. MySQL多实例配置
  8. 武汉大学计算机专业录取分数线,最新武汉大学专业排名录取分数线
  9. win11安装报错0xc1900101怎么办 Windows11安装报错0xc1900101的解决方法
  10. Spring Boot插件spring tool suite安装及使用
  11. 181123每日一句
  12. 计算机系统结构概念,计算机系统结构的基本概念
  13. mysql 网页员工登记表_作业1:小型考勤登记表
  14. [从零开始学FPGA编程-2]:本系列主要内容预览(持续更新):快速入门篇、提升篇、高阶篇
  15. 考研408数据结构代码
  16. Verilog中begin...end和fork....join的区别和用法
  17. Stimulsoft Reports.Net 2022.2.1
  18. 财务学python可以做什么-财务方面的学生如何学习python?
  19. 那个叫“中国移动”的精神病人就要被治愈了
  20. [转]CSS编码规范

热门文章

  1. 注意,免费的 CentOS 落幕,将于本月底终止维护!
  2. Alibaba Sentinel限流功能
  3. RedLock: 看完这篇文章后请不要有任何疑惑了
  4. 线上出现死锁怎么解决?
  5. JVM 有 Full GC,为什么还会出现 OutOfMemoryError呢?
  6. 面试官:如何做 API 接口防刷??
  7. Spring Boot + MyBatis + Druid + PageHelper 实现多数据源并分页
  8. 最近面试Java后端开发的感受
  9. Openresty最佳案例 | 第7篇: 模块开发、OpenResty连接Redis
  10. Datawhale浙大分享(附投票结果)