PouchContainer 是阿里巴巴集团开源的高效、轻量级企业级富容器引擎技术,拥有隔离性强、可移植性高、资源占用少等特性。可以帮助企业快速实现存量业务容器化,同时提高超大规模下数据中心的物理资源利用率。

PouchContainer 源自阿里巴巴内部场景,诞生初期,在如何为互联网应用保驾护航方面,倾尽了阿里巴巴工程师们的设计心血。PouchContainer 的强隔离、富容器等技术特性是最好的证明。在阿里巴巴的体量规模下,PouchContainer 对业务的支撑得到双 11 史无前例的检验,开源之后,阿里容器成为一项普惠技术,定位于「助力企业快速实现存量业务容器化」。

本文将给大家介绍 PouchContainer 实现 network 的机制以及将容器连接到 network 上的原理。为了充分阐述 network 的连接机制,本文将以Connect方法为例,叙述如何动态地将一个 container 连接到一个已存在的 network 上。

1. PouchContainer 实现 network 的机制

在目前的容器网络虚拟化技术中,Docker 推行的 CNM (Container Network Model)模型是一种通用的解决方案,CNM 构建了一种成熟的容器虚拟化网络模型,并定义了多种供开发者调用的标准化接口。PouchContainer 沿用了 CNM 模型,基于 libnetwork 来实现容器间通信。下面先对 Sandbox、Endpoint 和 Network 这三个 CNM 中的核心组件进行介绍。

Sandbox

Sandbox 一词在不同的机制里,被分别赋予了不同的定义。例如,在 CRI(container runtime interface)里面 sandbox 就代表着 pod 的概念。而在 CNM 模型里,sandbox 代表着一个容器的网络栈配置,包含管理容器的网卡,路由表以及 DNS 设置。Sandbox 的具体实现可以通过 Linux 系统的 network namespace,一个 FreeBSD Jail 或者其他类似的概念。一个 sandbox 可以包含多个 endpoints。

Endpoint

一个 endpoint 将 sandbox 连接到 network 上。一个 endpoint 的实现可以通过 veth pair,Open vSwitch internal port 或者其他的方式。比较常见的方法是用 veth pair,顾名思义,veth pair一定是成对出现的,因此会存在 veth0 和 veth1 两块网卡。创建容器时,其中一块会被设置到容器内部,充当容器内部的eth0,所有目的地址为容器 IP 的数据包都要经过 eth0 网卡;另一块(以下称为 veth 设备)则会被连接到宿主机的网桥上。从 veth 设备出去的数据包,会转发到对应的 eth0 设备上,当数据包的目的地址为 eth0 设备的 IP 时,就能被内核协议栈处理。用 veth pair 来连接两个 network namespace,从而建立网络连通关系。一个 Endpoint 只能属于一个 Network,也只能属于一个 Sandbox。

Network

一个 Network 是一组可以相互通信的 Endpoints 的集合。一个 network 的实现可以通过 Linux bridge,VLAN 或者其他方式。值得一提的是,一个 network 中可以包含很多个 endpoints。

可以看到,在如下图所示的结构下,Container A 和 Container B 同属于 backend network,这两个 container通过各自紫色的 endpoint 构成 network 连接;container B和 container C 同属于 frontend network,通过蓝色的 endpoint 构成 network 连接。因此 container A 和 container B之间可以通信,container B和 container C之间也可以通信。

接下来重点看一下 container B 内部的两个 endpoints,虽然 backend network 和 frontend network 在 container B 内都有各自对应的 endpoint,但紫色 endpoint 和蓝色 endpoint 间不构成通信。因此 backend network 和 frontend network 是两个完全隔离的 network,并不因为连接同一个 container 而产生连通。显而易见,container A 和 container C 间其实是无法通信的。

2. PouchContainer 内置的 network 模式

2.1 bridge 模式

bridge 模式是 PouchContainer 默认的网络模式,在创建容器不指定 network 模式,即不写--net参数,该容器就会以 bridge 模式创建。pouchd启动的时候,会自动在主机上创建一个虚拟网桥 p0。后续以 bridge 模式创建容器时,pouchd从 p0 网桥所在的 IP 网段中选取一个未使用的 IP 分配给容器的 eth0 网卡,p0 的 IP 是这些容器的默认网关。

2.2 host 模式

在启动容器的时候,选择 host 模式,那么容器将不会获得独立的 network namespace,而是和主机共享 network namespace。因此,这个容器也就没有自己的网卡和 IP 配置,会使用主机的 IP 和端口,但 fs 和 pid 等与主机还是隔离的。

2.3 container 模式

以 container 模式创建的容器,会和已经存在的容器共享一个 network namespace,直接沿用其 veth 设备对。

2.4 none 模式

使用 none 模式创建的容器,拥有独立的 network namespace,但是不会对容器进行任何的网络配置。因此,可以认为 none 模式下的容器,是不和其它容器通信的。不过,在容器创建后,可以再给它添加网卡、配置 IP,这样就可以与同一个 network 下的容器通信了。

2.5 CNM 与 network 模式的概念交叉

一个 network 是一个唯一的、可识别的 endpoint 组,组内的 endpoint 可以相互通讯。对比 CNM 来看,endpoint 可以简单理解成 veth 设备对,容器的 sandbox 里可以有多个 endpoints,每个 endpoint 代表和一个特定 network 的连接关系。

3. network connect 的流程分析

// daemon/mgr/container.go

// Connect is used to connect a container to a network.
func (mgr *ContainerManager) Connect(ctx context.Context, name string, networkIDOrName string, epConfig *types.EndpointSettings) error {……if err := mgr.updateNetworkConfig(c, n.Name, epConfig); err != nil {return err} else if err := mgr.connectToNetwork(ctx, c, networkIDOrName, epConfig); err != nil {return err}return c.Write(mgr.Store)
}

可以看到在Connect函数里,首先根据传入的参数获取到具体的 container 和 network。而epConfig参数里面,存放的是在 CLI 端通过 flag 传入的参数,如 container 在特定 network 中的别名、指定的 IP 范围等。

查看c.State.Status来判断 container 此时的状态,dead 状态的 container 是无法执行 connect 操作的。对于非 running 但是还 live的container,只是简单地调用updateNetworkConfig()来更新 container 的网络配置,将传入的epConfig加入到容器的 network 配置中。在这种情况下,不会为 container 分配网卡,因此 container 并没有成功连通到 network 中。对于 running 状态的 container,调用connectToNetwork()来进行后续的操作,connectToNetwork()会根据给定的 network 和 container 进行网卡的配置,再在主机上分配一个网卡,最后将网卡加入到 container 的 sandbox 里面。这样,container 就成功地连接到 network 上了!具体的流程会在后续进行解析。

c.Write(mgr.Store)的作用,是将 container 连接到 network 上的一系列配置写入 container 的 metadata 里面,这样就保证了数据的持久化。否则,建立的 network 连接只是一次性的,所有的数据和相关配置在pouchd重启后都会丢失。

// daemon/mgr/container.go

func (mgr *ContainerManager) connectToNetwork(ctx context.Context, container *Container, networkIDOrName string, epConfig *types.EndpointSettings) (err error) {……endpoint := mgr.buildContainerEndpoint(container)……if _, err := mgr.NetworkMgr.EndpointCreate(ctx, endpoint); err != nil {……}return mgr.updateNetworkConfig(container, networkIDOrName, endpoint.EndpointConfig)
}

endpoint 里面包含三部分的信息,一部分的信息来自于 container,一部分的信息来自 network,最后一部分信息是 connect 命令里 flag 中的配置。buildContainerEndpoint()的逻辑比较简单,就是获取到 endpoint 需要的 container 相关信息。随后调用了NetworkMgrEndpointCreate()来进行具体的构建。

// daemon/mgr/network.go

// EndpointCreate is used to create network endpoint.
func (nm *NetworkManager) EndpointCreate(ctx context.Context, endpoint *types.Endpoint) (string, error) {……// create endpointepOptions, err := endpointOptions(n, endpoint)……endpointName := containerID[:8]ep, err := n.CreateEndpoint(endpointName, epOptions...)……// create sandboxsb := nm.getNetworkSandbox(containerID)if sb == nil {sandboxOptions, err := buildSandboxOptions(nm.config, endpoint)……sb, err = nm.controller.NewSandbox(containerID, sandboxOptions...)……}// endpoint joins into sandboxjoinOptions, err := joinOptions(endpoint)……if err := ep.Join(sb, joinOptions...); err != nil {return "", fmt.Errorf("failed to join sandbox(%v)", err)}// update endpoint settingsepInfo := ep.Info()if epInfo.Gateway() != nil {endpointConfig.Gateway = epInfo.Gateway().String()}if epInfo.GatewayIPv6().To16() != nil {endpointConfig.IPV6Gateway = epInfo.GatewayIPv6().String()}endpoint.ID = ep.ID()endpointConfig.EndpointID = ep.ID()endpointConfig.NetworkID = n.ID()iface := epInfo.Iface()……return endpointName, nil}

创建 endpoint 的整个过程,都是调用 libnetwork 来实现的。首先调用endpointOptions()来构建接口要求的EndpointOption参数,这个 setter 函数类型的参数能将不同的 option 传递给 network 和 endpoint 的接口。随后调用 libnetwork 的
CreateEndpoint()接口来进行具体的构建。CreateEndpoint()执行的实际工作包括为这个 endpoint 分配 IP 和接口(Iface),对应的配置会被应用到 Endpoint 中,其中包括 iptables 的配置规则和端口信息等。

Sandbox 所代表的就是 container 独有的 network namespace,其创建也是基于 libnetwork。sandbox 里面包含 container 建立网络通信的标志性信息,如 IP 地址、Mac 地址、路由和 DNS 等配置。会对已存在的 sandbox 进行遍历,判断是否存在相应的 sandbox,存在的话就直接返回对应的 sandbox。在 none 模式下,container 沿用主机的 namespace,返回的 sandbox 为空,这时候会创建一个新的 sandbox。sandbox 的创建过程,就是调用 namespace 和 cgroup 来创建一个独立 sandbox 空间。

将 endpoint 加入到 sandbox 的操作,实际上就是将网卡分配给 container 的过程,将 endpoint 分配到的网络资源注入到 sandbox 中。网卡是建立连接的核心,container 通过虚拟网卡连接到 network,从而与其它 container 进行通信。

最后一步,将变化同步更新到 endpoint 的配置里面。

4. 总结

回顾建立 network 连接的整个流程,可以简单的分成几步。container 在通信时需要唯一的 network namespace 来标志自己,那么就要有 sandbox 的创建;通信的实现需要网卡作为基础,那么就要有 endpoint 的创建;最后将endpoint  加入 sandbox,建立容器间通信的基础,连接的建立就成功完成了。

如果想更多了解 PouchContainer,请访问 https://pouchcontainer.io

阿里开源富容器引擎 PouchContainer 的 network 连接机制相关推荐

  1. 8月24日云栖精选夜读 | 阿里开源富容器引擎 PouchContainer 的 network 连接机制

    PouchContainer 是阿里巴巴集团开源的高效.轻量级企业级富容器引擎技术,拥有隔离性强.可移植性高.资源占用少等特性.可以帮助企业快速实现存量业务容器化,同时提高超大规模下数据中心的物理资源 ...

  2. [转]阿里开源低代码引擎LowCodeEngine

    一.什么是低代码引擎 低代码引擎是具备强大扩展能力的低代码研发框架,使用者只需要基于低代码引擎便可以快速定制符合自己业务需求的低代码平台.同时,低代码引擎还在标准低代码设计器的基础上提供了简单易用的定 ...

  3. 阿里开源低代码引擎LowCodeEngine

    一.什么是低代码引擎 低代码引擎是具备强大扩展能力的低代码研发框架,使用者只需要基于低代码引擎便可以快速定制符合自己业务需求的低代码平台.同时,低代码引擎还在标准低代码设计器的基础上提供了简单易用的定 ...

  4. 开发者干货合集!阿里开源,移动开发,机器学习等海量资源限时开放!...

    2019阿里云云上Hi购季活动已经于2月25日正式开启,从已开放的活动页面来看,活动分为三个阶段: 2月25日-3月04日的活动报名阶段.3月04日-3月16日的新购满返+5折抢购阶段.3月16日-3 ...

  5. 深度解析 PouchContainer 的富容器技术

    PouchContainer 是阿里巴巴集团开源的高效.轻量级企业级富容器引擎技术,拥有隔离性强.可移植性高.资源占用少等特性.可以帮助企业快速实现存量业务容器化,同时提高超大规模下数据中心的物理资源 ...

  6. 技术解析系列 | PouchContainer 富容器技术

    划重点 本文将从什么是富容器.富容器适用场景.富容器技术实现三个角度全方位向大家解释富容器技术,同时对富容器感兴趣的同学可以扫描文章末尾二维码参与关于富容器的技术讨论.本文作者 PouchContai ...

  7. PouchContainer 富容器技术解析

    阿里妹导读:PouchContainer 是阿里巴巴集团开源的高效.轻量级企业级富容器引擎技术,拥有隔离性强.可移植性高.资源占用少等特性. PouchContainer如何帮助企业快速实现存量业务容 ...

  8. Docker 是一个开源的应用容器引擎

    Docker 是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的 Linux 机器上,也可以实现虚拟化.容器是完全使用沙箱机制,相互之间不会有任何 ...

  9. 阿里开源规则引擎QLExpress-入门实战

    介绍 规则引擎,顾名思义是针对我们业务系统中普世的规则进行统一管理,通过该引擎进行调度计算,可以动态调整规则的表达式内容,而不影响业务系统代码,常见的业务典型场景有电商中促销活动,单品折扣.整场活动满 ...

最新文章

  1. openvino人脸
  2. ubuntu18.4 安装swoole 和 php 扩展 swoole
  3. 每个人都应该使用的Python 3中被忽略的3个功能
  4. (转)Linux服务器磁盘空间占满问题
  5. 2020考研备考:中国大学最顶尖学科名单——数学
  6. disabled运用;div,li元素禁用点击事件;防止a标签打开url;禁用click事件,删除onclick
  7. 机器人瓦力机械舞_25个与机器人有关的“前卫”知识,你知道几个?
  8. ngx_pagespeed 的魔力
  9. MATLAB 2018a安装
  10. 使用Python进行数据关联分析
  11. python获取命令行输出_python获取命令行输出结果
  12. kaldi debug:Failed to read token [started at file position -1], expected IvectorExtractorStats
  13. 人体组织平面波超声成像仿真(MATLAB k-Wave仿真)
  14. CSDN自动回复灌水乐园帖子-httpClient篇
  15. 网络设备的连接以及配置
  16. Java Scanner的hasNext()方法
  17. LabVIEW网络服务安全2
  18. python新闻聚合_基于Python的新闻聚合系统网络爬虫研究
  19. 火车头+php教程,dede使用火车头采集视频教程
  20. PHP保持静态页面,PHP 实现页面静态化的几种方法

热门文章

  1. 将Calendar对象转换为日期时间字符串
  2. 1111 Online Map (30 分)【难度: 一般 / 知识点: Dijkstra最短路】
  3. 【PAT乙级】1048 数字加密 (20 分)
  4. 【PAT乙级】 1018 锤子剪刀布 (20 分)
  5. C语言易错题集 第四部
  6. Nginx无法访问关闭防火墙
  7. php yii框架和laravel,yii2跟laravel的区别是什么?
  8. 【数据结构-树】1.树与森林(树的遍历、树的存储方法、并查集的实现)
  9. 【PAT】A1074 Reversing Linked List ***
  10. java.lang.ClassNotFoundException: org.springframework.web.context.ContextLoaderListener错误解决方案