Kubernetes的特点

近年来Docker容器作为一种轻量级虚拟化技术革新了整个IT领域软件开发部署流程,如何高效自动管理容器和相关的计算、存储等资源,将容器技术真正落地上线,则需要一套强大容器编排服务,当前大红大紫的Kubernetes已经被公认为这个领域的领导者。Google基于内部Borg十多年大规模集群管理经验在2014年亲自倾心打造了Kubernetes这个开源项目,欲倚之与AWS在云计算2.0时代一争高下,即便如此,Kubernetes的定位主要是面向私有云市场,它最典型的部署模式是在GCE或AWS平台上基于云主机、云网络、云硬盘及负载均衡等技术给用户单独部署一整套Kubernetes容器管理集群,其本质上是卖的IAAS服务,Kubernetes集群还是需要靠用户自己维护,大家知道Kubernetes虽然功能强大但使用、管理、运维门槛也高,出问题了大多数用户会束手无策。

这几年国内容器云领域也是群雄割据,但多数还是以私有云为主,提供公有云容器服务的却很少,主要是公有云要考虑的问题多、挑战大。虽然如此,网易云的还是提供了公有云模式的容器服务。网易云从2015年开始做容器服务时也被Kubernetes强大的功能、插件化思想和背后强大的技术实力说吸引,至今已经跟随Kubernetes一起走过两年多,积累了不少经验。因为我们特别希望以公有云的方式提供一种更易用容器服务,任何对容器感兴趣的用户都能快速上手,为此也遇到了很多私有云下不会出现的问题。

列举几个Kubernetes在公有云容器场景下的需要特别解决的关键问题。一是Kubernetes里没有用户(租户)的概念,只有一个很弱的命名空间来做逻辑隔离。二是Kubernetes和Docker的安全问题很突出,API访问控制较弱且没有用户流控机制,一些资源全局可见。而Docker容器与宿主机共享内核的轻量级隔离从根本上没法做到彻底安全。三是Kubernetes集群所需要IAAS资源(如Node,PV)都要预先准备足够,否则容器随时会创建失败,公有云这样的话会造成严重的资源浪费,产生巨大的成本问题。四是Kubernetes单个集群能支撑的节点总数有限,最大安全规模只有5千个Node,公有云下扩展性将会有问题。

网易云容器如何解决Kubernetes在公有云上的问题

先看下网易云容器服务的架构图(如图1),这里的Kubernetes处于底层IAAS服务和上层容器平台的中间,因为我们的容器服务不仅仅提供Kubernetes本身容器编排管理功能,更是为提供一整套专业的容器解决方案,还包括容器镜像服务,负载均衡服务,通过使用DevOps 工具链高效管理微服务架构。考虑到Kubernetes概念较多、普通用户使用复杂,也为了便于整合其他配套服务,我们并没有直接暴露Kubernetes的API和所有概念给普通用户。


公有云租户概念

网易云容器服务基于Kubernetes已有的Namespace的逻辑隔离特性,虚拟出一个租户的概念,并与Namespace进行永久绑定:一个Namespace只能属于一个租户,一个租户则可以有多个Namespace。这样Kubernetes里不同租户之间的Pod、Service、Secret就能自然分割,而且可以直接在原生的Namespace/Resouce级别的认证授权上进行租户级别的安全改造。


多租户安全问题

关于Kubernetes的API的安全访问控制,尽管网易云容器没有直接暴露Kubernetes的API给用户,但用户容器所在的Node端也都要访问API,Node本质就是用户的资源。我们在最早基于Kubernetes 1.0开发的时候就专门增加了一套轻量级扩展授权控制插件:基于规则访问控制,比如配置各租户只能Get和Watch属于自己Namespace下的Pod资源,解决对Kubernetes资源API权限控制粒度不够精确且无法动态增减租户的问题。值得欣慰的是几个月前官方发布的1. 6新推出RBAC(基于角色访问控制)功能,使得授权管理机制得以增强,但服务端对用户Node端访问的异常流量控制的缺乏依然是一个隐患,为此,我们也在apiserver端增加请求数来源分类统计和控制模块,避免有不良用户从容器里逃逸到Node上进行恶意攻击。 
原生的kube-proxy提供的内部负载必须要List&Watch集群所有Service和Endpoint,导致就算在多租户场景下Service和Endpoint也要全部暴露,同时导致iptables规则膨胀转发效率极低;为此我们对kube-proxy也做了优化改造:每个租户的Node上只会List&Watch自己的相关Namespace下资源即可,这样既解决了安全问题又优化性能,一箭双雕。

至于Docker的隔离不彻底的问题,我们则选择了最彻底的做法:在容器外加了一层用户看不见的虚拟机,通过IAAS层虚拟机的OS 内核隔离保证容器的安全。

容器的IAAS资源管理

容器云作为新一代的基础设施云服务,资源管理必然也是非常关键的。私有云场景下整个集群资源都属于企业自己,预留的所有资源都可以一起直接使用、释放、重用;而公有云多租户下的所有资源首先是要进行租户划分的,一旦加入kubernetes集群,Node、PV、Network的属主租户便已确定不变,如果给每个租户都预留资源,海量租户累计起来就非常恐怖了,没法接受。当然,可以让公有云用户在创建容器前,提前把所有需要的资源都准备好,但这样又会让用户用起来更复杂,与容器平台易用性的初衷不符,我们更希望能帮用户把精力花在业务本身。

于是我们需要改造kubernetes,以支持按需动态申请、释放资源。既然要按需实时申请资源,那就先理下容器的创建流程,简单起见,我们直接创建Pod来说明这个过程,如图3所示。

Pod创建出来后,首先控制器会检查是否有PV(网易云容器为支持网络隔离还增加租户Network资源),PV资源是否匹配,不匹配则等待。如果Pod不需要PV或者PV匹配后调度器才能正常调度Pod,然后scheduler从集群所有Ready的 Node列表找合适Node绑定到Pod上,没有则调度失败,并从1秒开始以2的指数倍回退(backoff)等待并重新加入调度队列,直到调度成功。最后在调度的Node的kubelet上拉镜像并把容器创建并运行起来。

通过分析上述流程可以发现,可以在控制器上匹配PV或Network时实时创建资源,然后在调度器因缺少Node而调度失败时再实时创建Node(虚拟机VM),再等下次失败backoff重新调度。但是仔细分析后会发现还有很多问题,首先是IAAS中间层提供的创建资源接口都是异步的,轮询等待效率会很多,而且PV,Network,Node都串行申请会非常慢,容器本来就是秒级启动,不能到云服务上就变成分钟级别;其次Node从创建VM,初始化安装Docker、kubelet、kube-proxy到启动进程并注册到Kubernetes上时间漫长,调度器backoff重新调度多次也不一定就绪,最后,基于Kubernetes的修改要考虑少侵入,Kubernetes社区极度活跃一直保持3个月发布一个大版本的节奏,要跟上社区发展可能需要不断升级线上版本。

最终,我们通过增加独立的ResourceController,借助watch机制采用全异步非阻塞、全事件驱动模式。资源不足就发起资源异步申请,并接着处理后面流程,而资源一旦就绪立马触发再调度,申请Node时中间层也提前准备虚拟机资源池,并将Node初始化、安装步骤预先在虚拟机镜像中准备好。于是,我们详细的创建流程演变为图4所示。(注:最新Kubernetes 已经通过StorageClass类型支持PV dynamic provisioning) 

与原生的Kubernetes相比,我们增加了一个独立的 ResourceController管理所有IAAS资源相关的事情,具体的Pod创建步骤如下:

  • 1、上层client请求apiserver创建一个Pod。
  • 2、ResourceController watch到有新增Pod,检查PV和Network是否已经创建; 
    同时,另一边的scheduler也发现有新Pod尚未调度,也尝试对Pod进行调度。
  • 3、因为资源都没有提前准备,最初ResourceController检查时发现没有与Pod匹配的PV和Network,会向IAAS中间层请求创建云盘和网络资源; 
    scheduler 则也因为找不到可调度的Node也同时向IAAS中间层请求创建对应规格的VM资源(Node),这时Pod也不再重入调度队列,后面一切准备就绪才会重调度。
  • 4、因为IAAS中间层创建资源相对较慢,也只提供异步接口,待底层资源准备完毕,便立即通过apiserver注册PV、Network、Node资源
  • 5~6、ResourceController当发现PV和Network都满足了,就将他们与Pod绑定;当发现Pod申请的Node注册上来,且PV和Network均绑定,会把Pod设置为ResourceReady就绪状态
  • 7、Scheduler再次watch到Pod处于ResourceReady状态,则重新触发调度过程,
  • 8、Pod调度成功与新动态创建Node进行绑定
  • 9~10、对应Node的kubelet watch到新调度的Pod还没有启动,则会先拉取镜像再启动容器。

集群最大规模问题

从正式发布1.0版本至今最新的1.7,Kubernetes共经历了2次大规模的性能优化,从1.0的200个node主要通过增加apiserver cache提升到1000个node,再到1.6通过升级etcdv3和json改protobuf最终提升到5000 node。但是官方称后续不会再考虑继续优化单集群规模了,已有的集群联邦功能又太过简陋。如果公有云场景下随着已有用户规模不断增大,一旦快接近集群最大规模时,就只能将其中一些大用户一批批迁移出去来腾空间给剩余用户。

于是我们自己在社区版本基础上又做了大量定制化的性能优化,目前单集群性能测试最大安全规模已经超过3万,验收测试包括集群高水位下,大并发创建速度deployment和快速重启master端服务和所有node端kubelet等在内的多种极端异常操作,保证创建时间均值<5s,99值<15s,集群中心管控服务最差在3分钟内快速恢复正常。

具体的优化措施包括:

  • 1、 scheduler优化 
    根据租户之间资源完全隔离互补影响的特性,我们将原有的串行调度流程,改造为租户间完全并行的调度模式,再配合协程池来争夺可并行的调度任务。在调度算法上,还采用预先排除资源不足的node、优化过滤函数顺序等策略进行局部优化。
  • 2、 Controller优化 
    熟悉Kubernetes的人都知道,Kubernetes有个核心特点就是事件驱动,实时性很好,但是有个Sync事件却干扰了FIFO的顺序,我们通过将Add、Update、Delete、Sync事件排序并增加多优先级队列的方式解决这种异常干扰。 
    增加Secret本地缓存
  • 3、 apiserver优化 
    apiserver的核心是提供类似CRUD的restful接口,优化方向无外乎降低响应时间,减少cpu、内存消耗以提高吞吐量,我们最主要的一个优化是增加以租户ID为过滤条件的查询索引,这样就能实现在租户内跨Namespace聚合查询的效果。另外apiserver的客户端原生的流控策略太暴力,客户端默认在流控被限制后会反复重试,进一步加剧apiserver的压力,我们增加了一种基于反馈的智能重试的策略抹平这种突发流量。
  • 4、Node端优化 
    kube-proxy本来需要控制整个集群负载转发的,Apiserver有了租户查询索引后,我们就能只watch自己租户内的Service/Endpoint,急剧缩小iptables规则数量,提高查找转发效率。而且我们还精简kubelet和kube-proxy内存占用和连接数。

网易云容器服务的其他实践及总结

容器的网络是非常复杂一块,容器云服务至少要提供稳定、灵活、高效的跨主机网络,虽然开源网络实现很多,但是它们要么不支持多租户、要么性能不好,且直接拿没有经过大规模线上考验的开源软件问题总会很多。幸运的时网易云有自己专业的IAAS云网络团队,他们能提供专业级的VPC网络解决方案,天生就支持多租户、安全策略控制和高性能扩展,已经做到容器与虚拟主机的网络是完全互通且地位对等的。

网易云容器服务还在Kubernetes社区版本基础上结合产品需求新增了很多功能,包括支持特有的有状态容器,及Node故障时容器系统目录也能自动迁移以保持数据不变,多副本Pod可按Node的AvailableZone分布强制均衡调度(社区只尽力均衡)、容器垂直扩容、有状态容器动态挂卸载外网IP等。

相比容器的轻量级虚拟化,虚拟机虽然安全级别更高,但是在cpu、磁盘、网络等方面都存在一定的性能损耗,而有些业务却又对性能要求非常高。针对这些特殊需求,最近我们也在开发基于Kubernetes的高性能裸机容器,绕过虚拟机将网络、存储等虚拟化技术直接对接到Docker容器里,在结合SR-IOV网络技术、网易高性能云盘NBS(netease block storage)等技术将虚拟化的性能损耗降到最低。

最后,分享一些网易云容器服务上线近两年来的遇到的比较典型的坑。

  • 1、Apiserver作为集群hub中心本身是无状态的可水平扩展,但是多apiserver读写会在Apiserver切换时可能会出现写入的数据不能立马读到的问题,原因是etcd的raft协议不是所有节点强一致写的。

  • 2、haproxy连接的问题,多Apiserver前用haproxy做负载均衡,haproxy很容易出现客户端端口不够用和连接数过多的问题,可以通过扩大端口范围、增加源ip地址等方式解决端口问题,通过增加client/service的心跳探活解决异常连接GC的问题。

  • 3、用户覆盖更新已有tag的私有容器镜像问题,强烈建议大家不要覆盖已有tag的镜像,也不要使用latest这样模糊的镜像标签,否则RS多Pod副本或者同一个Node上同镜像容器很容易出现版本不一致的诡异问题。

  • 4、有些容器小文件非常多,很容易把inode用光而磁盘空间却剩余很多的问题,建议把这种类型应用调度到inode配置多的node上,另外原生kubelet也存在不会检查inode过多触发镜像回收的问题。

  • 5、有些Pod删除时销毁过慢的问题,Pod支持graceful删除,但是如果容器镜像启动命令写得不好,可能会导致信号丢失不光没法graceful删除还会导致延迟30s的问题

总之,在公有云场景下,用户来源广泛,使用习惯千变万化没法控制,我们已经碰到过很多纯私有云场景下很难出现的问题,如用户镜像跑起不来,Pod多容器端口冲突,日志直接输出到标准输出,或者日志写太快没有切割,甚至把容器磁盘100%写满等,因为篇幅有限,所以只能挑选几个有代表性的专门说明。因为云上要考虑的问题太多,特别是这种基础设施服务类的,使用场景又非常灵活,线上出现的一些问题之前完全想不到,包括很多还是用户自己使用的问题,但为了要让用户有更好的体验,也只能尽力而为,优先选择一些通用的问题去解决。

作者:娄超,网易云容器编排技术负责人。曾经参与淘宝分布式文件系统tfs和阿里云缓存服务研发,2015年加入网易参与网易云容器服务研发,经历网易云基础服务(蜂巢)v1.0,v2.0的容器编排相关的设计和研发工作,并推动网易云内部Kubernetes版本不断升级。

本文为《程序员》原创文章,未经允许不得转载,更多精彩文章请订阅《程序员》,给我们投稿请联系邮箱weiwei@csdn.net。(责编/魏伟)

欢迎扫描下方二维码,关注CSDN云计算微信,获取更多干货原创内容。

网易云容器服务基于Kubernetes的实践探索相关推荐

  1. 网易云容器服务微服务化实践—微服务测试及镜像化提测全流程实践

    前言 近几年,互联网项目很多都有从单体服务转变成微服务化的趋势,尤其是一些架构复杂,业务比较广泛的项目,微服务化是大势所趋,可以解决独立构建.更新.运维等一系列问题,从而解放生产力,促进交付效率和质量 ...

  2. 网易云网络服务研发实践—第1代云网络服务|网易云

    本系列以私有云为例,将为大家讲述网易云网络服务的研发实践,将有3期连载.本篇主要介绍第1代云网络服务. 作者:张晓龙 浙江大学计算机学院本科.博士毕业.网易专业技术委员会委员.网易云计算基础设施研发负 ...

  3. 网易云网络部署参考方案-网易云网络服务研发实践|网易云

    本系列以私有云为例,将为大家讲述网易云网络服务的研发实践. 作者:张晓龙 浙江大学计算机学院本科.博士毕业.网易专业技术委员会委员.网易云计算基础设施研发负责人.专注于云计算.虚拟化.软件自定义网络( ...

  4. 2013阿里技术嘉年华:基于OpenStack构建网易云主机服务

    2013阿里技术嘉年华:基于OpenStack构建网易云主机服务 OpenStack致力于为公共私有云建设提供跟一个开放.简单易实现.高可扩展性的云计算平台.基于OpenStack构建网易云主机服务, ...

  5. 构建与定制:唯品会PaaS基于Kubernetes的实践

    主要工作内容包括:平台DevOps方案流程优化,持续部署,平台日志收集,Docker以及Kubernetes研究. 大家好,我是唯品会PaaS团队的王成昌,与大家分享一下PaaS在Kubernetes ...

  6. 网易云音乐网络库跨平台化实践

    导读: 2021年10月21日,「QCon 全球软件开发大会」在上海举办,网易智企技术 VP 陈功作为出品人发起了「AI 时代下的融合通信技术」专场,邀请到网易云信.网易音视频实验室.网易云音乐的技术 ...

  7. DockOne微信分享(一三四):国内某大型酒店管理集团基于Kubernetes的实践

    本文讲的是DockOne微信分享(一三四):国内某大型酒店管理集团基于Kubernetes的实践[编者的话]随着业务的增长,架构变得越来越复杂,服务器和应用数量越来越多,随之应用的管理,配置的管理,后 ...

  8. 网易云基础服务(蜂巢)云主机正式上线

    近日,网易云基础服务(网易蜂巢)发布最新"云主机"产品,广泛支持各类 Linux发行版及Windows操作系统.此外,云主机将与网易云现有的容器服务内网互通,不但保证了租户间的隔离 ...

  9. Knative 应用在阿里云容器服务上的最佳实践

    作者|元毅 阿里云智能事业群高级开发工程师 相信通过前面几个章节的内容,大家对 Knative 有了初步的体感,那么在云原生时代如何在云上玩转 Knative?本篇内容就给你带来了 Knative 应 ...

最新文章

  1. Zabbix 3.2.6 通过SNMP和iDRAC监控DELL服务器
  2. 2018 年最引人注目的科学时刻,《科学》杂志选出14 张年度最佳科学照片
  3. ZOJ 1696 Viva Confetti 计算几何
  4. synchronized不能锁静态变量_肝了一下午的 Synchronized 解析!
  5. HTML的input类型为hidden导致无法reset改字段的value问题
  6. SpringCloud-使用路由网关的服务过滤功能-拦截登录前是否有token为例
  7. python通过opencv使用图片制作简单视频(亲测)
  8. ORA-600[4194]/[4193]解决
  9. 深度学习之 BP 算法
  10. 捋一捋20201217
  11. 新浪微博登陆以及发送微博(附python源码)
  12. 预训练 | 2022年 预训练的下一步是什么?
  13. 如何从零设计结构清晰、操作友好的权限管理模块
  14. 快读代码level.2
  15. 使用win7超级终端连接华为交换机并配置端口镜像
  16. 软件测试流程图及描述
  17. 系统清理维护与安全防护软件
  18. OSI(网络)参考模型
  19. 转专业菜鸡的秋招总结
  20. js 根据时间戳格式化为24小时的日期形式

热门文章

  1. 我的世界java版做船_“不要在云了,船的合成用木铲?”我的世界:Java和基岩版的差异...
  2. php ob 缓存,php中ob函数缓冲机制深入理解
  3. 定义const变量是不可以赋值_JavaScript的声明方法和作用范围,常见的结构赋值类型和使用场景...
  4. 计算机网络项目——最小网元设计(阶段二)
  5. 自适应浮动表单填充布局脚本
  6. 重磅:2020年度国家科技奖初评结果出炉!
  7. 教育部正式宣布:9年义务教育大变动!与孩子息息相关
  8. golang 多协程的同步方法总结
  9. DButils工具使用笔记以及常见问题总结
  10. 一种命令行解析的新思路(Go 语言描述)