K8s的出现为PaaS行业的发展打了一针兴奋剂,Docker+k8s的技术路线已经成为了容器云的主流。尤其针对大流量,大弹性的应用场景来说,k8s将其从繁杂的运维、部署工作中彻底拯救出来。然而事情往往没有那么简单而美好,当我们使用k8s去管理一些大规模集群的时候,我们会发现有很多问题等待我们解决。比如,当集群中的所有节点同时去镜像仓库拉取镜像的时候,这种大规模并发很有可能阻塞仓库的出口,导致大家的下载速度都慢得难以忍受,这就是k8s镜像分发的阿喀琉斯之踵。我们当然可以采取镜像仓库集群化的方法来缓解这个瓶颈,然而这种做法始终是治标不治本,此外还会造成维护成本升高,以及镜像同步时效性差等问题。

那么如何解决这个让人困扰的问题呢?
p2p看起来是一个好办法,去中心化的做法,不但可以降低对仓库节点的依赖,同时也可以为用户节省宝贵的外网流量。但是在k8s集群中拉取镜像的场景内使用p2p技术要面对一系列困难,包括节点间数据安全性的问题、无预热前提下的大规模并发拉取、非侵入式将集群改造成p2p网络等。经过不断的探索与实验,我们--华为云容器镜像服务,终于摸索出了一套在k8s集群中完美整合p2p下载的方案。该方案的提出有效的解决了我们遇到的实际问题,提高了镜像下载速度,并为客户节省了大量带宽资源。

p2p改造后的集群下载测试结果

如上图所示,我们限制了镜像仓库的下载带宽,并测试了200节点与500节点情况下,不同下载方式的状况。随着节点数量的增大,并发量触及到镜像仓库下载瓶颈的可能性也随之增大,然而使用了p2p下载方式改造的k8s集群并没有受到该瓶颈的制约,表现远强于传统下载方式。尤其是对于较大的镜像,差距更为明显。

我们是如何把p2p下载整合到k8s集群内的呢?
在华为云容器镜像服务中我们是这样做的,我们改变了所有集群节点去镜像仓库拉取镜像的传统做法。在用户节点中注入peer客户端,使用peer客户端截取docker client的拉取镜像请求,并将请求重定向。经过修改后只有部分节点(约10%)真正到达镜像仓库去获取镜像数据,剩余节点转为自集群内的其它节点获取镜像。要实现这个方案,主要的开发点有三处:需要对镜像仓库进行改造,部署并改造新的tracker服务器,以及在用户节点注入peer客户端。

对镜像仓库的改造

要想实现集群的p2p下载功能,所下载的文件必须包含有种子,因此要对已有的镜像仓库进行改造。当用户push镜像到镜像仓库时,仓库自动计算镜像所有layer的SHA值,并为每一个layer生成一个种子文件。
为了保证集群的安全性验证,仓库为每个接入的peer下发由仓库私钥签名的jwt token,这个token将会进入集群网络,并保证集群节点的认证安全。

部署改良后的tracker服务器
传统的Tracker服务器的主要功能是为所有peer客户端提供peer列表。针对k8s集群场景,我们所搭建的Tracker服务器除了负责分发peer列表外,还增加了许多其它特性。
1. 判断peer节点的集群归属,因为tracker服务器可能对多个集群进行服务,而每个集群中的节点网络相对独立,因此tracker负责记录peer节点的集群归属信息很有必要,这样可以避免分发出网络不互通的peer列表。
2. Tracker服务器负责监控每个peer的状态,自动将部分下载完成的peer节点资源释放,因为集群节点属于客户资源,一旦完成任务应该尽快将资源释放出去。当Tracker判断当前集群中完成节点比例已足够支撑下载时,会指示部分已完结节点终结任务释放资源,并将其移除出任务列表。当所有peer节点均已完成下载,而且一段时间内没有新的下载请求进入,那么Tracker会指示将全部集群节点资源释放。
3. Tracker按比例(约10%)指定部分peer节点到镜像仓库下载,以此将数据带入整个集群网络。
4. Tracker提供peer节点的安全性验证,保证同属于一个集群并下载同一个资源的peer节点有获取peer列表的权限。

容器化的peer客户端
在这个解决方案中,我们创造性的将peer客户端容器化,并通过华为云容器引擎(CCE)的插件功能,将peer容器分发给整个集群。peer容器可以通过修改docker客户端代理的方式,拦截下载镜像请求的相关接口,将从镜像仓库下载操作转化为p2p网络下载操作,并把获取到的镜像数据归还给docker客户端,以此快速的把镜像数据分发到整个集群网络。该peer客户端还具有以下特性:
• 根据tracker的分配,修改下载地址,小部分从镜像仓库下载,大部分从集群网络中下载。
• 在peer客户端的tcp握手协议中注入jwt token安全校验,保证节点数据安全,防止假冒节点盗取数据。
• Peer客户端采用优先级下载方式,能够保证在下载过程中就可以将数据传输给docker客户端,而不是当数据全部下载完全后再传输给docker,以此最大限度的节省下载实际。

经过p2p方案改造后的k8s集群,下载速度得到了提升的同时,也为客户节约了大量带宽。当前这个特性已经在菊厂云上开放给用户使用,感兴趣的同学们快来体验吧

如何拯救k8s镜像分发的阿喀琉斯之踵相关推荐

  1. p2p-如何拯救k8s镜像分发的阿喀琉斯之踵?

    K8s的出现为PaaS行业的发展打了一针兴奋剂,Docker+k8s的技术路线已经成为了容器云的主流.尤其针对大流量,大弹性的应用场景来说,k8s将其从繁杂的运维.部署工作中彻底拯救出来.然而事情往往 ...

  2. 清华唐杰:GPT-3表示能力已经接近人类了,但它有一个阿喀琉斯之踵

    点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要15分钟 Follow小博主,每天更新前沿干货 转载自:量子位 人工智能,现在发展到什么阶段了? 从发展脉络上看,从符号智能.感知智能,现在应 ...

  3. 清华唐杰:GPT-3表示能力已经接近人类了,但它有一个阿喀琉斯之踵 | MEET 2021

    编辑部 整理自 MEET 2021 量子位 报道 | 公众号 QbitAI 人工智能,现在发展到什么阶段了? 从发展脉络上看,从符号智能.感知智能,现在应该到认知智能阶段了. 或者说,我们正走在认知智 ...

  4. 清华唐杰:GPT-3表示能力已经接近人类了,但它有一个阿喀琉斯之踵 | MEET 2021...

    编辑部 整理自 MEET 2021 量子位 报道 | 公众号 QbitAI 人工智能,现在发展到什么阶段了? 从发展脉络上看,从符号智能.感知智能,现在应该到认知智能阶段了. 或者说,我们正走在认知智 ...

  5. 我的思维模式的阿喀琉斯之踵

    我其实是一个很好的广度优先搜索的学生 就像我们的学校一样 先做大,在做强,就是我们的策略 但是,我有一个阿喀琉斯之踵 有很多的时候,我见到事情,我会做一个非常简单的判断之后,就干了 同时干的事情做贼多 ...

  6. 阿喀琉斯之踵的含义是什么?

    古希腊神话中的阿喀琉斯是海神之子,荷马史诗中的英雄,传说他的母亲曾把他浸在冥河里使其能刀枪不入.但因冥河水流湍急,母亲捏着他的脚后跟不敢松手,所以脚踵是最脆弱的地方,一个致命之处.因此埋下祸跟.长大后 ...

  7. 方法论、方法论——程序员的阿喀琉斯之踵

    以前,我认为一个事物对我没有直接用途的时候就不会去理会它,心理学上说我们都戴着自己的认知偏见的有色眼镜去有选择性地看待这个世界,纷繁的信息经过我们的认知图式过滤之后便成为少量有序的事件,所以我们都在有 ...

  8. AI算力的阿喀琉斯之踵:内存墙

    作者 | Amir Gholami       责编 | 欧阳姝黎 出品 | OneFlow社区 这篇文章是我(Amir Gholami), Zhewei Yao,Sehoon Kim,Michael ...

  9. linux卸载k8s,K8S镜像删除及环境清理

    环境清理: #删除所有容器 sudo docker rm -f $(sudo docker ps -qa) #删除/var/etcd目录 sudo rm -rf /var/etcd #删除/var/l ...

  10. caas k8s主控节点如何查询_k8s--04 部署harbor作为k8s镜像仓库

    k8s实战 部署harbor作为k8s镜像仓库 1.实验目标 部署k8s私有镜像仓库harbor把demo小项目需要的镜像上传到harbor上修改demo项目的资源配置清单,镜像地址修改为harbor ...

最新文章

  1. for循环一定要指定键么 vue_vue的for循环使用方法
  2. iOS App开发的那些事儿1:如何建立合适的规范
  3. 拋棄虛擬機,微軟實驗讓我們在線做(一)
  4. Java遍历完数的一些思考
  5. win7不显示移动硬盘_win7系统电脑开机不显示桌面?
  6. 【第3篇】python爬虫实战-CSDN个人主页文章列表获取
  7. 北大助理教授献给「后浪」的建议:奔涌吧,深度学习!
  8. 《Effective Java 3rd》读书笔记——对于所有对象都通用的方法
  9. bzoj1835基站选址(dp+线段树)
  10. scala学习笔记一------初步了解scala
  11. 各种求最大公约数的函数
  12. SQL Server安装失败,SQL Server卸载不干净
  13. Oracle 多行显示在一行详解(listagg)
  14. php类似滴滴系统,除了滴滴顺风车还有哪些顺风车平台好用?
  15. 温习Java和基础汇总
  16. laravel mysql 时区_Laravel时区设置
  17. 树莓派系统安装 3.5寸LCD驱动安装 ssh远程链接
  18. MySQL数据库期末考试试题及参考答案(08)
  19. 深度丨银行零售客群策略与标签体系搭建指南
  20. 大白话解析Context中的cancelCtx

热门文章

  1. 计算机识别人脸原理,人脸识别:原理、方法与技术
  2. Pycharm 添加自动表头(包含汉化和英文版本路径)
  3. 用chrome 观看youtube视频显示中文字幕
  4. YouTube如何开启双语显示
  5. 解决linux下syslog文件过大
  6. 怎样成为一个优秀的架构师?
  7. 正版maya安装时,更改注册登录方式方法
  8. win7系统服务器无法局域网访问,Win7局域网无法访问如何解决?
  9. 【高等数学】四.多元函数微分学和二重积分
  10. AWS Lambda学习2:通过S3事件触发调用Lambda函数,实现缩略图地生成