随着云原生时代的发展,传统 IT 基础设施加速云化,云原生化成为云上的必然趋势。作为云原生代表技术之一,容器技术可帮助企业提升 IT 架构的敏捷性,加速应用创新,帮助企业更加灵活地应对商业发展中的不确定性。疫情期间,在线教育、音视频、公共健康等行业出现了大幅度的增长。一些基于云计算和容器技术的公司,很好地把握住了业务快速增长的机遇,实现了自身的跨越式发展。

容器规模化落地已成为企业发展“必修课”

疫情加速了企业数字化的发展进程,低延时和高并发的线上场景频繁出现在企业日常经营中,业务创新的需求也在倒逼企业不断运用新兴技术手段。现如今,Kubernetes 逐渐成为云原生时代的基础设施,容器技术被广泛应用于人工智能、大数据、区块链、边缘计算等场景,作为轻量化的计算载体,为更多的场景赋予高度的弹性与敏捷性。在日常经营和业务创新的双重压力之下,越来越多的企业从小规模试用到全面拥抱容器规模化落地,以保障企业业务能够健康且长远发展

据信通院《2020 年中国云原生用户调查报告》显示,60% 以上的用户已在生产环境中应用容器技术,近八成用户的生产需求需要 1000 及以上的节点规模满足,超过 13% 的用户容器规模已超过 5000 节点,9% 的用户容器规模大于 10000 节点。随着云原生技术的进一步普及,越来越多的企业核心业务切换到容器,企业生产环境容器集群规模呈现爆发式增长趋势,容器规模化落地已成为企业发展“必修课”。目前开源版本 Kubernetes 最多可以支撑 5 千节点及 15 万 Pod,已经无法满足日益增长的业务需求。

容器规模化落地企业要过哪些难关

大规模容器集群可以提供更大的业务负载能力,更高的流量突发能力,更加高效的集群管理方式。作为云原生领域的实践者和引领者,阿里云率先实现了单集群 1 万节点1百万 Pod 的规模突破,相比于社区版 Kubernetes,单集群节点数在社区基础上提高了 2 倍,Pod 数提升了 6.7 倍。基于服务百万客户的经验,阿里云沉淀了“容器规模化落地四步走”的路径方法,可帮助企业克服容器规模化落地过程中的难关,轻松应对不断增加的规模化需求。

第一步:如何判断自身是否需要容器集群规模化?

当企业面临流量突发型业务、复杂计算型业务、需进一步提高运维效率等业务或 IT 诉求,单集群的容量成为当前掣肘发展的瓶颈。例如基因计算、在线秒杀等业务,会在短时间会产生大量的负载,对单集群能容纳的计算资源提出了严峻的挑战,亟需单个集群能够支持大规模的节点来批量运行 Pod。基于此,企业就要开始考虑集群扩容了,不过追求集群规模大,并不是一针见效的万能“银弹”, 企业需要根据自身业务发展特性,优化集群能力实现业务价值,盲目追求集群规模化将扩大整个故障域的风险

第二步:容器规模化不是简单扩大规模的大小,如何自下而上实现一整套体系优化,打通任督二脉?

Kubernetes 作为云原生时代的操作系统,其自身及其部署的云环境是非常复杂庞大的,因此容器规模化是从底层云资源到上层应用的一整套优化体系。企业用户需要重点解决三个层面的优化:

  1. 在云产品层面打破对云资源配额的限制;
  2. 在集群组件层面提升资源规模化的天花板;
  3. 在 Kubernetes 资源层面优化集群配置策略来保证资源规模化能力。

第三步:容器规模化后难以保障原有性能不受损,如何实现性能进一步提升,做个“灵活的巨人”?

容器集群规模被放大 N 倍之后,对存储、集群网络、应用分发等性能都提出了巨大挑战,例如大规模集群数据中心内网络流量通常较大,网络延迟与抖动的问题也会随之被放大,影响集群网络传输效率和集群稳定。还有大规模集群下批量发布更新应用的常规场景,1w 个节点瞬时的镜像拉取会产生巨大的网络冲击,给镜像服务和网络带宽带来了巨大的压力。容器规模化的初衷是提供更强大的技术支撑力,不仅要保障原有性能,还需要进一步提升整体性能

企业用户可重点从四个方面入手优化:

  • Node&Pod 规模化效率
  • 网络效率(吞吐与延迟)
  • DNS 解析效率
  • 镜像加速

第四步:容器规模化后最惊心动魄的难关是“稳定”

如果说集群规模化是第一步,那么稳定的运行上万节点的集群才是更加惊心动魄的,庞大的系统最重要的就是控制故障域,防止雪崩。相对于规模而言,容器规模化后的稳定性更加重要,因为大规模集群的恢复不是简单的重启就能够解决的,一旦雪崩开始,整体崩溃不可避免,严重影响业务接续性。对于企业而言,大规模集群的稳定性就是业务在线的安全性。企业用户重点需要考虑事前止血预案、资源索引和系统组件优化、以及监控所有节点随时启动自愈流程。

阿里云帮助企业一站式实现容器规模化落地

针对大规模集群在企业落地的种种难关,阿里云基于 ACK Pro 提供了企业级的容器集群管理能力,在 APIServer 和调度器上提供了大量性能优化,打破资源规模限制、提升性能天花板、保证集群稳定性。通过自研高性能容器网络 Terway,优化 Pod 延迟 30%,降低大规模 Service 的性能开销,不仅可解决大规模集群的网络瓶颈问题,而且提供几乎云上原生的网络性能,使得集群响应更迅速。企业级镜像仓库 ACR EE 支持独享存储,提供按需加载镜像的能力,降低启动时间 60%,可解决大规模节点拉取镜像慢的问题。整合阿里云存储、网络和安全能力,阿里云一站式为企业提供容器规模化运行的最佳性能:更加高效的网络转发、更强扩展能力的存储、更高效的应用与镜像分发、更稳定的大规模集群管理

值得一提的是,阿里云在近日 2020 云原生产业大会中,成为首家通过信通院容器规模化性能测试的云服务商,获得最高级别认证—“卓越”级别。在信通院的容器规模化测评中,阿里云容器服务的满负载压力测试、网络延时、网络性能损耗等多项测评结果,在参与测评的厂商中遥遥领先。 基于此,阿里云拥有足够弹性的“服务能力空间”,可根据企业业务量身定制满足当前所需的容器集群服务,除了支撑阿里集团内部核心系统容器化上云和阿里云的云产品本身,也将多年的大规模容器技术以产品化的能力输出给众多围绕双十一的生态公司和 ISV 公司。通过支撑来自全球各行各业的容器云,阿里云容器服务已经沉淀了支持单元化架构、全球化架构、柔性架构的云原生应用托管中台能力,管理了超过 1 万个以上的容器集群,提供企业级可靠服务。

阿里云拥有国内规模最大的容器集群、最丰富的云原生产品家族和最全面的开源贡献,提供云原生裸金属服务器、云原生数据库、数据仓库、数据湖、容器、微服务、DevOps、Serverless 等超过 100 款创新产品,覆盖新零售、政务、医疗、交通、教育等各个领域。阿里云容器服务是国内唯一连续两次入选 Gartner 2019 年和 2020 年《竞争格局:公共云容器服务》报告的厂商,阿里云覆盖 Serverless Kubernetes、服务网格、容器镜像等九项产品能力,与 AWS 平齐,产品丰富度领先 Google、微软、IBM 和 Oracle 四家厂商。

随着容器技术的逐渐普及,如何评价容器性能高低成为业内普遍关注的议题。针对行业痛点,中国信息通信研究院发布的业内首个超大规模容器性能测评结果,客观真实反映了容器集群组件级的性能表现。在 2020 云原生产业大会 上,阿里云研究员、阿里云原生技术负责人丁宇表示,“阿里云一直致力于推动云原生在国内的普及,将与信通院一起促进中国容器市场的规范化、标准化发展。”

原文链接
本文为阿里云原创内容,未经允许不得转载。

最佳途径 | 容器规模化落地如何四步走?相关推荐

  1. 深度 | 容器规模化落地企业的最佳途径

    随着云原生时代的发展,传统 IT 基础设施加速云化,云原生化成为云上的必然趋势.作为云原生代表技术之一,容器技术可帮助企业提升 IT 架构的敏捷性,加速应用创新,帮助企业更加灵活地应对商业发展中的不确 ...

  2. 推进教育人工智能?网易云和网易波特 “四步走”

    是的,以上就是在网易云创大会以"唤醒未来,技术革新推动知识共享"为主题的教育论坛上,网易云通信与视频副总经理王丹丹分享的网易云AI助教演示视频.未来,网易云将携手网易波特基于通信与 ...

  3. 团队管理11--管理规划四要素及四步走

    本文来谈一下我对管理规划的理解,希望对大家有启发. 规划其实大家都知道,只是平时思考的稍微少一点.比如说做事情需要有规划,对自己的人生需要规划,理财需要规划,生活需要规划等等,每天的工作需要规划等等, ...

  4. 如何学好编程?黄金四步走

    关于编程学习的最佳方法就是:重复地阅读代码和编写代码(读>写代码>读>写代码),阅读书籍.博客文章.开源代码,了解语言或系统,自己实际去写代码. 下面分为四步走给大家说下! 第一步: ...

  5. 数据库管理专才四步走

    数据库管理专才四步走: 数据库管理专才难觅 RHI咨询公司执行董事凯瑟琳·斯潘塞·李认为:"精通Oracle和微软SQL Server管理,并能把电子商务应用中收集到的大量数据转变成'商业智 ...

  6. 跟相亲对象微信聊什么?聊天绝学四步走一试便知有没有

    跟相亲对象微信聊什么?聊天绝学四步走一试便知有没有. 很多男生在微信上和妹子聊天时,经常聊着聊着就冷场了,搞得彼此很尴尬,特别是对方是你相亲对象的时候,更是巨尬无比.那么从微信上该怎么和女生聊天,才能 ...

  7. 灾害应急管理信息化建设“四步走”——以水旱灾害为例

    引言 中国是世界上受自然灾害影响最为严重的国家之一,其中又以水旱灾害的影响最大.由于我国领土面积广大,河湖众多,且地处亚欧大陆和太平洋之间,季风气候盛行,降水时空分布不均,导致了我国的水旱灾害具有种类 ...

  8. 稳扎稳打,贴近生活!提高雅思听力成绩四步走

    有不少考生认为听力部分是雅思(课程)考试当中最难的一个环节,因为它与我们平时考的四级.六级考试不大一样,不但题型多,语速快,要拼写,而且只读一遍.这给我们从小学开始就做且只做选择题的同学们造成了一个不 ...

  9. python抓取内存中的网页_『爬虫四步走』手把手教你使用Python抓取并存储网页数据!...

    爬虫是Python的一个重要的应用,使用Python爬虫我们可以轻松的从互联网中抓取我们想要的数据,本文将基于爬取B站视频热搜榜单数据并存储为例,详细介绍Python爬虫的基本流程.如果你还在入门爬虫 ...

最新文章

  1. 中国CIO最关心的八大问题(下)
  2. HighNewTech:18.11.07—第五届世界互联网大会—互联网届的奥斯卡大奖—15张PPT见证15项世界互联网领先科技成果
  3. SDOI 2009 ED
  4. upc组队赛5 Bulbs
  5. 使用流进行通讯的一种可能犯的错误 (InputStream + OutputStream)
  6. nginx指定路径运行
  7. matlab 数学 应用论文,MATLAB在高等数学课程中的应用(图文)
  8. php 相加函数,求和函数是什么
  9. 网络安全----数字签名与数字证书
  10. ap计算机知识点总结,AP统计学考试知识点汇总
  11. 理解C语言——从小菜到大神的晋级之路(15)——完结篇:C编程风格
  12. SWF编辑器,替换SWF图片的工具下载
  13. XR872 移植 u-boot-v2021.07
  14. KingbaseES数据库对象管理工具
  15. Qt QVector “isDetached()“
  16. getElementByID getElementsByName getElementsByTagName用法详解
  17. 两种网页转Markdown的简便方法
  18. JavaWeb个人博客项目:手把手教你实现博客后台系统之界面图展示1
  19. Spring相关文章汇总篇【Spring,SpringBoot,SpringCloud等】
  20. 启动页上点击广告跳转,退出广告页后返回继续启动的实现方法

热门文章

  1. mysql 从库状态_大神教你自动发现监控mysql从库状态
  2. 玩ts要注意什么_番禺三维创意拍摄要注意什么
  3. python的threading是什么意思_Python中的threading模块是什么
  4. 【LeetCode笔记】剑指 Offer 47. 礼物的最大价值(Java、动态规划)
  5. 【学习笔记】网络层:应用模型、DNS系统、文件传输协议FTP
  6. php抓取页面生成html,PHP smiple html dom抓取页面内容
  7. 2017电大c语言考试时间,2017年电大 《c语言程序设计》a课程考核说明.doc
  8. git rebase用法_Git:Clone别人的代码之后push到自己码云上失败的解决办法
  9. 数学系和物理系学生有什么差别?
  10. 菲尔茨奖得主丘成桐在清华设立数学英才班,比肩清华姚班