点击下载《不一样的 双11 技术:阿里巴巴经济体云原生实践》

本文节选自《不一样的 双11 技术:阿里巴巴经济体云原生实践》一书,点击上方图片即可下载!

作者 | 陈星宇(宇慕)阿里云基础技术中台技术专家

导读:etcd 是阿里巴巴内部容器云平台用于存储关键元信息的组件。阿里巴巴使用 etcd 已经有 3 年的历史, 在今年 双11 过程中它又一次承担了关键角色,接受了 双11 大压力的检验。为了让更多同学了解到 etcd 的最佳实践和阿里巴巴内部的使用经验,本文作者将和大家分享阿里巴巴是如何把 etcd 升级得更强、更稳、更高效的,希望通过这篇文章让更多人了解 etcd, 享受云原生技术带来的红利。

让 etcd 变得更强

本节主要介绍 etcd 在性能方面的升级工作。首先我们来理解一下 etcd 的性能背景。

性能背景

这里先庖丁解牛,将 etcd 分为如下几个部分,如下图所示:

每一部分都有各自的性能影响,让我们逐层分解:

  1. raft 层:raft 是 etcd 节点之间同步数据的基本机制,它的性能受限于网络 IO、节点之间的 rtt 等, WAL 受到磁盘 IO 写入延迟;

  2. 存储层:负责持久化存储底层 kv, 它的性能受限于磁盘 IO,例如:fdatasync 延迟、内存 treeIndex 索引层锁的 block、boltdb Tx 锁的 block 以及 boltdb 本身的性能;

  3. 其他还有诸如宿主机内核参数、grpc api 层等性能影响因子。

服务端优化

了解完背景后,这里介绍一下性能优化手段,主要由服务端和客户端两个方面组成,这里先介绍服务端优化的一些手段。

硬件部署

etcd 是一款对 cpu、内存、磁盘要求较高的软件。随着内部存储数据量的增加和对并发访问量的增大,我们需要使用不同规格的硬件设备。这里我们推荐 etcd 至少使用 4 核 cpu、8GB 内存、SSD 磁盘、高速低延迟网络、独立宿主机部署等(具体硬件的配置信息)。在阿里巴巴,由于有超大规模的容器集群,因此我们运行 etcd 的硬件也较强。

软件优化

etcd 是一款开源的软件,集合了全世界优秀软件开发者的智慧。最近一年在软件上有很多贡献者更新了很多性能优化,这里分别从几个方面来介绍这些优化,最后介绍一个由阿里巴巴贡献的 etcd 存储优化。

  1. 内存索引层。由于索引层大量使用锁机制同步对性能影响较大,通过优化锁使用,提升了读写性能,具体参考:github pr;
  2. lease 规模化使用。lease 是 etcd 支持 key 使用 ttl 过期的机制。在之前的版本中 scalability 较差,当有大量 lease 时性能下降的较为严重,通过优化 lease revoke 和过期失效的算法,解决了 lease 规模性的问题,具体参考:github pr;
  3. 后端 boltdb 使用优化。etcd 使用 boltdb 作为底层数据库存储 kv, 它的使用优化对整体性能影响很大。

通过调节不同的 batch size 和 interval, 使我们可以根据不同硬件和工作负载优化性能,具体参考:github pr。

除此之外,新的完全并发读特性也优化了 boltdb tx 读写锁性能,大幅度地提升了读写性能,具体参考:github pr。

最后介绍一个由阿里巴巴自主研发并贡献开源社区的优化:基于 segregated hashmap 的 etcd 内部存储 freelist 分配回收算法。

下图是一个 etcd 节点的架构,etcd 使用 boltdb 持久化存储所有 kv,它的性能好坏对 etcd 性能起着非常重要的作用。

在阿里巴巴内部大规模使用 etcd 用于存储元数据,在使用中我们发现了 boltdb 的性能问题。这里给大家分享一下:

上图是 etcd 内部存储分配回收的核心算法。etcd 内部默认以 4kB 为一个页面大小存储数据。图中的数字表示页面 id, 红色表示该页面正在使用, 白色表示没有。当用户删除数据时 etcd 不会把存储空间还给系统,而是内部先留存起来维护一个页面池,以提升再次使用的性能,这个页面池专业术语叫 freelist。当 etcd 需要存储新数据时,普通 etcd 会线性扫描内部 freelist,时间复杂度 o(n),当数据量超大或是内部碎片严重的情况下,性能会急剧下降。

因此我们重新设计并实现了基于 segregated hashmap 的 etcd 内部存储 freelist 分配回收新算法,该优化算法将内部存储分配算法时间复杂度从 o(n) 降为 o(1), 回收从 o(nlgn) 也降为 o(1), 使 etcd 性能有了质的飞跃,极大地提高了 etcd 存储数据的能力,使得 etcd 存储容量提升 50 倍,从推荐的 2GB 提升到 100GB;读写性能提升 24 倍。CNCF 官方博客收录了此次更新,感兴趣的读者可以读一下。

客户端优化

性能优化除了服务端要做的事情外,还需要客户端的帮助。保持客户端使用最佳实践将保证 etcd 集群稳定高效地运行,这里我们分享 3 个最佳实践:

  1. put 数据时避免大的 value, 大的 value 会严重影响 etcd 性能,例如:需要注意 Kubernetes 下 crd 的使用;
  2. 避免创建频繁变化的 key/value, 例如:Kubernetes 下 node 数据上传更新;
  3. 避免创建大量 lease 对象,尽量选择复用过期时间接近的 lease, 例如 Kubernetes 下 event 数据的管理。

让 etcd 管理更高效

作为基于 raft 协议的分布式键值数据库,etcd 是一个有状态的应用。管理 etcd 集群状态、运维 etcd 节点、冷热备份、故障恢复等过程均有一定复杂性,且需要具备 etcd 内核相关的专业知识,想高效地运维 etcd 有不小的挑战。

目前在业界里已经有一些 etcd 运维的工具,例如开源的 etcd-operator 等,但是这些工具往往比较零散,功能通用性不强,集成度比较差,学习这些工具的使用也需要一定的时间,关键是这些工具不是很稳定,存在稳定性风险等。

面对这些问题,我们根据阿里巴巴内部场景,基于开源 etcd-operator 进行了一系列修改和加强,开发了 etcd 运维管理平台 Alpha。利用它,运维人员可以高效地运维管理 etcd,之前要前后操作多个工具完成的任务,现在只要操作它就可以完成,一个人就可以管理成百上千的 etcd 集群。

下图展示了 Alpha 的基础功能:

如上图所示,Alpha 分为 etcd 生命周期管理和数据管理两大部分。

其中生命周期管理功能依托于 operator 中声明式的 CustomResource 定义,将 etcd 的集群创建、销毁的过程流程化、透明化,用户不再需要为每个 etcd 成员单独制定繁琐的配置,仅需要指定成员数量、成员版本、性能参数配置等几个简单字段。除此之外,我们还提供了 etcd 版本升级、故障节点替换、集群实例启停等功能,将 etcd 常用的运维操作自动化,同时也在一定程度上保证了 etcd 变更的稳定性。

其次,数据作为 etcd 的核心内容,我们也开发了一系列功能进行重点保障。在备份上,数据管理工具支持定期冷备及实时热备,且保持本地盘和云上 OSS 两类备份,同时也支持从备份上快速恢复出一个新的 etcd 集群。此外,数据管理工具支持对 etcd 进行扫描分析,发现当前集群的热点数据键值数和存储量,弥补了业界无法提供数据管理的空白,同时该拓展也是 etcd 支持多租户的基础。最后,数据管理工具还支持对 etcd 进行垃圾数据清理、跨集群数据腾挪传输等功能。

这些丰富的功能为上层 Kubernetes 集群的管理提供了很多灵活的帮助,例如用户 A 原来在某云厂商或自建 Kubernetes 集群,我们可以通过迁移 etcd 内部的账本数据的功能,将用户的核心数据搬移至另外一个集群,方便地实现用户的 K8s 集群跨云迁移。

利用 Alpha,我们可以做到透明化、自动化、白屏化,减少人肉黑屏操作,让 etcd 运维管理更高效。

让 etcd 变得更稳

本节主要介绍一些 etcd 稳定建设的技巧。大家知道 etcd 是容器云平台的底层依赖核心,它的服务质量、稳定程度决定了整个容器云的稳定程度,其重要性无需赘述。这里先介绍一下 etcd 常见的问题和风险分析,如下图所示,主要分三个方面:

  • etcd 自身:例如 OOM、代码 bug、panic 等;
  • 宿主机环境:例如宿主机故障、网络故障、同一台宿主机其他进程干扰;
  • 客户端:例如客户端 bug、运维误操作、客户端滥用 ddos 等。

针对这些风险点,我们从以下几方面入手:

  1. 建立完善的监控告警机制,覆盖客户端输入,etcd 自身以及宿主机环境状态;
  2. 客户操作审计,高危操作如删除数据做风控限流;
  3. 数据治理,分析客户端滥用,引导最佳实践;
  4. 定期数据冷备,通过热备实现异地多活,保证数据安全;
  5. 常态化故障演练,做好故障恢复预案。

总结展望:让 etcd 变得更智能

本文分别从性能、稳定性、生态工具三个部分享了 etcd 变得更强、更快、更高效的技巧。在未来我们还将为让 etcd 变得更智能而努力。如何让 etcd 变得更智能是一个比较高级的话题,这里简单做一下展望。更智能的意思是指可以使 etcd 的管理更加地聪明,更少的人为干预,例如遇到一些故障,系统可以自行修复等。

本书亮点

  • 双11 超大规模 K8s 集群实践中,遇到的问题及解决方法详述
  • 云原生化最佳组合:Kubernetes 容器 神龙,实现核心系统 100% 上云的技术细节
  • 双 11 Service Mesh 超大规模落地解决方案

“阿里巴巴云原生微信公众号(ID:Alicloudnative)关注微服务、Serverless、容器、Service Mesh等技术领域、聚焦云原生流行技术趋势、云原生大规模的落地实践,做最懂云原生开发者的技术公众号。”

更强、更稳、更高效:解读 etcd 技术升级的三驾马车相关推荐

  1. 解读IPD流程体系的“三驾马车”

    本文将IPD体系中最核心的三大流程作一个总体的概览,至于IPD的战略.组织.项目管理.决策评审与技术评审.绩效与激励等另行说明. 集成产品开发IPD体系(IntegratedProduct Devel ...

  2. 学计算机需要右脑还是左脑,学心理:你的左脑更强还是右脑更强?来测测你惯用哪侧大脑...

    学心理:你的左脑更强还是右脑更强?来测测你惯用哪侧大脑 测试开始: 1.你看到的猫,是在往哪个方向旋转呢? 顺时针旋转1分 逆时针旋转2分 2.我们知道正方形是有角的图形,如果有一个图形没有角,那么可 ...

  3. 独家:沪上三大律师解读“三驾马车”下的数据合规与上海数商体系创新​

    引 言 当下,数据已是继技术.劳动力.资本.土地之外的"第五要素".去年,美国数据交易量高达2700亿美元,我国则在545亿人民币左右.但不可忽视,全球20%的数据量由中国创造,数 ...

  4. 超越Swin Transformer!谷歌提出了收敛更快、鲁棒性更强、性能更强的NesT

    [导读]谷歌&罗格斯大学的研究员对ViT领域的分层结构设计进行了反思与探索,提出了一种简单的结构NesT,方法凭借68M参数取得了超越Swin Transformer的性能. 文章链接:htt ...

  5. Memblaze发布又一款PCIe Gen4系列企业级SSD —— 性能更强,功耗更低

    2021年11月11日 – 继4月发布首款 PCIe 4.0 PBlaze6 6920 旗舰系列 SSD 以来,今天,Memblaze(北京忆恒创源科技股份有限公司)正式宣布推出面向主流市场的 PBl ...

  6. 分布式缓存服务DCS:企业版性能更强,稳定性更高

    摘要:企业版性能指标达到业界TOP1,行业领先30%,内核态实现真正多线程. 一.背景介绍 近年来,随着各行业业务需求急速增加,数据量和并发访问量呈指数级增长,原来只能依附于关系型数据库的传统&quo ...

  7. java与捷安特自行车哪个好_自行车品牌捷安特和美利达,哪个实力更强?你更喜欢买哪一品牌?...

    在自行车界也算折腾了好多年了,自行车品牌也能说出来一大堆,但捷安特和美利达是绕不开的话题,作为自行车从业人员真的不好评价,就像我昨天回答一个关于自行车的问题,配图的时候配了几张我们的车子,就被说成广告 ...

  8. 缓存之王Caffeine Cache,性能比Guava更强,命中率更高!

    点击上方"服务端思维",选择"设为星标" 回复"669"获取独家整理的精选资料集 回复"加群"加入全国服务端高端社群「后 ...

  9. 围观|解读新一代企业数字化架构的“三驾马车”

    来源|尔达 Erda 公众号 导读:数字化转型在各行各业已经被推崇为重要战略方向,从企业到政府组织,都在密切关注并积极探索数字化建设.但是数字化转型的目标到底是什么,如何能够成功地实现转型,都需要一个 ...

最新文章

  1. 简单 描述oracle 存储结构,下面的各选项中哪一个正确描述了
  2. STM32F10x_StdPeriph_Lib_V3.5.0库时钟分析及如何配置
  3. 第22条:理解NSCopying 协议
  4. Windows 系统版本判断
  5. 老男孩最近几年常用的免费的开源软件
  6. 工作375-input readonly
  7. 如何获得Windows聚焦壁纸0726
  8. 安装torch_sparse失败解决方法
  9. IDEA UML图 实战
  10. PostgreSQL 9.6 同步多副本 与 remote_apply事务同步级别 应用场景分析
  11. VC6编辑直接采用Linux换行符,Tips: VC++篇
  12. activeMQ支持的四种协议简介及性能比较
  13. 怎么是phpadmin连接mysql_phpmyadmin连接远程mysql
  14. np.ones(),np.zeros(), np.empty(),np.full(),np.ones_like() 基本用法
  15. ABBYY最新官方免费序列号激活码序列号密钥下载分享
  16. linux 内核配置otg,Linux 4.9.11 测试USB OTG功能
  17. java随机抽题系统_无纸化随机抽题考试系统(Java+Hibernate 技术)
  18. Description Resource Path Location Type Cannot change version of project fac(导入maven项目出现红叉问题)...
  19. There are 2 audio listeners in the scene.的问题
  20. 快讯 I Nexperia 超低电容 ESD 保护二极管保护汽车数据接口

热门文章

  1. 记录 grafana登录 从 go 迁移到 php
  2. 【PAT乙级】1020 月饼 (25 分)
  3. docker之centos7安装docker
  4. Spring boot自动配置示例
  5. C#之switch多分支语句
  6. django orm级联_django+jquery 实现级联选择菜单
  7. python 消息队列 sqlite_sqlite 数据存储 消息队列
  8. 【JUC并发编程11】线程池
  9. 【数据结构-排序】5.九种排序设计分析
  10. 如何通过缓存来提升系统性能