这几年,随着 Kubernetes 成为容器编排领域霸主,etcd 越来越火,GitHub star 已超过 34.2K。这与它的应用场景广泛密不可分,从服务发现到分布式锁,从配置存储到分布式协调,可以说,etcd 已成为云原生和分布式系统的存储基石。

作为最热门的云原生存储之一,etcd 在腾讯、阿里、Google、AWS、美团、字节跳动、拼多多、Shopee 等公司都有大量应用,覆盖的业务不仅仅是 Kubernetes 相关的容器产品,更有视频、推荐、安全、游戏、存储、集群调度等核心业务。

但在使用 etcd 的过程中,还是会遇到不少问题,比如:

  • etcd Watch 机制能保证事件不丢吗?

  • 哪些因素会导致集群 leader 发生切换?

  • 为什么基于 Raft 实现的 etcd 还会数据不一致?

  • 当你在一个 namespace 下创建了数万个 Pod/CRD 资源,并通过标签频繁查询指定 Pod/CRD 资源时,为什么 APIServer 和 etcd 会扛不住?

其实,在学习和使用 etcd、k8s 的过程中,会遇到的问题远不止这些。分享给你一张 etcd 典型问题图谱,你可以对照自己的经历仔细查阅。

这张图出自腾讯云资深工程师唐聪,他是腾讯云 etcd 负责人、2020 年 etcd 社区全球 Top3 活跃贡献者,之前在社区没少看到他提交的代码。

后来我才知道,这几年他一直在和 Redis、etcd 打交道,解决过很多大规模业务增长中的存储稳定性、可扩展性等问题,积累了丰富的大规模集群实战、治理经验。参与 etcd 开源项目的贡献经历,也让他对 etcd 和分布式服务有了更深入的理解。

所以,他能从开发者的视角出发,为你分析问题、梳理最佳实践、解读特性设计方案、阐述社区未来演进方向等等。这两天,看他推出了专栏《etcd 实战课》,试读了几篇文章和目录,很想推荐给你。

在专栏中,他深入解析了 etcd 核心原理,系统梳理其高效学习路径,帮你掌握实践中各类复杂 etcd 问题的解决方案,和在 Kubernetes、服务发现等应用场景的最佳实践,构建高可靠的 etcd 集群运维体系。

唐聪说,这个专栏是他自己多年经验的交付,能解决你在学习、使用 etcd 过程中的很多问题。所以,跟着他学,你一定能用最低的学习成本,掌握 etcd 核心原理与最佳实践,让 etcd 真正为你所用,在工作中少踩坑、少交学费,多升职、多涨薪。

????扫码免费试读

拼团+口令「Happy2021」立省 ¥30

原价 ¥99,仅限今天 24:00 前

唐聪是谁?

前面已经提到,唐聪是腾讯云资深工程师,也是 2020 年 etcd 社区全球 Top3 的活跃贡献者,修复了 etcd 数据不一致、内存泄露、死锁、panic 等众多问题,提升了 etcd 在大规模数据场景下的启动、读性能等。

他 2014 年本科毕业加入腾讯,不到一年时间,就主导完成了一个亿级用户的业务核心存储平滑迁移任务。之后两年,又构建了大规模排行榜和 Redis 集群平台服务,支撑了公司内部多个重要业务,在这个过程中,他积累了大量 NoSQL 数据库知识与经验。

2017 年,唐聪开始接触 Docker 和 Kubernetes,并通过 Kubernetes 解决大规模 Redis 集群的治理问题,提升服务的可用性、降低运维成本。而后他转岗到腾讯云,负责 Kubernetes 集群存储 etcd 治理工作。

现在他是腾讯云 etcd 负责人,主导构建的腾讯云原生 etcd 平台,成功解决了集群大规模增长过程中各类 etcd 稳定性问题,支撑了万级 Kubernetes 和 etcd 集群。目前,etcd 作为腾讯众多产品的基础设施,服务用户已达数亿。

唐聪是如何讲解 etcd 的?

他把专栏分为两大模块,基础篇和实践篇。

基础篇可以帮你建立对 etcd 的整体认知,搞懂读写请求、各个核心特性背后的原理。此外,基础篇的学习也是一个中小型分布式存储系统从 0 到 1 实现的案例解读,你不仅会收获 etcd,还有分布式存储系统构建的理论知识,为下一步进阶打好基础。

在实践篇中,唐聪为你解读了 etcd 实际使用过程中可能会出现的各种典型问题,和各类复杂 etcd 问题的解决方案。

此外,他还分享了 etcd 在Kubernetes、Apache APISIX、分布式锁等场景中的应用,为你梳理最佳实践,让你在业务中更好地使用 etcd,进而对 Kubernetes、Apache APISIX 等原理有更深层次的理解。

更多实践篇内容,可以参考下面的思维导图:

在课程中,他利用拆解法,为你制定了大、中、小三级目标,让你每节课都有收获,通过每个小目标的实现,最终达成个人能力的提升,彻底掌握 etcd。

下面是课程目录:

订阅福利

拼团+口令「Happy2021」立省 ¥30

到手仅 ¥69,原价 ¥99。

????扫码免费试读

????点击「阅读原文」

结算使用口令「happy2021」

立省 ¥30 入手,仅限今天 24:00 前有效。

万级 K8S 集群背后,etcd 如何保持稳定性?相关推荐

  1. 万级K8s集群背后etcd稳定性及性能优化实践

    作者:唐聪, 腾讯 CSIG 后台开发工程师 本文旨在帮助大家了解 etcd集群场景下稳定性与性能优化经验引的容量,避免给后面留坑. 背景与挑战 随着腾讯自研上云及公有云用户的迅速增长,一方面,腾讯云 ...

  2. kubeadm部署k8s_用 kubeadm 部署生产级 k8s 集群

    概述 kubeadm 已⽀持集群部署,且在1.13 版本中 GA,⽀持多 master,多 etcd 集群化部署,它也是官⽅最为推荐的部署⽅式,⼀来是由它的 sig 组来推进的,⼆来 kubeadm ...

  3. 用 kubeadm 部署生产级 k8s 集群

    概述 kubeadm 已⽀持集群部署,且在1.13 版本中 GA,⽀持多 master,多 etcd 集群化部署,它也是官⽅最为推荐的部署⽅式,⼀来是由它的 sig 组来推进的,⼆来 kubeadm  ...

  4. 容灾恢复 | 记一次K8S集群中etcd数据快照的备份恢复实践

    欢迎关注「全栈工程师修炼指南」公众号 点击

  5. 蚂蚁集团万级规模 k8s 集群 etcd 高可用建设之路

    蚂蚁集团运维着可能是全球最大的 k8s 集群:k8s 官方以 5k node 作为 k8s 规模化的顶峰,而蚂蚁集团事实上运维着规模达到 10k node 规模的 k8s 集群.一个形象的比喻就是,如 ...

  6. 蚂蚁集团于雨:万级规模 K8S 集群 Etcd 高可用建设之路

    -     前言    - 蚂蚁集团运维着可能是全球最大的 k8s 集群:k8s 官方以 5k node 作为 k8s 规模化的顶峰,而蚂蚁集团事实上运维着规模达到 10k node 规模的 k8s ...

  7. k8s集群重新将master节点加入集群

    文章目录 问题背景 解决过程 基础环境恢复 恢复etcd集群 恢复docker 恢复k8s集群 总结 问题背景 由三台master节点组成的k8s集群,由于其中一台master节点启动文件异常,将机器 ...

  8. 【深度】阿里巴巴万级规模 K8s 集群全局高可用体系之美

    作者 |  韩堂.柘远.沉醉 来源 | 阿里巴巴云原生公众号 ​ 前言 台湾作家林清玄在接受记者采访的时候,如此评价自己 30 多年写作生涯:"第一个十年我才华横溢,'贼光闪现',令周边黯然 ...

  9. 【深度探讨】阿里巴巴万级规模 K8s 集群全局高可用体系之美

    简介:台湾作家林清玄在接受记者采访的时候,如此评价自己 30 多年写作生涯:"第一个十年我才华横溢,'贼光闪现',令周边黯然失色:第二个十年,我终于'宝光现形',不再去抢风头,反而与身边的美 ...

最新文章

  1. 从程序员的角度深入理解MySQL
  2. C# 往excel出力数据
  3. Django设置TIME_ZONE和LANGUAGE_CODE为中国区域
  4. oracle instr查询字符串
  5. paip.最新的c++ qt5.1.1环境搭建跟hello world
  6. js isinteger_在JavaScript中使用示例使用Number isInteger()方法
  7. Spring Boot 面试问题
  8. docker 仓库镜像 替换_自己动手创建 Docker 镜像并分享到镜像仓库,容器引擎的用途越来越广泛!...
  9. 性能提升 3 倍的树莓派 4,被爆设计缺陷!
  10. 读取和写入Windows的INI文件
  11. java private是什么_java private 干什么用
  12. @transactional可以用在controller层吗_石晶地板可以用在浴室吗?
  13. PHP学习之如何写一个项目?需求分析
  14. macos可以升级到指定版本吗_如何升级mac系统版本?
  15. java 计算星座算法,java 依据生日计算星座
  16. 数据分析之——Adventure项目分析
  17. ST-BlueNrg-lp蓝牙芯片OTA升级过程
  18. jQuery-Ajax的使用
  19. 在MPLAB X IDE下用SEGGER J-LINK调试PIC32
  20. 使用yolov3训练识别围棋死活题和围棋局面

热门文章

  1. Ubuntu防火墙:ufw
  2. unity读取Text
  3. Java——Arrays类操作数组的工具类
  4. Appium wait等待的三种方法
  5. wamp5.5.12安装re dis扩展
  6. [译] ASP.NET 生命周期 – ASP.NET 上下文对象(八)
  7. NOIP2012模拟试题【奶牛晒衣服】
  8. 设计模式(1)--简单工厂模式、策略模式
  9. python dict.fromkeys()研究
  10. 有意思的记录-shell(持续更新)