在整个基础设施中,服务器是面向最终用户提供计算和存储资源,且在数据中心的整体 TCO 中占比最大的至关重要的角色。服务器从诞生到现在,每一次技术的突破和换代,都是朝着更开放、更易用、更优 TCO、更易交付的方向演进。

本文选自 《企业数字化基石:阿里巴巴云计算基础设施实践》 一书。与您一同探寻阿里服务器的持续演进与未来展望。


阿里巴巴的服务器演进

▊ IOE 时代

最初的几年,阿里巴巴的基础设施是基于IOE 的解决方案构建的。IOE 是传统IT 三大件,指以IBM、Oracle、EMC为代表的小型机、集中式数据库和高端存储的技术架构。

  • I 指 IBM p 系列小型机,操作系统是 AIX(IBM 专有的 Unix 系统)。

  • O 指 Oracle 数据库(RDBMS)。

  • E 指 EMC 中高端 SAN 存储。

IOE 代表一种集中专用的架构,强调单一系统的规模,通过强化单一系统提升数据处理能力。

IOE

阿里巴巴过去一直采用的是Oracle 数据库,并利用小型机和高端存储设备提供高性能的数据处理和存储服务。随着业务的不断发展,数据量和业务量呈爆发性增长,传统的集中式 Oracle 数据库架构在扩展性方面遭遇瓶颈。IOE 实际上代表了一种高成本、高维护费、很不“互联网”(不擅长处理大规模高并发的互联网行为)的商用数据库系统,特别是阿里巴巴发展得越来越大,所需要付出的升级硬件和维护的代价也会越来越惊人,于是阿里巴巴采用数据切分(Sharding)的策略,将部分海量数据应用从集中式Oracle 切换到分布式MySQL 集群,从纵向扩展到水平扩展,解决了数据库扩展性的问题,并用PC 服务器替换了小型机。

▊ 电商时代

随着IOE的淡出,阿里巴巴正式进入全x86 服务器 + 分布式系统的时代。这一代的服务器出现了各种Form Factor :AliRack 整机柜服务器(如下图)、2U4 高密度节点服务器、1U1 节点计算型服务器、2U1节点存储型服务器,等等。在这一代服务器中也出现了多种技术尝试,比如Turbo 技术、非热插拔硬盘、高密GPU 服务器,等等。

AliRack 的开发和部署,标志着阿里巴巴定义互联网服务器的开始

计算 / 存储分离和部件化

在以企业级用户为主的时代,行业更多的是以单机“Scale up”能力这一维度来优化单机能力,通过提升置换比的方式来降低业务TCO。随着Google、Facebook、阿里巴巴等公司在分布式计算/ 存储领域的研发,当前服务器已经从单纯的“Scale up”为重心走向了“Scale out”。从整体架构层面,更多体现的是结合业务的架构变化及网络的升级大幅提升集群的性能,其中在产品层面体现出:计算与存储演进解耦,计算求快,存储求稳;在服务器的设计层面也涌现出针对计算优化的形态,如 Facebook 的 Yosemite 系统,以及针对存储优化的形态,如阿里巴巴“貔貅项目”研 发的存储服务器。

阿里巴巴“貔貅项目”研发的存储服务器

之前,阿里巴巴服务器在质量、成本、运维等方面都碰到过各种各样的问题,也有过各种各样的技术尝试,因此在Intel Grantley 一代服务器平台上,阿里巴巴有针对性地定制服务器主板功能、系统设计,结合运维依赖、历史问题等形成了阿里巴巴的定制BIOS、BMC 规范。在部件层面,将操作系统盘与数据盘分离,引入M.2 的 Form Factor 作为服务器内部操作系统盘,不占用系统盘位;在技术层面,贯彻从零到整、从整到零的思路,服务器的技术掌控下沉到部件层面,以阿里巴巴第一款定制Broadwell 架构Intel® Xeon® E5-2682 V4,以及阿里巴巴第一代自研 PCIe SSD AliFlash 为主要代表:

  • Intel® Xeon® 2682 V4 的成功定制标志着阿里巴巴的服务器CPU 深度定制路线 的开始。

  • AliFlash v1.0 在此阶段规模引入且取得巨大性能优势和标杆效应。

表 2682 V4 CPU 与其他型号的对比

阿里巴巴定制 CPU 及AliFlash v1.0

在异构计算场景,深度学习的广泛应用也推动了 GPU 等异构服务器的迅速发展, 从单纯的2 卡 Tesla M40 服务器用作HPC、深度学习,到2 卡 AMD Firepro S7150x2服务器用作图形渲染,再到8 卡 GPU 服务器加速深度学习训练,以及FPGA 服务器的部署尝试。这标志着阿里巴巴真正开始进入技术掌控力的元年,并且在Broadwell系列服务器的 TCO 收益也反向证明了技术投入的巨大回报。

未来发展展望

进一步解耦 CPU-Storage,CPU-GPU,CPU-MEM 和架构一体化

展望未来的发展,下一代服务器解决方案发展会结合下一代的网络架构及下一代的 IDC 架构进行深度适配和优化,同时从服务器L6、部件级别继续垂直发展,往下到芯片级,往上形成平台化,打通业务层。

下一代服务器架构

▊服务器架构层面 进一步计算、存储分离,大计算+异构计算+大存储+高性能存储;服务器整机从紧耦合到松耦合;整机柜交付,各部分模块化设计满足不同场景需求。

▊ 部件和芯片层面 新的存储介质形成新的存储Tier,为数据库等I/O 密集场景提供性能加速。内存内计算(Inmemory Compute)等新兴的使用方式也提供了更多的方案选择。

▊ 工程技术层面 随着服务器性能的提高,功耗的增长也不可避免,高功耗不仅意味着耗费更多的电能,同时也会在电源布线、机房通风、空调散热等各方面带来巨大的压力。随着计算性能和密度的不断提升,也许未来再大的风也无法吹凉未来那颗滚烫的芯了,那么如何发挥芯片的计算能力,并且把能效发挥到极致,液冷在可见的未来是一个重要的方向。阿里巴巴位于北京东奥云数据中心的浸没式液冷集群是全球互联网行业规模领先且投入实际运营的液冷集群,完全采用由阿里巴巴设计的服务器和浸没式液冷解决方案,已经为2018 年的“双11”提供了绿色的计算能力,其PUE 值稳步保持在1.1 以下。

阿里巴巴设计的服务器和浸没式液冷

▊ AI 场景复杂化基于FPGA、GPU 和 NPU 等不同方案为不同应用场景提供加速,同时提供统一的机器学习加速平台。

▊ 内存的池化随着Intel CXL 等新的高速互联协议的提出,在PCIe 5.0 的物理层基础之上,提供了更高级的I/O、内存访问,以及一致性的协议,为异构计算及内存系统加速,更好地支撑AI、机器学习、HPC 等应用场景。在此情况下,内存也具备了一定程度的池化能

《企业数字化基石:阿里巴巴云计算基础设施实践》

高山渊 蔡德忠 赵晓雪 刘礼寅 刘水旺 陈义全 徐波 编著

这是一本对阿里巴巴云计算基础设施技术实践的全面总结,并被赞誉对当前国内外云计算基础设施技术发展具有里程碑式的指导意义!它就是由阿里巴巴官方团队编著、承载着云计算技术风云变幻的著作 ——

本书将详细地阐述阿里巴巴在基础设施上的实践细节及先进技术,包括数据中心、网络、服务器、计算硬件、存储硬件,以及智能化运营与自动化运维等内容。

本书得到了阿里巴巴集团CTO兼阿里云智能事业群总裁张建锋(行癫)阿里巴巴集团副总裁基础设施事业部负责人周明中国信息通信研究院云计算与大数据研究所所长、开放数据中心委员会名誉主席何宝宏三位的亲笔作序推荐。

※ 强大的作者团队

本书由**AIS (Alibaba Infrastructure Service )**组织编写,主要作者为高山渊,蔡德忠,赵晓雪,刘礼寅,刘水旺,陈义全,徐波。历时三年,前后百余位技术专家参与写作。( AIS是负责阿里巴巴集团所有基础设施的研发、运营、维护等工作的部门)

※ 全面扎实的内容

本书不仅阐述数据中心、网络、服务器、计算硬件、存储硬件、智能化运营与自动化运维,而且梳理了基础设施演进过程中的思路、得失、最佳实践、未来路径规划。

※ 全彩印刷

阅读体验友好,图表均经过精心配色设计和描绘。每一处知识点的写作都经过了阿里巴巴云计算基础设施技术专家们的推敲与斟酌。

※ 核心内容

  • TCO分析和建模
  • 数据中心能效
  • 数据中心的核心技术,包括供电、制冷等
  • 数据中心网络架构和关键技术
  • 服务器技术:服务器的硬件组成、演进、挑战等。
  • 计算硬件技术:通用计算、异构计算、总线互联等。
  • 存储硬件技术:内存、HDD、SSD
  • 及阿里巴巴自研存储产品AliFlash等。
  • 基础设施智能化运营与自动化运维
  • IDC、网络、服务器的一体化

读者评论

《阿里巴巴云计算基础设施实践》这本书的书名并不吸引人,但是作者是实打实的AIS架构大牛人,人靠谱,写的东西也是阿里巴巴基础设施服务部门多少亿美金学费之后的经验分享,内容也靠谱。

第五章与第六章是我看的重点。

文笔非常工程师派头,比技术手册强一点,但是全是干货,每一段都能有极深的延展。挑自己的方向看下去,感觉遍地知识点……后背隐隐发凉,有种功课没做好被抽查到的后怕。

五星推荐。

不多说了,我接着做功课去了。

—— 来自首批读者留言

云时代阿里服务器的演进与展望相关推荐

  1. 技术沙龙 | 云时代下的架构演进—企业云及云原生技术落地实践

    云改变了IT行业的形态和市场格局,催生了应用的发展.随着云计算技术的不断演进,作为一名优秀的架构师,必须深入了解云计算平台的特点及架构设计,包括构建数据库.大规模落地微服务.Service Mesh和 ...

  2. 云时代传统服务器被“唱衰”,服务器厂商面临“大考”

    ZD至顶网服务器频道 11月23日 新闻消息(文/邹大斌):中国有全球最大的互联网市场,这个市场成就了BAT(百度.腾讯.阿里)等互联网公司,同时也造就一个巨大的服务器市场.单就BAT而言,保守的估计 ...

  3. 安全狗:云时代的服务器安全守护者

    受访者简介:陈奋,厦门服云信息科技有限公司 CEO,国内知名互联网安全品牌安全狗创始人.从2004年涉足信息安全领域以来,在网络安全.数据安全方面都有深入的研究,共获得3项安全领域的个人发明专利.20 ...

  4. 【观察】“无影”云电脑:让澎湃算力触手可及,重新诠释云时代办公新物种...

    想象一下,当你在家中休息时突然接到公司通知需要修改文件,但苦于家中电脑没有存储源文件,此时的你不得不牺牲大把的时间专程跑去公司完成这项工作,可谓"费时又费力".但是,在云计算快速发 ...

  5. i 智慧 | 回首30年存储演进之路 再看新数据时代阿里云存储如何革故鼎新?

    戳蓝字"CSDN云计算"关注我们哦! 作者 | 刘丹 责编 | 阿秃 出品 | CSDN云计算(ID:CSDNcloud) 人类以日新月异的速度刷新着科技的成果,其中存储的发展历史 ...

  6. 阿里毕玄:阿里十年,从分布式到云时代的架构演进之路

    这是一篇来自鲲鹏会的文章,其内容是毕玄在TGO 鲲鹏会杭州分会活动现场分享的<云时代的软件架构>的整理.特别转载到云栖社区,让更多开发者深入了解阿里架构的变迁和对云技术的一些新的想法. 2 ...

  7. Apsara Stack 技术百科 | 浅谈阿里云混合云新一代运维平台演进与实践

    简介:随着企业业务规模扩大和复杂化及云计算.大数据等技术的不断发展,大量传统企业希望用上云来加速其数字化转型,以获得虚拟化.软件化.服务化.平台化的红利.在这个过程中,因为软件资产规模持续增大而导致的 ...

  8. 一群阿里人如何用 10 年自研洛神云网络平台?技术架构演进全揭秘!

    [CSDN 编者按]逍遥子曾说,对阿里人来说「打仗是最好的团建,参加过双 11 的叫战友」,同样,参加过多次双 11 考验的系统技术都会成为真正意义上的基础设施,阿里云飞天系统的云网络平台洛神就是如此 ...

  9. 阿里马涛:重新定义云时代的开源操作系统 | 人物志

    作者 | Just 出品 | CSDN(ID:CSDNnews) 随着云计算的发展,以及Linux平台的不断发展和生态系统的不断完善,越来越多的企业.云服务提供商都将Linux作为其数据中心的首选操作 ...

最新文章

  1. DS二叉树--左叶子数量
  2. Linux源代码软件安装,Linux软件安装:源代码与软件安装
  3. Kubernetes 稳定性保障手册 -- 极简版
  4. [蓝桥杯][算法训练VIP]乘积最大(动态规划)
  5. 表达能力VS只会敲代码(2018届毕业生web前端)
  6. 如何使用JSR107缓存注释
  7. RDP协议详细解析(五)
  8. 进程间通信机制(管道、信号、共享内存/信号量/消息队列)、线程间通信机制(互斥锁、条件变量、posix匿名信号量)...
  9. Android之ViewStub的简单使用
  10. R语言中ggplot Theme Assist安装使用教程
  11. CRM客户管理系统搭建
  12. Kali 实现ARP断网攻击_arp断网攻击_arp欺骗
  13. 容器Docker学习系列五~命令学习history,save, import
  14. 中国搜索引擎市场投资分析及前景预测报告
  15. 中文不能输入超过20,英文输入不能超过40个
  16. javascript小案例-----tab栏切换
  17. 炒菜,我把厨房烧了!
  18. 解密mysql导出的ncx文件内的加密密码
  19. 全球及中国用于癌症治疗的新型药物输送系统行业研究及十四五规划分析报告
  20. 《C++ Primer》习题参考答案:第6章 - C++模块设计——函数

热门文章

  1. Java实训——桌面日历
  2. Git搭建私有服务器
  3. python画一颗小心心
  4. 股票指标RSI背离检测程序,附代码
  5. Feelings On Life II
  6. 数据结构与算法——树和二叉树***
  7. Google Earth Engine(GEE)提取点的土壤湿度
  8. 浑天码部件代码表说明
  9. Premiere视频制作(手机竖屏)
  10. BZOJ3510 首都