为加速新冠疫苗研发,日前阿里云已免费开放其一切AI算力。同时,阿里云将与合作机构向全球科学共同体免费开放相关药物研发资源,共同加速针对新型冠状病毒的药物研发。这若干项举措背后的助力,源自于阿里巴巴强大的云计算基础设施。

本文节选自 《企业数字化基石:阿里巴巴云计算基础设施实践》 一书,将为大家带来云计算基础设施的技术价值。


▊ 基础设施的技术价值

基础设施的技术价值层次如下图所示。

基础设施的技术价值层次

  • 基本价值: 实现专业技术的基本价值,例如,网络对于业务的基本价值是网络传输数据的价值,体现在连通性、可靠性、带宽等方面。

  • 架构价值: 当某项技术成为决定技术变化的核心的时候,我们就认为其不仅发挥基本价值,还发挥了架构价值,例如,Flash 存储技术的成熟,让阿里巴巴能够以分布式技术替代原先需要高端存储和计算才能完成的海量数据库业务支持,从而成就了去 IOE 的成功。

  • 业务价值: 当一项技术变得人人都可以随时使用的时候,这项技术必然产生业务价值,例如,计算和虚拟化技术的发展,让租用计算能力成为云计算的核心模式和竞争力。

  • 成本价值: 当一项技术趋于完全成熟时,成本就成为考量这一技术竞争力的最后一个指标,甚至有些时候,成本会成为一项业务的核心竞争力,例如,常见的互联网业务在业务发展前期都会以低价、亏本、免费的方式吸引客户,这时候,成本是否足够低,就成为业务能否生存、吸引客户的关键因素。

回顾最近互联网相关技术的发展,云计算、大数据、AI 等无疑一方面是技术创新最活跃的领域,另一方面也都成为新的业务方向。基础设施技术的持续创新,为它们提供了更多机遇。

基础技术研发要充分考虑技术的这四个价值层次。本书将围绕基础设施技术及其技术价值体现做细节探讨。

1. 技术安全

当基础设施技术成为核心竞争力和发动机的时候,技术安全成为一个必须要面对的课题。基础设施技术安全考虑以下几个方面。

  • 关键技术 / 资源,不受单一供应商绑定,不被竞争对手领先。

  • 符合行业 / 国家 / 地区规定和国家技术安全。

  • 技术不足严重影响公司业务发展,如果阿里巴巴在过去没有做去IOE(IBM, Oracle,EMC),就不可能有电商、金融甚至云计算业务的成功。

  • 技术不足导致竞争劣势,成本差距无法承受(比如成本差距 >10%)。

  • 技术发展导致业务被颠覆。

  • 核心技术泄露导致丧失竞争优势。

  • 唯一、稀缺资源的获取,产生更多的业务想象力,同时形成竞争优势。

如何应对技术安全问题,是基础设施技术发展过程中需要始终重点考虑。

2.稳定性

基础设施作为支持和运行业务的重要生产资料之一,其稳定性也极大地影响着业务的稳定性。

基础设施特别是硬件类设备一定会存在故障,云计算将基础设施的不稳定作为基本假设来设计系统——这一点也成为云计算区别于传统设备供应商的核心竞争力之一——因此会在业务层设计容灾措施,例如阿里巴巴电商类业务的同城双活、异地多活架构就降低了对基础设施的依赖。但是并非所有业务都拥有完善的架构来应对基础设施故障,因此基础设施的稳定性SLA(Service Level Agreement )/ OLA( Operational Level Agreement )仍然是一个长期的挑战。

同时,稳定性的SLA/OLA 并非越高越好,针对某些特定业务,我们适当降低 SLA/OLA 的要求可以有效提高成本优势和效率,在《企业数字化基石:阿里巴巴云计算基础设施实践》一书中将会详细展开。

  • IDC

Uptime Institute 和 TIA 都将数据中心分为四个等级,即Tier I ~ Tier IV,直观来 说,等级越高的数据中心稳定性越好。

中国质量认证中心(CQC)的标准GB50174-2008 将数据中心分为A、B、C 三个等级,其中 A 级为最高。

IDC作为底层的基础设施,出问题之后影响面也往往最大,同时稳定性的挑战也最大。一般来说,IDC触发的故障都是非常严重的故障,例如,2015 年 6 月 21 日阿里云中国香港机房故障导致的业务中断超过 12 小时的严重事件:

“6月21日上午9点37分,阿里监控系统发现阿里云中国香港IDC 运营商名气通机房出现访问异常,名气通机房反馈的原因为供电系统故障导致数据中心大楼整体断电,并触发消防报警。根据当地的消防规定,必须彻底排查隐患并完全消除后,才能获准进场做电力抢修。21点22分,机房正式恢复稳定供电,阿里立即执行既定预案逐项恢复服务,21点 32分,安全防护服务恢复正常,各项服务陆续恢复,截至 23点39分全部服务恢复。”

因此,IDC 作为底层的基础设施,稳定性是重中之重。

  • 网络

作为连通所有服务器、所有服务与用户的管道,网络稳定与否将第一时间影响业务及用户,因此也被提出非常高的稳定性要求,特别是要杜绝大规模故障。

网络稳定性的典型表征是故障多、影响大、排查难、恢复慢。在影响业务的严重故障中,网络的原因也经常有,2015 年 5 月 27日支付宝故障就是非常典型的例子:

“杭州市萧山区某地光纤被挖断,造成目前少部分用户无法使用支付宝,运营商正在抢修,支付宝工程师正在紧急将用户请求切换至其他机房,受影响的用户正在逐步恢复。用户的资金安全并不会因此受到任何影响。如果出现交易信息不同步的情况,在修复后会恢复同步。”

传统网络作为一套封闭系统,涉及复杂的软硬件及多厂商设备、协议等兼容性问题,非常容易触发稳定性问题。小到一台接入交换机(ToR Switch/ASW),大到核心交换机、路由器及运营商网络和光纤,都可能出现轻微或非常严重的问题。

对于网络稳定性,如何做到架构上冗余、出问题快速发现乃至自动恢复是未来网络的重点课题,这部分,我们将在第5章及第10章重点探讨。

  • 服务器

成熟的互联网应用是基于硬件的不可靠性这一基本假设来设计的,对单一服务器的稳定性要求不高。但是对服务器稳定性的挑战有以下两个方面:

  • 批次性问题:损失超出了业务设计的容忍范围或者多余的人力投入。

  • 资源售卖型云计算服务对单机的可靠性依赖。

如何从服务器的设计、研发、生产、交付、运营各个环节系统化地避免服务器的批次性问题,是服务器研发的重要挑战,我们将在第 6 章做相关探讨。

3. TCO

任何有竞争力的产品对用户来说都应该是TCO(Total Cost of Ownership)最优的。在基础设施领域,TCO 也是稳定性之外最重要的衡量指标,或者极端地说,任何不能降低 TCO 的创新都是假创新。

TCO 的核算是一个非常复杂和困难的课题,比如阿里巴巴之前以单笔交易(或支付)成本作为衡量指标来评估基础设施水平。但是由于业务的不断发展、业务类型不断丰富、用户体验提升、安全对抗加剧、市场容量饱和等因素,需要全局的成本建模,这会在本书第 2 章详细阐述。

4.稳定性、性能、成本的平衡

任何事情都有两面性,就像RFC1925 的 12 条中的第7 条说的一样,基础设施的 特性决定了基础设施研发和创新的困难:

  • 稳定性、性能、成本平衡困难(如下图所示)。

  • 复杂的系统工程,领域众多、依赖度高、牵一发而动全身。

  • 硬件研发和迭代周期长,投入资源量巨大。

稳定性、性能、成本

要应对这些困难和挑战,做到基础设施的宏观架构与微观架构统一,需要科学的方法论和实践,更需要AI 等技术的加持,才能求得基础设施的最优解,详见书中第9 章 和第 10 章的相关内容。

5.追求效率、标准化、规范化

因为大规模系统在建设、采购、交付和运营各个环节都要保证效率最大化,所以对规范、标准方面的要求就成为提升效率的最有效抓手,且规范和标准也是提升稳定性的有效手段之一。

例如如何做到大规模情况下服务器交付效率的提升,已经成为当前阶段的重要课题。互联网行业的最佳实践是采用整机柜交付模式,这一交付模式本身就要求机架层面的规范化和标准化,以实现以机柜为单位的可复制,来提升交付效率。

僵化的规范与标准可能会成为阻碍创新的绊脚石,我们要能够根据技术发展、业务变化快速地更新优化规范与标准。

▊ 《企业数字化基石:阿里巴巴云计算基础设施实践》

高山渊 蔡德忠 赵晓雪 刘礼寅 刘水旺 陈义全 徐波 编著

这是一本对阿里巴巴云计算基础设施技术实践的全面总结,并被赞誉对当前国内外云计算基础设施技术发展具有里程碑式的指导意义!它就是由阿里巴巴官方团队编著、承载着云计算技术风云变幻的著作 ——

本书将详细地阐述阿里巴巴在基础设施上的实践细节及先进技术,包括数据中心、网络、服务器、计算硬件、存储硬件,以及智能化运营与自动化运维等内容。

本书得到了阿里巴巴集团CTO兼阿里云智能事业群总裁张建锋(行癫)阿里巴巴集团副总裁基础设施事业部负责人周明中国信息通信研究院云计算与大数据研究所所长、开放数据中心委员会名誉主席何宝宏三位的亲笔作序推荐。

※ 强大的作者团队

本书由**AIS (Alibaba Infrastructure Service )**组织编写,主要作者为高山渊,蔡德忠,赵晓雪,刘礼寅,刘水旺,陈义全,徐波。历时三年,前后百余位技术专家参与写作。( AIS是负责阿里巴巴集团所有基础设施的研发、运营、维护等工作的部门)

※ 全面扎实的内容

本书不仅阐述数据中心、网络、服务器、计算硬件、存储硬件、智能化运营与自动化运维,而且梳理了基础设施演进过程中的思路、得失、最佳实践、未来路径规划。

※ 全彩印刷

阅读体验友好,图表均经过精心配色设计和描绘。每一处知识点的写作都经过了阿里巴巴云计算基础设施技术专家们的推敲与斟酌。

※ 核心内容

  • TCO分析和建模
  • 数据中心能效
  • 数据中心的核心技术,包括供电、制冷等
  • 数据中心网络架构和关键技术
  • 服务器技术:服务器的硬件组成、演进、挑战等。
  • 计算硬件技术:通用计算、异构计算、总线互联等。
  • 存储硬件技术:内存、HDD、SSD
  • 及阿里巴巴自研存储产品AliFlash等。
  • 基础设施智能化运营与自动化运维
  • IDC、网络、服务器的一体化

读者评论

无意中朋友圈看到何万青博士推荐《企业数字化基石:阿里巴巴云计算基础设施实践》这本书,随手天猫下单,没过2天就到货了,但是因项目上事情多,一直没有时间看。最近正好年末得空阅读,给我的震撼非常打大,本人从事系统集成10来年,陆陆续续也读很多关于基础设施相关的书籍,可惜的是大多市面上的书籍技术深度和广度都不够。但是这本书涉及领域多,专业度强,从多个维度阐述如何构建高效、清洁、可靠、安全的企业数字化基石,对我来说是不可多得的好书。

—— 来自首批读者留言


▲ 扫码获取本书详情 ▲

阿里免费开放一切AI算力的背后是什么?相关推荐

  1. 阿里云免费开放一切AI算力,加速新型冠状病毒新药和疫苗研发

    近日,阿里云宣布,为了帮助加速新药和疫苗研发,将向全球公共科研机构免费开放一切AI算力. 目前,中国疾控中心已成功分离病毒,疫苗研发和药物筛选仍在争分夺秒地进行.新药和疫苗研发期间,需要进行大量的数据 ...

  2. 抗击疫情!阿里云为加速新药疫苗研发提供免费AI算力

    1月29日,阿里云正式宣布:疫情期间,向全球公共科研机构免费开放一切AI算力,以加速本次新型肺炎新药和疫苗研发. 目前,中国疾控中心已成功分离病毒,疫苗研发和药物筛选仍在争分夺秒地进行.新药和疫苗研发 ...

  3. “抗击”新型肺炎!阿里达摩院研发AI算法,半小时完成疑似病例基因分析

    利用技术辅助抗击疫情,阿里巴巴.百度等科技巨头各显身手. 此前,AI科技大本营采访报道了阿里达摩院<数十名工程师作战5天,阿里达摩院连夜研发智能疫情机器人>一文,后者为了解决客服人力不足的 ...

  4. 阿里平头哥首款AI芯片发布!46倍于英伟达P4,刷新全球推理性能最高纪录

    李根 发自 凹非寺  量子位 报道 | 公众号 QbitAI 阿里第一颗芯片诞生! 刚刚,云栖大会现场,阿里巴巴集团CTO.达摩院院长张建锋向全场展示了含光800--阿里第一款AI芯片. 为了这款芯片 ...

  5. 免费公开课 | AI对抗攻防系列专题,今晚7点第一讲

    精选6讲针对人脸识别的AI对抗专题课,搭配实战项目演练,完成项目作业即可获得完课奖品 近年来,AI安全问题愈加受到行业关注.在今年6月的智源大会上,清华大学计算机系教授.RealAI 首席科学家朱军就 ...

  6. EA免费开放的智能交易

        人工智能生态交易平台是利用计算机算法.区块链.云计算.数据挖掘的技术,采集国际财经数据及资讯进行分析.整合交易模型和交易字典.交易算法:以5×24小时服务助投资者放眼全球,把握国际市场的每一次 ...

  7. 争建AI算力中心热潮背后:谁在花冤枉钱?

    梦晨 发自 凹非寺 量子位 报道 | 公众号 QbitAI AI智算中心,如今已成各地必备基建. 放眼全国,已有4个人工智能计算中心建成,西安.许昌等地智算中心也已开工.南京.杭州.广州.大连.青岛. ...

  8. 阿里云开放国内首个云端数据库测试平台,云已成为数据库新标准;华为5G随行WiFi发布;科大讯飞推出 AI 专用语音芯片系列……...

    戳蓝字"CSDN云计算"关注我们哦! 嗨,大家好,重磅君带来的[云重磅]特别栏目,如期而至,每周五第一时间为大家带来重磅新闻.把握技术风向标,了解行业应用与实践,就交给我重磅君吧! ...

  9. 科技云报道:“吞金兽”ChatGPT背后:AI算力告急!

    科技云报道原创. 近两个月来,全世界的网友们都在兴致勃勃的"调教"ChatGPT,但第一个受不了的却是ChatGPT的所有者. 为了更长远的发展,OpenAI宣布了付费订阅版Cha ...

  10. 免费提供AI开发服务、开放百节AI课程 ,百度大脑与开发者携手“战疫”

    面对新冠肺炎疫情,AI 开发者们正在积极运用算法.算力.软件等"武器"助力抗疫.针对开发者们在疫情防控期间的开发与学习需求,2月6日,百度大脑推出"AI 开发者战疫守护计 ...

最新文章

  1. 2018牛客暑期ACM多校训练营第二场 - A题
  2. 世界上手速最快的仿人机器人诞生在韩国!魔术师也要失业了!
  3. Windows Phone如何获取和添加联系人
  4. 使用WeexSDK,网络请求信任证书的问题
  5. di容器_DI容器是代码污染者
  6. java 窗体 源码_Java制作MDI窗体源代码
  7. idea中实体类右击没有ptg_这些6到飞起的idea插件,你还没用过?
  8. 分针网——每日推荐:PHTML解析原理
  9. matlab实验 信号处理,数字信号处理MATLAB实现与实验
  10. 在win10 python3用pyhive连接hive
  11. SegmentFault 社区访谈 | 有位公子在奇舞
  12. 各种加密模式在TLS协议中的运用 2 (AEAD:CCM模式)
  13. 排序算法,对内存小数据量大的数据排序(一)
  14. 大学计算机专业分为哪几类
  15. deepin 相关问题
  16. android裁剪图片不清晰,Android 拍照裁剪图片不清晰解决办法
  17. ofo的智能锁初代方案:声波频率识别开锁
  18. 如何用漏斗模型进行数据分析
  19. AI芯片产业生态及竞争格局:英伟达、谷歌、BAT实力拆解对比
  20. 锂电快充方案:TypeC-PD/QC诱骗芯片的常用型号,升降压(充电)芯片选型

热门文章

  1. Python 将中文、字母转成数字
  2. OpenCV颜色转换和皮肤检测
  3. Mysql缺少可执行的命令
  4. Windows系统结构
  5. jsp 基本语法学习笔记
  6. ios FMDB 更新二进制图片数据
  7. Linux突然无法使用,是内存不足的问题
  8. 20165218 《网络对抗技术》Exp0 Kali安装 Week1
  9. CS20Chapter2
  10. Android自定义开机和关机动画