戳蓝字“CSDN云计算”关注我们哦!

时至今日,已经没有人怀疑云计算是最主流的企业IT基础设施之一。围绕云计算最基础最核心的话题计算力,探讨在新硬件、新技术和新场景带来的机遇和挑战下,计算产品如何演进,使其价格更加低廉、供给更有保障、稳定性更好等,真正成为一种新的基础社会资源。其中值得提及最多的就是神龙计算平台,支撑了阿里巴巴经济体上云和外部大客户的全站上云,是阿里云IaaS层的核心创新产品。

在2019年杭州云栖大会上,阿里云正式发布了第三代自研神龙架构。据悉第三代神龙架构支持ECS虚拟机、裸金属、云原生容器等,贯穿整个IaaS计算平台并在IOPS、PPS等方面提升5倍性能,用户能在云上获得物理机100%的计算能力。

2017年,一代神龙架构震撼现世,主要采用了自主研发的虚拟化2.0技术,兼具“虚拟机的心脏”和“物理机的肌肉”,被认为是云计算领域的新物种。如果仔细梳理神龙架构,我们发现很大程度上绕不开虚拟化技术的发展,甚至神龙可以被定义为是虚拟化技术的一个延伸。无论是从1974年第三代虚拟化架构的新时代要求,还是VMware公司成立等,真正把虚拟化带入应用阶段仅仅才刚开始,以前更多较倾向于理论研究。

对此阿里巴巴研究员,阿里云智能创新产品线总负责人旭卿提及,2009年阿里云开始着手弹性计算,最早使用了开源的Xen;但经过几年的发展,就在2016年,众多从事基础IT的阿里人不禁反思:在云数据中心时代,究竟怎样的虚拟化技术可以满足日益增长的需求,毕竟几十年的虚拟化技术发展以来,但底层架构几乎未变。是不是可以做一些软硬融合或者软件硬件协同的创新来提高虚拟化的效率?毕竟传统物理机缺陷日渐凸显。

通常情况下,一台物理机中包含宿主机以及虚拟机,出现最多的情况就是资源“争抢”,这就会导致虚拟化效率的降低甚至频繁出现波动性。此外,云计算要配合虚拟化自然要消耗大量资源;想要做到效率高、性能佳,除了消耗大量的CPU资源之外似乎并没有更好的办法 ,相比之下成本激增就是个问题。所以在更高的计算性能、更快的网络接入,更高的存储读写能力的综合要求下,神龙就这样应运而生了。“我们重新定义服务器的架构,让它更好地服务今天的虚拟化技术,计算效率大幅度提升。”

可以清晰地看到,发布以后2018年初神龙一代就实现全面商业化,在大规模在云上部署来主要满足大客户上云的需求。一代神龙之后,阿里方面发现,如果传统的虚拟化生产虚拟机和现在使用不一样的计算架构,就会带来两个资源池,成本大幅度上升。如何做到一套架构既可以支持裸金属服务,又可以支持传统的虚拟机,提供更高的服务质量,更好地支持容器,还能很好地兼顾成本、技术发展?在此背景下,真正让虚拟机在神龙架构下性能飞起来,FPGA毫秒级热升从中带来很大帮助,完成技术融合与资源并池,成为神龙二代的主要着力点。

如今神龙三代已大成推出,主要集中在系统内部的优化部署,可以简单概括为芯片的硬化功能。有数据显示神龙架构和非神龙架构的业务吞吐会高30%,并且延迟保守不动,低负载和高负载完全一样;同时CPU利用率也会大幅度下降, 通俗来说原来需要一万台服务器完成的任务,现在只需几千台就可以,这就是神龙架构带来的最直观优势。

目前神龙架构已经统一整体阿里云的计算资源产品,无论是ECS还是容器以及裸金属服务器等,整个平台所有的技术红利都因此被享受到。“接下来,阿里云遍布全球的百万服务器将全面升级至第三代神龙架构。” 小邪透露,在阿里巴巴内部,神龙架构已大规模应用于淘宝、天猫、菜鸟等业务,解决高峰值的性能瓶颈问题。

如今上云已不再是问题,不仅仅存在于外围系统,而是核心系统全栈上云,不断变化的是用户对计算的需求,首先就是最基础的弹性计算。例如更大的宽带、更小的延迟、绝对安全稳定、隐私的存储环境等。

毋庸置疑,神龙架构将云计算的弹性得到最大强度释放,谈及阿里云针对弹性计算的实践,阿里云资深技术专家郑旭东表示,首先从阿里云弹性计算产品来说确实提供了非常卓越的稳定性。

据了解,阿里云提供单实例的SLA稳定性已经保证了99.975%,多实例稳定性则高达99.995%。这个数字代表什么含义?通常的服务器厂商、IDC厂商或者服务商,都不会轻易将SLA写到供货合同中。“我们公开SLA指标意味着线上的稳定性远高于SLA,目前ECS稳定性是线下IDC的稳定性的十倍之多。”

通常情况下提升稳定性除了非常巨大的资金和技术投入之外,回到服务的高可用和容灾这方面,达到业务的稳定性还需要扩大资源。例如,如果在一个机房内部运作高可用架构,资金投入量会随着资源使用量呈现线性增长的关系,其支出是条约的方式;除此之外在资源成本外还有很大一部分是研发成本和运维成本,但随着资源增多,其运维成本也呈现逐渐增长的过程。我们可以看到,在资源本身压力以及研发成本压力的作用下的,大多数中小型公司都知道要做各种各样的容灾以及高可用举措,但现实表现并不是特别理想。

在此背景下,阿里的ECS调度平台则能把底层OS和硬件缺陷规避很多,可以在X86平台服务器上提供远高于业界平均水平的技术服务,保障接近小型机的稳定性;试想一下如果有能力提供这样的稳定性,毋庸置疑弹性计算上大多数用户就都可以零成本且100%覆盖使用高可用服务。

具体来说为了达成该目标,郑旭东认为首先要有强健的基础设施,例如ECS服务器。据悉从研发设计到真正交付线上之前,至少有四轮非常严格标准的验证,保证线上所有服务器在整个业内是有保障的。“此外最重要的还是线上数据的回环,因为线上的监控数据和线下的压测平台是实时打通的,如果线上发现任何硬件异常或者隐患,我们会直接追踪并解决,这样就保证了大部分异常隐患都能在第一时间发现拦截并有效。”

据晶少了解,在异常隐患方面,阿里云弹性计算做了很多技术尝试来精准拦截故障,尽管在理论上依旧无法做到全部,但在预知与解决上收效甚广,这是整体系统稳定性所必需的具备的。举个例子,阿里弹性计算每一台物理机如果出现非预期的故障宕机后,5分钟之内80%的情况下能直接给出哪个代码、哪个部件出现问题而导致机器宕机的解决方案。其实故障预测非常复杂,很难用通路的算法得出结论。不同的场景会用不同的模型做不同的调度,最终得出合理的算法模型。强大的数据、算法知识以及团队合作等都很关键。

除了稳定性外,在可靠性上有数据显示,早在2012年阿里云第一代云主机的PPS是20-30万每秒,绝大多数的性能损耗主要来自虚拟化过程,必须通过物理机连接网络,这样的速度基本没有办法支持峰值情况的速度提升;转眼到了2015年,通过硬件和软件的技术革新,阿里云将万兆网卡上的 PPS 从30万每秒提高到了120万每秒;待到2017年,阿里云通过用户态直通虚拟机,为每一次信息传输节省大量的时间,完成了原本无法想象的“450万每秒”。

如今随着深度学习算法的突破,人工智能技术得到了更迅猛的发展,以异构计算为代表的新加速计算单元不断催生大量计算类需求,在此发展趋势的作用下,阿里云正在不断增加新的实例,未来将会利用人工智能等先进技术在稳定性与安全性上持续深耕,并利用最新一代的网络技术保证产品性价比与性能稳定。

一直以来阿里云都将精力和时间放在最朴素的需求满足上,例如网络以及虚拟化技术的提升等,追求成本与功能的最高性价比,未来阿里云弹性计算技术创新以及产品研发风向如何?我们只需拭目以待。

福利
扫描添加小编微信,备注“姓名+公司职位”,入驻【CSDN博客】,加入【云计算学习交流群】,和志同道合的朋友们共同打卡学习!

推荐阅读:
  • 漫画:什么是希尔排序?

  • 一次失败的面试,复习一次一致性哈希算法

  • Pandas中第二好用的函数 | 优雅的Apply

  • 程序员因接外包坐牢 456 天!两万字揭露心酸经历

  • 限时早鸟票 | 2019 中国大数据技术大会(BDTC)超豪华盛宴抢先看

  • 阿里开源物联网操作系统 AliOS Things 3.0 发布,集成平头哥 AI 芯片架构!

  • 雷声大雨点小:Bakkt「见光死」了吗?

真香,朕在看了!

云栖大会 | 释放计算弹性,阿里云做了很多相关推荐

  1. 2019杭州云栖大会掠影:进击的阿里云

    随着2019杭州云栖大会进入第二天,更多爆炸性的消息和令人惊叹的数据也接踵而来. 令人叹为观止的AI实力 你知道让阿里巴巴引以为豪的人工智能,每天的调用规模有多大吗?接下来的一组数据可能会让你大吃一惊 ...

  2. 2017杭州·云栖大会第二天:阿里云发布了这些“黑科技”

    时至今日,云栖大会已有八个年头,本次大会主题是"飞天·智能", 自10月11日开始,为期四天.由杭州市人民政府.阿里巴巴集团.蚂蚁金服集团联合主办,来自全世界67个国家和地区的嘉宾 ...

  3. 【图文】云栖大会深圳峰会:阿里云ET医疗大脑与工业大脑,机器学习平台PAI2.0...

    阿里云新征程:通往智能之路!正式发布ET工业大脑,ET医疗大脑和机器学习平台PAI2.0,阿里云的目标是成为万物智能化的基础设施和智能引擎! 2017年3月27日至29日,云栖大会于深圳举行.29日为 ...

  4. 【云栖大会】国家天文台结盟阿里云:计算100亿光年的数字宇宙

    10月13日召开的2016杭州·云栖大会上,中科院国家天文台与阿里云宣布结为战略合作伙伴,共同开展跨领域的前沿科学研究和应用合作.阿里云在人工智能.超大规模计算领域的技术优势,将被应用于天体物理研究领 ...

  5. 12月21日云栖精选夜读:阿里云总裁胡晓明:AI泡沫过后,下一站是“产业AI”...

    摘要: 12月20日,在云栖大会·北京峰会上,阿里云总裁胡晓明阐述了阿里巴巴在人工智能方面的布局,并提出 "AI for Industries"(产业AI)的理念,认为人工智能的发 ...

  6. 11月13日云栖精选夜读:阿里云中间件产品科技普惠企业,满足多场景需求

    摘要: 阿里云上的互联网中间件产品家族不久前又添了一名新成员,应用配置管理(ACM)的工具类产品.基于该产品,用户可以在微服务应用架构.分布式架构下的服务治理.应用业务场景动态推送.大数据实时计算算法 ...

  7. 4月12日云栖精选夜读:阿里云黄海宇:窄带高清2.0——让直播更惊艳的魔术

    2018年4月11-12日,2018亚太CDN峰会在北京隆重召开,大会由亚太CDN领袖论坛.电视云论坛.短视频论坛.视频云论坛.新技术论坛.运营商论坛.国际云论坛等7大部分组成.在视频云论坛上,阿里云 ...

  8. 9月27日云栖精选夜读:阿里云首推免费人脸识别SDK 让每个APP轻松拥有短视频AR特效...

    摘要: 早在今年五月,阿里云已经推出了短视频解决方案.近日,阿里云再次率先颠覆行业,在业内首推免费的人脸识别SDK,结合其原有的短视频能力,大大降低了人脸识别+AR特效+短视频的入行门槛. 早在今年五 ...

  9. 9月27日云栖精选夜读:阿里云首推免费人脸识别SDK 让每个APP轻松拥有短视频AR特效

    想不想知道是什么 早在今年五月,阿里云已经推出了短视频解决方案.近日,阿里云再次率先颠覆行业,在业内首推免费的人脸识别SDK,结合其原有的短视频能力,大大降低了人脸识别+AR特效+短视频的入行门槛. ...

最新文章

  1. 近期激光雷达点云的3D目标检测方法
  2. GUI学习之十四——QAbstractSpinBox学习总结
  3. 如何掌握Java内存(并保存程序)
  4. python中 12_python编程中常用的12种基础知识总结
  5. reportviewer动态数据源
  6. hdu4561 bjfu1270 最大子段积
  7. Python入门之PyCharm中目录directory与包package的区别
  8. Java 重载、重写(Override、Overload)
  9. git gui怎么拉取项目代码_Gitee码云如何更新项目上的代码?
  10. SAP安装前应准备的事项
  11. 显卡4k性能测试软件,碰上UHD都得跪 AN新一代显卡4K对比横评
  12. 电子电路设计的基础知识
  13. 关于迅雷试用短租日租会员的一些渠道收集
  14. BZOJ-2037 Sue的小球 DP+费用提前
  15. 2023电工杯数学建模A题思路模型代码
  16. 性能测试能力提升-长连接、短连接、连接池
  17. Vue引入百度地图警告:A Parser-blocking, cross site (i.e. different eTLD+1) script....
  18. 关于饭局狼人杀app上的12人守卫局的那些事儿
  19. 水位传感器(Water Sensor)原理图
  20. 基于Java的学生在线选课系统设计与实现

热门文章

  1. php mail laravel,邮件 - Laravel - 为 WEB 艺术家创造的 PHP 框架。
  2. tomcat启动占了12g_tomcat服务为何报内存相关错误??
  3. xss跨站脚本攻击_网络安全xss跨站脚本攻击原理
  4. python正弦波和等腰三角波_正弦波脉宽调制(SPWM)原理
  5. 我见过的最漂亮代码---通过删除代码来实现功能的提升
  6. 大学用编程每月多赚2000块,是种什么体验?
  7. 干货 | 懂点儿经济学有什么用?
  8. 《人人都是产品经理》读后感
  9. 从框架源码中学习结构型设计模式
  10. HDU3534 给你一个树让你找出其中最长路径以及个数数