阿里云智能的「四位一体」。
​​

许多人都知道阿里云是在一片对云计算的质疑声中发展起来的,而其所经历过的同样的还有「阿里会将全部业务都放到阿里云公共云上吗?」的怀疑。

前不久,行癫曾与我们分享过 —— 「我们做了一个非常大的决定,那就是阿里经济体中所有的 IT 设施,所有的数据中台全部迁移到阿里云上。」

我们在双 11 得到了最直观的印证。

在平稳度过 2019 天猫双 11 流量峰值后,阿里巴巴正式宣布,其核心系统已 100% 跑在阿里云公共云上。国内唯一自研的飞天云操作系统,成功扛住全球最大规模的流量洪峰,由此,阿里巴巴成为全球首个将核心交易系统 100% 运行在公共云上的大型互联网公司。

在双十一现场,阿里巴巴集团 CTO 兼阿里云智能总裁行癫全方位总结并分享了当双十一已经走过 11 年,是如何在用户及商家完全无感知的情况下,将数以十万计的物理服务器从线下数据中心迁移到了云上。

以下为行癫演讲整理:

我们刚刚过了 2500 亿交易额,过去的一天,20 个小时是阿里技术上最经受考验的一次。

从去年开始,我们决定把整个阿里巴巴经济体核心系统全部上云,其实上云还要加一个定语,是上“阿里云”,并不是上任何一朵云都能撑得住这个流量。在中国,我们经常说中国有两朵云,一朵叫做“阿里云”,还有一朵叫做“其它云”。

为什么讲阿里云跟其它云不一样,因为在中国只有阿里云是完全从头研发的一朵云,从头是从每一行代码,从十年前开始写,今年是阿里云的第 10 年,所以我们这个云有一个特别的名字,叫做“飞天操作系统”,当初王坚博士创办阿里云的时候,对我们这个云下面的调度系统,整个云的基础平台,取名叫做“飞天操作系统”。

我们的云完全是中国自研的一朵云,其它很多云从开源软件改造过来的,这是非常大的不一样。

其次,今年双 11,阿里仍然是一家在高速飞行中的飞机,我们成功地在这个过程中换上了全新的引擎。以前大家把非核心负载放在云上,现在阿里巴巴最核心的系统放在了云上。我们的云把原来专用的技术变成公共云,大家都可以来享受普惠服务。我们有最好的系统,你们也可以在上面跟我们一样使用。

阿里云承载阿里巴巴自己 100% 的核心系统,这个是我们全球第一个做到的。很多云厂商自己也有业务系统,但是自己的系统不在自己的云上。我们以后所有阿里系统全部都在阿里云的飞天操作系统上面。

大家一定会想,这是一个简单的替换还是技术上非常大的一个进步、非常大的挑战?我简单说一下,我们有几个方面做得非常好,它不是简单的替换,上云之后性能有了一个非常大的提高。

今天大家可能有感觉,我们前十分钟,基本上消费者没有感受到任何抖动,大家购物非常顺畅。

第一,我们在核心虚拟机系统上,自己研发了神龙架构,我们用自研的服务器来做虚拟化,一般的服务器随着压力增长,最终负载能力会慢慢下降,它不是线性的。我们神龙服务器压力越大,输出也是非常线性的,这是非常难做到的。

第二我们自研了云原生的数据库,今年有两个数据库,一个是自研的 OceanBase,大家知道我们在 TPC-C 测试里面拿下了全球第一。第二是 PolarDB,也广泛用在这次双 11 上,没有任何问题,我们每秒峰值也是远远超越于原来 Oracle 这样传统的数据库。

第三,我们的计算与存储做了分离,现在阿里巴巴存储是有一个地方专门存数据的,数据都是从远端存取的,所以存储可以很方便的扩容,因为它有一个专门的池。原来做不到。因为原来远端存储,访问网络速度就跟不上。

第四个核心技术,之所以现在能够做到在远端存储,能够比本地读写磁盘更快,是因为我们做了 RDMA 网络,这是全球第一个大规模做 RDMA 网络的公司。

我们这四个方面都做了核心突破。

飞天操作系统,今天能够在 10 万台级别以上的服务器里面做调度,今天双 11 有非常多的应用,但是它并不是说每一个时间点,所有应用负载都是一样的。我们在零点把大部分计算机资源分配给交易等应用,过了一点之后,我们把数据分配给数据处理系统。数据处理今年创了一个新高,2017 年当天处理了 300PB 的数据,2018 年处理了 600PB 的数据,今年要处理 970P 左右的数据。

大家可能没有概念,一个 P 到底有多少数据,我上次跟央视的人交流,央视拍了这么多年电视新闻节目,几十年下来他了大概 80P 的数据。双 11 一天,我们要处理 970P 的数据,非常大的量,没有一个先进的系统是撑不住的。

第二个是非常实时,大家看到了,今天在秒杀,在会场全部都是个性化,千人千面的,这里的数据不仅是大,而且是要做到非常实时,到目前为止,我们菜鸟物流系统已经产生了超过 10 亿笔的物流单,这个数据还在很快的上涨,这些都需要依靠阿里云背后大量的计算能力。

我们今年的数据,除了批处理之外,还有流处理,就是实时处理所有数据,就像你们看到的交易数据,每分钟、每秒钟都在变,它并不是从数据库里面统计出来的,它是每生成一笔订单,系统自动一层层把数据汇集上来。我们这个系统每秒能处理 25 亿笔记录,这是流式的系统。

我们这么多服务器,要把它全部管理起来,除了飞天系统之外,还要管理所有的消息流转,所以我们自己开发了一个叫做 MQ 的消息系统,这也是全球目前最大的一个消息系统。

今天,从飞天系统、大数据处理平台到智能化应用,这些技术叠加起来打造了一个新的分布式的基于云的平台,才使得阿里整个经济体所有核心应用都能够跑在上面。

最后,我们今年除了数据库突破之外,也发布了自研的芯片,含光 800 芯片。明年双 11,阿里大量人工智能应用都会跑在自研芯片上面。

今天从飞天云操作系统到神龙服务器、数据库、交换机、交换机操作系统、RDMA 网络,全部是阿里自研的。

我们今天已经积累了非常丰富、非常强的能力,从硬件、数据库、云计算操作系统,到上面的核心应用平台,四位一体,这是这次双 11 跟往年最大不一样的地方。​​​​

阿里云智能总裁行癫全面解读双 11 核心系统 100% 上云是如何实现的相关推荐

  1. 重磅下载 | 核心系统100%上云,揭秘双11背后的云原生实践

    2019 双11,订单创新峰值达到 54.4 万笔/秒,单日数据处理量达到 970PB,面对世界级的流量洪峰,今年的阿里交出了一份亮眼的云原生技术成绩单,并实现了100% 核心应用以云原生的方式上云: ...

  2. 重磅下载 | 核心系统 100% 上云,揭秘双11背后的云原生实践

    点击文末"阅读原文:,下载<不一样的 双11 技术:阿里巴巴经济体云原生实践> 2019 双11,订单创新峰值达到 54.4 万笔/秒,单日数据处理量达到 970PB,面对世界级 ...

  3. 核心系统100%上云!全球最大流量洪峰,阿里云扛住了

    2019天猫双11 96秒成交额破100亿 全球最大流量洪峰 每秒订单峰值54.4万笔 阿里巴巴核心系统 100%上云 我们扛住了! 1心1役 把不可能变成可能 今晚为阿里工程师疯狂打call! 原文 ...

  4. 把阿里巴巴的核心系统搬到云上,架构上的挑战与演进是什么?

    作者丨张瓅玶(谷朴)阿里巴巴研究员 阿里巴巴核心系统作为全球最大规模.峰值性能要求最高的电商交易系统,在 2018 年之前只通过混合云弹性上云方式,为 双11 节约大量成本.直到 2019 年,阿里巴 ...

  5. 十年再出发!阿里云智能总裁张建锋演讲全记录

    3月21日,"十年再出发"阿里云峰会于国家会议中心正式召开.阿里云智能总裁张建锋(行癫)携核心管理团队首次悉数亮相,并对阿里云做了全面的战略解读.以下是演讲全文. 张建锋:今天是我 ...

  6. 阿里云智能总裁、达摩院院长张建锋2020云栖大会最新完整版演讲全文

    "提示:点击文末"阅读原文"可关注数据猿最新推出的[产业图谱+企业盘点]策划活动:<中国数据智能产业最具商业合作价值企业>推荐进行中. 大数据产业创新服务媒体 ...

  7. 阿里云智能总裁张建锋:保护客户数据安全是第一原则

    10月19日,阿里云智能总裁张建锋在2021云栖大会再次重申,保护客户数据安全是阿里云第一原则."我们绝对尊重用户的数据归属权和控制权,并严格保障用户的隐私安全,这是阿里云最重要的基石.&q ...

  8. 阿里云智能总裁张建锋:“全面上云的拐点到了!”

    "全面上云的拐点到了!"7月25日,阿里云智能总裁张建锋在2019阿里云峰会上海站上提出,今年是从传统IT向云计算全面转移的分水岭.阿里云将以"四张王牌"--飞 ...

  9. 云原生实时数仓首次在2020双11核心数据场景落地

    简介: 这是史上数据量.计算量最大的一年,是实时处理要求最高.与机器智能结合性最强的一次双11,也是全球最大规模的一次云原生实践.背后作为数据核心支撑的大数据平台更是创下新的世界纪录. 刚刚结束的20 ...

  10. 【笔记】不一样的 双11 技术,阿里巴巴经济体云原生实践(上)

    释放云原生价值才是拥抱 Kubernetes 的正确姿势 在 Kubernetes 中对于故障机的处理要"简单和粗暴"得多,不再要求对应用先扩容,而是直接把故障机上的容器进行删除, ...

最新文章

  1. 攻克指针(二)精华篇
  2. 潜移默化学会WPF--绘图 学习(一)
  3. html如何将标题置顶,.Html 头部,标题
  4. 【转】c++优先队列(priority_queue)用法详解
  5. 【转】删除数据库中重复数据的几个方法
  6. 强烈推荐SQL Prompt 3.8,并发布SQL Prompt 3.8 ,SQL Refator 的xxx
  7. 基于kafka的定时消息/任务服务
  8. 从零开始的异世界生活(前缀和)
  9. 前端必会的Vue项目请求方法模块化的高度封装操作案例说明——getData()方法封装实例,告别多次重复调用,解决页面代码冗余
  10. python使用筛选法求素数
  11. 最优秀的数据可视化案例欣赏
  12. Excel表格实现下拉复选框多选
  13. 知识追踪常见建模方法之IRT项目反应理论
  14. C语言字节对齐规则总结
  15. C++如何限制模板类的类型
  16. 平面设计分析之图形创意解析
  17. 运维常说的 5个9、4个9、3个9 的可靠性,到底是什么鬼?
  18. 超像素(slic算法)特征提取(颜色,纹理)——个人梳理
  19. Word插入题注优化(自动删除标签与编号前的空格,编号后添加空格)
  20. IDEA全局查找关键字的方法

热门文章

  1. 倒车入库- 通过后视镜调整方向盘
  2. 英尺、英寸、磅和厘米的换算
  3. Commit cannot be completed since the group has already rebalanced and assign
  4. app 播放服务器文件,配置apple-app-site-association文件并在服务器上传
  5. 双功能RGD-TAT修饰DNA纳米胶束|聚苯胺纳米线修饰DNA(PAINW/DNA)
  6. 云流化像素流技术解决方案之虚拟仿真系统
  7. 如何让单片机I/O口上电复位时为低电平
  8. 计算机目录的制作步骤,怎么用word2003制作目录
  9. PHP7.2手册(最新版)
  10. c语言个人所得税,C语言编写一个计算个人所得税的程序,要求输入收入金额,能够输...