大数据时代,随着企业数据规模的急剧增长,传统软件已无法承载,这也推动了大数据技术的发展,Google、AWS、微软等硅谷巨头纷纷投入大数据技术的研发;而在国内,王坚也在十年前带领阿里云团队研发MaxCompute,率先在国内开启大数据计算平台的自研之路。

十年后,MaxCompute已经可以承载EB级别的数据存储能力、百PB级的单日计算能力,在公共云上已经覆盖了国内外的十几个国家和地区,电商、工业、医疗、农业、气象、教育等诸多行业企业开始采用这项技术,轻松处理海量数据,为社会和消费者提供服务。

MaxCompute的自研之路

事实上,阿里大数据的发展历程映射出整个大数据行业的发展史。

十年前,阿里巴巴比其它公司更早地遇到互联网规模化带来的挑战。当时全球企业的数据库基本都是Oracle,而阿里巴巴拥有亚洲最大的Oracle集群,计算规模达百TB级别。

按照当时淘宝用户量的增长速度,Oracle集群很快将无法支撑业务发展,而最核心的问题就是算力不足。尽管当时阿里已开始把数据迁移到更大规模的Greenplum,但后者在百台机器规模时就遇到瓶颈,给业务增长造成极大阻碍。

此外,Hadoop之类的开源技术在可靠性、安全性上也遭遇了天花板。

2008年,王坚带着解决大规模算力瓶颈的任务加入阿里。他发现,无论是Oracle还是Greenplum、Hadoop,都不是大规模数据计算的最优解,必须自研一套自己的大数据处理平台。

2009年这项关于大数据的技术长征开始。王坚带队,目标是自研大数据计算平台MaxCompute统一阿里巴巴内部的数据和大数据计算体系。

事实证明,阿里做了正确的选择。

四年攻坚,MaxCompute终于取得重大突破:2013年8月15日,阿里云历史性地突破了同一个集群内5000台服务器同时计算的局限,为未来的大规模服务奠定基础。十年后,单集群规模已超过1万台,能做到这一能力的科技公司在全球都寥寥可数。

在阿里云云栖小镇,还竖着一尊飞天5K的纪念碑,碑上刻着参与解决这一技术难题的技术人员名字。

解决世界级算力难题

通过大数据计算平台,可以让订单实时准确汇聚,也可以精准预测变幻莫测的天气变化,各行各业都在大规模使用大数据来提供更好的服务,而实现这一能力就是海量数据分析的结果。 

但要处理好这些数据并不容易。除了数据量的剧增,不同行业数据类型丰富多样,如结构化数据、非结构化数据等,都给大数据计算平台带来新的挑战。

MaxCompute的创新之处就是采用Datalake技术,把不同的数据源用类似的方式存储,用统一的方法计算,提供一套标准化语言,快速实现不同类型数据的计算。

基于这套创新技术,2015、2016年,阿里云刷新世界计算奥运会SortBenchmark的六项世界纪录;2017年,完成全球首次基于公共云的100TB BigBench大数据基准测试。

如何快速“查询”也是大数据计算的核心之一。MaxCompute采用“交互式查询”来解决海量数据查询慢的瓶颈,通俗地说就是系统可以预判用户将会做哪些查询,提前准备,大大降低大规模数据查询的时间。

此外,MaxCompute提出多租户云安全隔离技术,突破传统大数据平台的安全局限,将安全边界细化到用户、进程、内核级别,完全满足金融级的安全需求。

顶级算力走向世界

过去十年,MaxCompute能力不断提升:单日数据处理量从2015年100PB,2016年180PB,到2017年320PB,再到2018年的单日处理超过600PB。

记录被不断刷新,并且得到了权威机构的认可:在Forrester发布的《The Forrester WaveTM: CloudData Warehouse, Q4 2018》中,阿里云MaxCompute、DataWorks、ADB等三款产品成功入选,并在产品功能(Current Offering)方面力压微软。

这一世界级的大数据计算能力也逐渐展示其价值,帮助数万企业用更低成本、更高效率计算海量数据,为社会和消费者提供服务。

在生活领域,墨迹天气开始通过MaxCompute为4亿用户提供气象预报服务,每天的用户查询超过5亿次。不仅如此,它们的存储和计算成本还令人意外地降低70%。

在交通领域,城市大脑在杭州实时指挥1300个红绿灯路口、200多名交警。从2016年到2018年,杭州从全国最拥堵城市排行榜上下跌52名。

在工业领域,阿里云的大数据处理技术帮助制造企业寻找上千个参数的最优搭配,提升制造的良品率。协鑫光伏、天合光能等行业龙头企业,都在尝试这一全新的生产模式。

在政务领域,浙江最多跑一次通过大数据处理平台打通政务数据,将与老百姓办事最密切相关的100个事项70多亿条数据,按照统一标准汇入统一的数据仓,实现共通共享共用。老百姓办事不仅能最多跑一次,甚至有可能一次都不跑。

而在海外,MaxCompute也已进入新加坡、欧洲等市场,将这一技术对外赋能给更多用户。

从线上到线下,从生产制造到互联网电商,从国内到海外,MaxCompute的计算能力正在延伸到各行各业,极大地降低了社会的计算成本。

原文链接
本文为云栖社区原创内容,未经允许不得转载。

十年磨一剑,王坚自研的MaxCompute如何解决世界级算力难题相关推荐

  1. 十年磨一剑:从2009启动“去IOE”工程到2019年OceanBase拿下TPC-C世界第一

    十年前(2009年)的9月,我奉命组建当时的淘宝技术保障部:随即启动了2010年的技术预算工作,记得第一次给时任集团首席架构师的王坚博士汇报预算的时候,我得意地说到:"(淘宝)2010年不再 ...

  2. 十年磨一剑!阿里OceanBase创纪录卫冕,中国数据库从此告别卡脖子

    晶少 雷刚 发自 凹非寺  量子位 报道 | 公众号 QbitAI OceanBase,十年前有"海洋"一样的寄托,十年后梦想实现. 作为中国自研的数据库,它在短短7个月内再次.且 ...

  3. 双11特刊|十年磨一剑,云原生多模数据库Lindorm 2021双11总结

    前言 2021 年,转眼 Lindorm 已经在阿里发展了十年的时间,从基于 HBase 深度改造的 Lindorm 1.0 版本,到全面重构,架构大幅升级的 Lindorm 2.0 版本:从单一的宽 ...

  4. 安全专家十年磨一剑的独门秘笈,威力堪比《九阴真经》

    "天之道,损有余而力不足,是故虚胜实,不足胜有余......" 公元 1206 年,武林中的几位侠客聚集华山,为一统武林展开了一场七天七夜的切磋,史称华山论剑.参赛选手阵势庞大,东 ...

  5. AI制药来了!新药研发或告别“十年磨一剑”

    AI人脸识别技术能帮忙从当红歌星的演唱会上抓逃犯,AI语音识别能让人人都用上贴身语音助手,AI医疗影像技术能辅助医生更快更好地完成阅片找到病人病灶--当人工智能技术引入周期漫长.技术难度高.人力资金耗 ...

  6. 爱回收:十年磨一剑,出鞘亮锋芒

    近日,有多家媒体报道,二手电商平台爱回收计划于今年6月初在美国IPO,融资金额在5亿到10亿美元之间. 据知情人士称,爱回收寻求在IPO时获得了40亿-50亿美元的估值,并已经聘请美国银行和高盛集团来 ...

  7. 十年磨一剑!SACC带你领略企业大数据平台实践优化!

    [IT168 评论]十余年来,企业架构经过了数次迭代和变迁,ITPUB是这一切的重要见证者,同样陪伴了无数架构师的成长.10月17日,第十届中国系统架构师大会以"十年架构,成长之路" ...

  8. 政府工作报告:让更多科研人员可以“十年磨一剑”

    "切实减轻科研人员不合理负担,使他们能够沉下心来致力科学探索,以'十年磨一剑'精神在关键核心领域实现重大突破."今年的政府工作报告给科研"浮躁症"开出一副&qu ...

  9. 十年磨一剑,阿里云RDS MySQL和AWS RDS谁的性能更胜一筹?

    MySQL代表了开源数据库的快速发展. 从2004年前后的Wiki.WordPress等轻量级Web 2.0应用起步,到2010年阿里巴巴在电商及支付场景大规模使用MySQL数据库,再到2012年开始 ...

最新文章

  1. java中double类型精度丢失问题及解决方法
  2. 用buildout来构建python项目
  3. js 检测浏览器,呈现引擎和平台
  4. 前端自动化之sass实时编译及自动刷新浏览器
  5. Git 忽略提交 .gitignore
  6. ios Swift 中文学习手册
  7. eclipse/myeclipse选中编辑区域文件,Package Explorer定位文件所在项目及目录
  8. 操作系统课设:实现一个mini_shell
  9. 深入浅出交换类排序算法(转)
  10. C++程序设计(二:机器模拟)
  11. 如何查看内核参数的说明文档
  12. PTA程序设计综合实践1.10
  13. ListView刷新某一项Item
  14. Linux服务器挂载ntfs硬盘,Linux中挂载NTFS格式的硬盘的方法
  15. 数值分析正割法python3实现并绘图
  16. 如何统计网站的在线人数呢?
  17. 编程之美--1的数目
  18. 当YOLOv5遇见OpenVINO!
  19. ajax的blur调用,jQuery事件blur()方法的使用实例讲解
  20. 两少年玩防狼喷雾剂 致广州地铁发生踩踏

热门文章

  1. html代码里面换图片不显示不出来了,微擎 Ueditor 百度编辑器 替换图片不显示问题...
  2. 【LeetCode笔记】399. 除法求值(Java、图)
  3. mysql 存储引擎版本_mysql不同版本和存储引擎选型的验证
  4. python import如何使用_python之import引用
  5. python通讯录管理系统 tk_通讯录管理系统课程设计
  6. mfc绘制bezier b样条三种曲线_生存曲线(二):SPSS和Origin绘图教程及相关问题
  7. mysql 触发器 库存管理_Mysql中的触发器(库存、用户订单中用到)
  8. xshell 6 连接debian系统拒绝了密码_原来连接Linux,还有这个方法
  9. 子集和问题 算法_LeetCode刷题实战90:子集 II
  10. 有些人活着,已经拼尽了全力