回顾丨13年来,淘宝走过的大数据之路

来源:CSDN大数据 时间:2016-11-07 10:19:15 作者:

— 淘宝大数据之路 —

  2003年至今淘宝网从零开始飞速发展,走过了13个年头,支撑淘宝业务野蛮式生长背后是一套不断完善的技术平台,淘宝大数据平台,就是其中非常重要的一个组成部分,承担了数据采集、加工处理、数据应用的职责,淘宝大数据平台一路到今天,总共经历了三个大的阶段(如图1),不同阶段面临了不一样的挑战, 一起来回顾一下这些年淘宝大数据所经历过的故事:

  图1 数据仓库平台发展三个阶段

  第一个阶段RAC 时代

  2008年前的单节点ORACLE,这个时候还称不上数据仓库,只能承担简单的数据处理工作,也基本上没有数据仓库架构,随着业务的飞速发展,很快单节点的ORACLE因无扩展能力,计算存储能力就应付不了了;

  2008年之后,为了应对日益增长的数据量,RAC集群应运而生,从一开始的4个节点逐步发展到20个节点,成为当时号称全球最大的RAC集群,在ORACLE官网上也作为了经典案例,RAC集群当时不管在稳定性、安全性、存储能力还是计算能力都表现非常优秀,随之而来第一代数据仓库架构也逐步形成;

  这个阶段数据的ETL过程主要通过ORACLE的存储过程实现,大量的SQL脚本任务运行在集群上,任务运行的调度过程是通过Crontab来进行控制管理,随着任务数的不断增长,这时面临最大的问题是如何保证这成千上万的脚本每天是正常运行,出错后如何及时发现解决,这在当时天天困扰着开发,一直处于每天救火的状态,也就是这个时候,为了解决这个难题,数据团队开始自主研发调度系统,并将之命名为天网调度系统,形成了如下第一代调度系统的架构和原型:

  图2 天网调度系统架构

  图3 天网调度系统原型

  第二个阶段:Hadoop 时代

  调度系统的上线很好的解决了每天救火的状态,但是好景不常在;2008年,淘宝B2C新平台淘宝商城(天猫前身)上线;2009年,淘宝网成为中国最大的综合卖场;2010年1月1日

  淘宝网发布全新首页,此后聚划算上线,然后又推出一淘网;业务的飞速发展给数据带来的挑战,就是每天处理的数据量也在不断的翻倍,首先碰上瓶颈的是RAC集群针对网站的访问日志数据已经搞不定了,RAC集群虽然有一定的扩展能力,但是无法无限制的线性扩展,并且扩容就意味着高昂的机器成本和软件成本,为了应对日益增长的数据量,2009年数据团队开始探索新的技术领域, 同时探索应用了两个方向的技术:Greenplum和Hadoop,主要的场景就是用来解决海量的日志数据,Hadoop因其良好的线性扩展能力,并且是开源的系统,能够基于官方版本二次开发适合淘宝的特性功能,逐渐占据了优势;

  2010年初,最终确定放弃Greenplum和RAC,全面使用Hadoop,也就是这个时候我加入了淘宝数据团队,之后不久数据团队启动了去O项目,整个数据团队历经一个多月时间,风风火火将所有RAC上的存储过程,改写成HIVE和MR脚本,并将所有的数据都搬到了Hadoop上,Hadoop集群命名为云梯1,形成了Hadoop时代的数据仓库架构,如下图4:

  图4 云梯1数据仓库架构

  进入2010年底,数据应用场景越来越多,2010年底发布了量子统计(淘宝官方版),2011年4月1日淘宝发布了数据魔方,将数据对外进行开放,广告和搜索团队也大量将数据应用到业务系统中,对内的淘数据产品也越来越成熟,数据的大量应用,带来的一个问题是如何保证数据的准确性和稳定性,需要从数据采集到数据加工及最终的数据应用全流程的保障;

  这时第一个环节就碰到了问题,数据同步,业务系统有各种各样的数据源,ORACLE、MYSQL、日志系统、爬虫数据,当时有多种同步的方式,有通过SHELL脚本的、也有通过Jdbcdump的、还有别的方式,当时负责数据同步的同学,最痛苦的事情莫过于,业务系统进行数据库变更时,各种同步任务需要不断的调整,每次调整几百个任务极其容易出错,当时为了解决数据同步的问题,数据工具团队开始研发专门的同步工具DATAX,也就是现在同步中心的前身,同时还研发了针对DB的实时同步工具Dbsync和针对日志的TT,现在统一叫TT,如图5:

  图5 云梯1数据同步工具

  天网调度系统也不断进行完善,开始支持小时调度、甚至分钟调度,并且集成了自动告警等一系统功能,升级为在云端,相关的DQC系统、数据地图、血缘分析等周边系统在这个时期不断推出,数据团队也不在断壮大。

  在这期间,双十一网购狂欢节的影响力不断放大,已成为中国电子商务行业的年度盛事,并且逐渐影响到国际电子商务行业,不断刷新的成交记录刺激着所有人的神经。这时为了直观的提供第一线的数据给到决策层,产生了数据直播间的数据应用,需要活动当天及统计相关的数据,2013年前,采用的方式都是基于Hadoop一个小时计算一次的方式进行数据计算,数据存在一定的延迟性,从2013年开始,数据团队开始投入研发实时计算平台,也就是现在的galaxy,并在当年的双11上线了第一个应用,双11数据直播间实时版本。

  第三个阶段:MaxCompute(原ODPS) 时代

  就在Hadoop大量应用的同时,另外一个项目正在悄悄进行,那就是阿里云团队自主研发的ODPS系统,ODPS所有的代码都由阿里自己完成,在统一、安全、可管理、能开放方面相比于Hadoop做了大量的完善,ODPS系统命名为云梯二,从2010年开始,在很长一段时间内,一直处于云梯一和云梯二并存的状态;

  这期间,集团为更好的打造数据生态,成立了CDO,统一数据平台事业群,专门投入研发大数据平台的相关工具,包含计算存储平台、周边的调度系统、元数据血缘系统、数据质量管理系统、还有DQC等;

  这个状态持续到2013年4月,

  这时出现了一个新的挑战,Hadoop集群的上限是5000个节点,按照当时数据增长数据的推算,集群存储即将撞墙,但是基于当时的状况,ODPS无法完全替代Hadoop,于是当时启动了一个规模非常庞大的项目,叫做“5K项目”,同时进行云梯一和云梯二的跨机房集群项目,当时世界上没有任何一家公司具备跨机房的能力,存在非常大的技术挑战,最后项目历经近5个月的周期,攻克大量技术难点,项目取得了成功;

  在“5K项目”成功的同时,ODPS架构逐步成熟,于是全集团又启动了一个规模更庞大的项目,叫做“登月项目”,将全集团的数据加工应用全部搬移到ODPS,项目一直持续到2015年,Hadoop正式下线,淘宝大数据彻底进入ODPS时代,整个数据的生态圈也越来越丰富,同时,阿里云开始对外提供云服务,其中大数据解决方案作为其中重要的组成部分,也开始对外提供;

  时间回到2013年时,当时淘宝数据团队的每个成员都在忙于应对各类需求,每天都有做不完的各类报表,当时为了解救自己,数据团队开始摸索探索新的数据服务模式,思考如何解决数据冗余、口径统一、数据交换、用户自助等一系统问题,最终通过一段时间思考和摸索,开始研发孔明灯产品,针对不同的数据角色形成了一套完整的数据解决方案,如下:

  图6 孔明灯解决方案

  孔明灯产品的出现,对传统的开发模式做了个升级,对整个大数据建设也起到了非常好的管理作用,当时在淘宝内部,覆盖了大部分的业务BU,对数据使用成本的降低,释放了大量的人力,同时也吸引了外部用户高德地图、阿里健康基于这套体系进行大数据建设;

  2014年,集团公共层项目启动,集团内的各个数据团队,开始进行数据内容重构和整合,同时,CCO正式成立,七公来到CCO带领技术团队,薛奎来到CCO带领数据仓库团队,CCO也基于ODPS启动公共层建设项目,集成了包括淘系、1688、ICBU、AE相关的服务数据,公共层建设的同时完成了登月项目,并且与DIC团队、RDC团队协同建设了服务数据门户DIGO产品;

  今天,数据在阿里巴巴已经深入到每个角落,阿里云有强大的算法团队、大批的数据接口人、分析师,每天的工作都与数据产生关联,随着人工智能的不断深入使用,业务系统的不断创新迭代,对数据的采集、加工、应用又提出了新的要求,如何更好的提供数据服务,面对未来我们需要思考更多,数据将进入一个新的时代-数据智能时代。

淘宝走过的大数据之路相关推荐

  1. 大数据系统开发综合实践(淘宝双11大数据批处理分析系统、NBA 、淘宝购物大数据实时展示、Spark GraphX)

    cqupt || xmu--大数据系统开发综合实践 代码放在了GitHub上 链接 task01 大数据批处理系统 淘宝双11大数据批处理分析系统 task02 大数据查询分析计算系统 NBA 统计大 ...

  2. 接近淘宝 80%的大数据实时计算平台,从0搭建的经验和坑

    上周一,来自武汉的直播平台斗鱼TV宣布C轮融资,腾讯领投的 15 亿人民币,距其获得 B 轮1亿美元不到半年,也是大写的牛逼. 但小寻更关心他们的大数据架构,作为一个在 2 年多时间里崛起的公司,其流 ...

  3. 淘宝杨志丰:OceanBase--淘宝结构化大数据解决之道

     淘宝杨志丰:OceanBase--淘宝结构化大数据解决之道 时至今日,"Big data"(大数据)时代的来临已经毋庸置疑,尤其是在电信.金融等行业,几乎已经到了" ...

  4. 淘宝双11大数据分析(数据准备篇)

    文章目录 前言 数据内容分析 `user_log.csv`文件内容含义 `train.csv` 和 `test.csv` 文件内容含义 数据上传到Linux系统并解压 数据集的预处理 文件信息截取 导 ...

  5. 【TIANCHI】天池大数据竞赛(学习赛)--- 淘宝用户购物行为数据可视化分析

    目录 前言 一.数据集的来源和各个字段的意义 二.数据分析 1.引入库 2.读入数据 3.查看数据数量级 4.PV(Page View)/UV访问量 5.漏斗模型 6.用户购买商品的频次分析. 7.A ...

  6. [转]淘宝的十年技术之路

    最近有幸,在学校的图书馆借到了子柳先生的<淘宝技术这十年>,拜读一番,感慨万分. 一.淘宝的核心技术(国内乃至国际的Top,这还是2011年的数据) 拥有全国最大的分布式Hadoop集群( ...

  7. 大数据之路读书笔记-16数据应用

    大数据之路读书笔记-16数据应用 全球知名咨询公司麦肯锡称:"数据,已经 透到当今每一个行业和业务职能领域,成为重要的生产要素.人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈 ...

  8. 数据库仓工具箱及阿里大数据之路--阅读总结

    一.数据仓库工具箱 1.主要内容 结合业务场景,阐述 1.维度建模以及事实表的基本及相关概念. 2.根据业务主题的总线矩阵图,梳理业务流程.指标以及对应的维度. 3.关于事实表的阐述. 4.企业层面的 ...

  9. 大数据之路读书笔记-03数据同步

    大数据之路读书笔记-03数据同步 如第一章所述,我们将数据采集分为日志采集和数据库数据同步两部分.数据同步技术更通用的含义是不同系统间的数据流转,有多种不同的应用场景.主数据库与备份数据库之间的数据备 ...

最新文章

  1. 站长圈转风向标了 都玩自媒体了!
  2. linux怎么安装java环境变量_linux怎么配置java环境变量
  3. Flex 布局 - 容器
  4. MySQL数据库常用的操作命令(二)
  5. 『优势特征知识蒸馏』在淘宝推荐中的应用
  6. 2020年中国洪涝受灾人口数、死亡失踪人口数、倒塌房屋数量及造成的直接经济损失分析[图]
  7. 计算机主机插槽图,图片解说看个透 教你认识主板上的插槽
  8. [1] Instances as Queries
  9. 网络空间安全 渗透 攻防5(文件共享服务器)
  10. Gerrit新建用户登录时显示Forbidden
  11. error: warning: Stopped in a context claiming to capture an Objective-C object pointer,
  12. 奥斯汀大学计算机专业怎么样,德克萨斯大学奥斯汀分校计算机工程排名
  13. keil4单片机串口通信
  14. PhysX官方手册翻译
  15. 小白都能懂的设计模式 java版 抽象工厂模式 实战练习(超详细)
  16. *java面试题**
  17. 大数据数据湖之hudi
  18. kali虚拟机无法联网
  19. asp毕业设计——基于asp+access的中学网站设计与实现(毕业论文+程序源码)——中学网站
  20. 大三成长日记——第二弹(批处理bat篇)

热门文章

  1. SpringCloud调用接口流程
  2. 锂电池的充电电压和电流应该是多少
  3. 全面掌握前端框架Vue.js
  4. HTMLCSS学习笔记(二十四)——利用border属性制作太极图与哆啦A梦
  5. 计算机图形学(一) 视频显示设备_7_光栅扫描系统
  6. python数据分析之数据分析(步骤)流程
  7. 单页面SPA(如react,vue)网站的服务器渲染SSR之SEO大杀器rendertron(超详细配置+避坑)
  8. ArcGIS制作矢量动图
  9. linux代码之spin lock
  10. 如何打开.epub格式的电子书?