《大数据之路:阿里巴巴大数据实践》系列丛书

 第1章 总述
第1篇 数据技术篇
 第2章 日志釆集
 第3章 数据同步
 第4章 离线数据开发
 第5章 实时技术
 第6章 数据服务
 第7章 数据挖掘
第2篇 数据模型篇
 第8章 大数据领域建模综述
 第9章 阿里巴巴数据整合及管理体系
 第10章 维度设计
 第11章 事实表设计
第3篇数据管理篇
 第12章 元数据
 第13章 计算管理
 第14章 存储和成本管理
 第15章 数据质量
第4篇数据应用篇
 第16章 数据应用


文章目录

  • 《大数据之路:阿里巴巴大数据实践》系列丛书
  • 第1章 总述
    • 1.数据采集层
    • 2.数据计算层
    • 3.数据服务层
    • 4.数据应用层

第1章 总述

2014年,马云提出,“人类正从IT时代走向DT时代”。如果说在 IT时代是以自我控制、自我管理为主,那么到了 DT (Data Technology) 时代,则是以服务大众、激发生产力为主。以互联网(或者物联网)、 云计算、大数据和人工智能为代表的新技术革命正在渗透至各行各业, 悄悄地改变着我们的生活。
      在DT时代,人们比以往任何时候更能收集到更丰富的数据。IDC 的报告显示:预计到2020年,全球数据总量将超过40ZB (相当于40 万亿GB),这一数据量是2011年的22倍!正在呈“爆炸式”增长的数 据,其潜在的巨大价值有待发掘。数据作为一种新的能源,正在发生聚 变,变革着我们的生产和生活,催生了当下大数据行业发展热火朝天的 盛景。
      但是如果不能对这些数据进行有序、有结构地分类组织和存储,如 果不能有效利用并发掘它,继而产生价值,那么它同时也成为一场“灾 难”。无序、无结构的数据犹如堆积如山的垃圾,给企业带来的是令人 咋舌的高额成本。
      在阿里巴巴集团内,我们面临的现实情况是:集团数据存储达到 EB级别,部分单张表每天的数据记录数高达几千亿条;在2016年“双 11购物狂欢节”的24小时中,支付金额达到了 1207亿元人民币,支 付峰值高达12万笔/秒,下单峰值达17.5万笔/秒,媒体直播大屏处理 的总数据量高达百亿且所有数据都需要做到实时、准确地对外披露…… 这些给数据采集、存储和计算都带来了极大的挑战。
      在阿里内部,数据工程师每天要面对百万级规模的离线数据处理工 作。阿里大数据井喷式的爆发,加大了数据模型、数据研发、数据质量 和运维保障工作的难度。
      同时,日益丰富的业态,也带来了各种各样、纷繁复杂的数据需求。 如何有效地满足来自员工、商家、合作伙伴等多样化的需求,提高他们 对数据使用的满意度,是数据服务和数据产品需要面对的挑战。
      如何建设高效的数据模型和体系,使数据易用,避免重复建设和数 据不一致性,保证数据的规范性;如何提供高效易用的数据开发工具; 如何做好数据质量保障;如何有效管理和控制日益增长的存储和计算消 耗,如何保证数据服务的稳定,保证其性能,如何设计有效的数据产品 高效赋能于外部客户和内部员工……这些都给大数据系统的建设提出 了更多复杂的要求。
      本书介绍的阿里巴巴大数据系统架构,就是为了满足不断变化的业 务需求,同时实现系统的高度扩展性、灵活性以及数据展现的高性能而 设计的。
如图1.1所示是阿里巴巴大数据系统体系架构图,从图中可以清晰 地看到数据体系主要分为数据采集、数据计算、数据服务和数据应用四 大层次。

1.数据采集层

阿里巴巴是一家多业态的互联网公司,几亿规模的用户(如商家、 消费者、商业组织等)在平台上从事商业、消费、娱乐等活动,每时每 刻都在产生海量的数据,数据采集作为阿里大数据系统体系的第一环尤 为重要。因此阿里巴巴建立了一套标准的数据采集体系方案,致力全面、 高性能、规范地完成海量数据的采集,并将其传输到大数据平台。
      阿里巴巴的日志采集体系方案包括两大体系:Aplus.JS是Web端 日志采集技术方案;UserTrack是APP端日志釆集技术方案。在采集技 术基础之上,阿里巴巴用面向各个场景的埋点规范,来满足通用浏览、 点击、特殊交互、APP事件、H5及APP里的H5和Native日志数据打 通等多种业务场景。同时,还建立了一套高性能、高可靠性的数据传输 体系,完成数据从生产业务端到大数据系统的传输。在传输方面,采用TimeTunnel (TT),它既包括数据库的增量数据传输,也包括日志数据 的传输;TT作为数据传输服务的基础架构,既支持实时流式计算,也 支持各种时间窗口的批量计算。另外,也通过数据同步工具(DataX和 同步中心,其中同步中心是基于DataX易用性封装的)直连异构数据库 (备库)来抽取各种时间窗口的数据。(注:其中的相关细节将在后续的 “日志采集”和“数据同步”章节中详细说明。)

2.数据计算层

数据只有被整合和计算,才能被用于洞察商业规律,挖掘潜在信息, 从而实现大数据价值,达到赋能于商业和创造价值的目的。从采集系统 中收集到的大量原始数据,将进入数据计算层中被进一步整合与计算。
      面对海量的数据和复杂的计算,阿里巴巴的数据计算层包括两大体 系:数据存储及计算云平台(离线计算平台MaxCompute和实时计算平 台StreamCompute)和数据整合及管理体系(内部称之为"OneData”)。 其中,MaxCompute是阿里巴巴自主研发的离线大数据平台,其丰富的 功能和强大的存储及计算能力使得阿里巴巴的大数据有了强大的存储 和计算引擎;StreamCompute是阿里巴巴自主研发的流式大数据平台, 在内部较好地支持了阿里巴巴流式计算需求;OneData是数据整合及管 理的方法体系和工具(注:为方便内部工作及沟通,在阿里内部将这一统一的方法体系和工具简称为“OneData”),阿里巴巴的大数据工程师 在这一体系下,构建统一、规范、可共享的全域数据体系,避免数据的 冗余和重复建设,规避数据烟囱和不一致性,充分发挥阿里巴巴在大数 据海量、多样性方面的独特优势。借助这一统一化数据整合及管理的方 法体系,我们构建了阿里巴巴的数据公共层,并可以帮助相似大数据项 目快速落地实现。
      从数据计算频率角度来看,阿里数据仓库可以分为离线数据仓库和 实时数据仓库。离线数据仓库主要是指传统的数据仓库概念,数据计算 频率主要以天(包含小时、周和月)为单位;如T-1,则每天凌晨处理 上一天的数据。但是随着业务的发展特别是交易过程的缩短,用户对数 据产出的实时性要求逐渐提高,所以阿里的实时数据仓库应运而生。“双 11”实时数据直播大屏,就是实时数据仓库的一种典型应用。
      阿里数据仓库的数据加工链路也是遵循业界的分层理念,包括操作 数据层(Operational Data Store, ODS)、明细数据层(Data Warehouse Detail, DWD),汇总数据层(Data Warehouse Summary, DWS)和应 用数据层(Application Data Store, ADS)O通过数据仓库不同层次之间 的加工过程实现从数据资产向信息资产的转化,并且对整个过程进行有 效的元数据管理及数据质量处理。
      在阿里大数据系统中,元数据模型整合及应用是一个重要的组成部 分,主要包含数据源元数据、数据仓库元数据、数据链路元数据、工具 类元数据、数据质量类元数据等。元数据应用主要面向数据发现、数据 管理等,如用于存储、计算和成本管理等。

3.数据服务层

当数据已被整合和计算好之后,需要提供给产品和应用进行数据消 费。为了有更好的性能和体验,阿里巴巴构建了自己的数据服务层,通 过接口服务化方式对外提供数据服务。针对不同的需求,数据服务层的 数据源架构在多种数据库之上,如MySQL和HBase等。后续将逐渐迁 移至阿里云云数据库ApsaraDB for RDS(简称“RDS”)和表格存储(Table Store)等。
      数据服务可以使应用对底层数据存储透明,将海量数据方便高效地 开放给集团内部各应用使用。现在,数据服务每天拥有几十亿的数据调 用量,如何在性能、稳定性、扩展性等方面更好地服务于用户;如何满 足应用各种复杂的数据服务需求;如何保证“双11”媒体大屏数据服 务接口的高可用……随着业务的发展,需求越来越复杂,因此数据服务 也在不断地前进。
      数据服务层对外提供数据服务主要是通过统一的数据服务平台(为 方便阅读,简称为“OneService")。OneService以数据仓库整合计算好 的数据作为数据源,对外通过接口的方式提供数据服务,主要提供简单 数据查询服务、复杂数据查询服务(承接集团用户识别、用户画像等复 杂数据查询服务)和实时数据推送服务三大特色数据服务。

4.数据应用层

数据已经准备好,需要通过合适的应用提供给用户,让数据最大化 地发挥价值。阿里对数据的应用表现在各个方面,如搜索、推荐、广告、 金融、信用、保险、文娱、物流等。商家,阿里内部的搜索、推荐、广 告、金融等平台,阿里内部的运营和管理人员等,都是数据应用方;ISV、 研究机构和社会组织等也可以利用阿里开放的数据能力和技术。
      阿里巴巴基于数据的应用产品有很多,本书选择了服务于阿里内部 员工的阿里数据平台和服务于商家的对外数据产品——生意参谋进行 基础性介绍。其他数据应用不再赘述。对内,阿里数据平台产品主要有 实时数据监控、自助式的数据网站或产品构建的数据小站、宏观决策分 析支撑平台、对象分析工具、行业数据分析门户、流量分析平台等。
      我们相信,数据作为新能源,为产业注入的变革是显而易见的。我 们对数据新能源的探索也不仅仅停留在狭义的技术、服务和应用上。我 们正在挖掘大数据更深层次的价值,为社会经济和民生基础建设等提供 创新方法。

《大数据之路:阿里巴巴大数据实践》-第1章 总述相关推荐

  1. 读《大数据之路-阿里巴巴大数据实践》数据模型篇笔记

    读<大数据之路-阿里巴巴大数据实践>数据模型篇 七 建模综述 OLTP 面向数据 随机读写 3NF OLAP 批量读写 不关注一致性更关心数据整合 ER模型–衍生出dataVault 维度 ...

  2. 《大数据之路-阿里巴巴大数据实践》读书笔记

    ps:这本书主讲阿里的大数据体系架构方案,从底层到高层阐述,目前对我来说此书的难度较大,不是很懂,大部分为对原书的引用归纳,我会给出相应的大牛的关于此书的读书笔记的传送门供参考.以下为大牛关于本书的读 ...

  3. 《大数据之路 阿里巴巴大数据实践》笔记

    此书下载传送门http://www.java1234.com/a/javabook/yun/2018/0308/10578.html 第1章 总述 阿里巴巴大数据系统体系主要分为,数据采集.数据计算. ...

  4. 大数据之路 阿里巴巴大数据实践 读书笔记

    一 .总述 人类正在从IT时代走向DT时代.现在的数据呈爆炸式增长,其潜在的巨大价值有待发掘.但是如果不对数据进行有序.有结构的分类组织和存储,它将变成一场灾难. 在阿里内部,数据的存储达到EB级别. ...

  5. 大数据之路——阿里巴巴大数据实践:总述

    阿里巴巴大数据系统架构图: Aplus.JS是web端日志采集技术 UserTask是APP端日志采集技术 TimeTunel(TT)是一个实时消息处理平台,类似于kafka+storm DataX是 ...

  6. 《大数据之路-阿里巴巴大数据实践》第一章 总述

  7. 中国大数据明星企业——阿里巴巴的“数据攻防战”

    From: http://www.36dsj.com/archives/4130 平台型企业的大数据应用策略有何特点?阿里巴巴.百度.腾讯等一批平台型企业,汇集了海量用户和商家,聚集成富有张力的生态系 ...

  8. 数据之路 - Python爬虫 - 数据存储

    一.文件存储 1.文件打开方式 文件打开方式 说明 r 以只读方式打开文件.文件的指针将会放在文件的开头.这是默认模式 rb 以二进制只读方式打开一个文件.文件指针将会放在文件的开头 r+ 以读写方式 ...

  9. 大数据之路之平台数据开发规范

    一 数据开发规范 命名标准 这个命名包含了表命名,项目命名,作业命名等,拿表名来说,一般都是按系统来为首,业务做次之,接着是表名,最后还加上一些备注信息,demo是 系统_业务_表名_备注,比如来自外 ...

  10. 阿里首度公开大数据系统架构《大数据之路:阿里巴巴大数据实践》来了

    絮絮叨叨了很久,说阿里数据要出书.每天被催,什么时候写好,什么时候出版.终于,千呼万唤始出版了!!!! 点击阅读详情,即刻试读!!! 曾鸣教授作序 CSDN.ChinaUnix.ITPUB.segme ...

最新文章

  1. PyTorch的计算图和自动求导机制
  2. 强化学习(三)---马尔科夫决策过程
  3. 预约清单ui设计_持续交付质量设计所需的UI清单
  4. 真人拳皇项目第六次Scrum总结——史经浩
  5. Androidstudio查不出具体哪行报错解决办法
  6. WHY数学表达式的3D可视化
  7. 壁挂炉洗澡怎么调水温_壁挂炉水温太高怎么维修【调节壁挂炉温度】
  8. 机房智能直冷优化应用技术
  9. 计算机桌面工具栏出现闪烁,电脑任务栏图标一直闪动怎么解决
  10. Java的Appium自动化测试教程
  11. python爬虫使用seleium+超级鹰+Image模块自动登录12306(附源码和登录视频)
  12. CTE6备考与考试感悟
  13. 用闭包写法优化laravel多条件查询
  14. Python 的文件定位
  15. 50%占空比的3分频器(奇数分频)
  16. python圆形_Python实现的圆形绘制(画圆)示例
  17. 糖尿病视网膜病变检测 (Diabetic Retinopathy Detection)
  18. 改进DH参数之IRB1200
  19. WoShop分销积分直播短视频商城全开源无加密商城源码
  20. android10检测USB接口,Android 10带来黑科技 检测手机USB接口是否有液体或者是否过热...

热门文章

  1. 网易云音乐虚化图片html,网易云音乐怎么换背景 背景图片设置方法
  2. Ableton Live 10 mac 破解版永久激活方法
  3. Jenkins安装教程
  4. IDEA配置JDK源码阅读环境
  5. 数据结构和算法(十三)排序算法
  6. python停用词_python利用jieba分词进行分词,去停止词(停用词)。
  7. 躬身入境DIY - 《传奇动物园》北京沙盘活动精彩回顾
  8. 目标跟踪 MOSSE(Visual Object Tracking using Adaptive Correlation Filters)
  9. 比例调速阀AMESim仿真
  10. cad 打开硬件加速卡_CAD:“你的图纸缺少shx字体!”“不存在的!”