大数据之路读书笔记-01总述

此系列文章为大数据之路的读书笔记,如侵可删

2014 年,马云提出,“人类正从 IT 时代走向 DT 时代 ”如果说IT时代是以自我控制、自我管理为主,那么到了 DT (Data Technology) 时代,则是以服务大众、激发生产力为主。以互联网(或者物联网)、云计算、大数据和人工智能为代表的新技术革命正在渗透至各行各业,悄悄地改变着我们的生活。
在DT 时代,人们比以往任何时候更能收集到更丰富的数据。 JDC的报告显示:预计到 2020 年,全球数据总量将超过 40ZB (相当于 40万亿 GB ),这一数据量是 2011 年的 22 倍!正在呈“爆炸式”增长的数据,其潜在的巨大价值有待发掘。数据作为一种新的能源,正在发生聚变,变革着我们的生产和生活 ,催生了当下大数据行业发展热火朝天的盛景。
但是如果不能对这些数据进行有序、有结构地分类组织和存储,如果不能有效利用并发掘它,继而产生价值,那么它同时也成为一场“灾难”。无序、无结构的数据犹如堆积如山的垃圾,给企业带来的是令人咋舌的高额成本。
在阿里巴巴集团内,我们面临的现实情况是:集团数据存储达到EB 级别,部分单张表每天的数据记录数高达几千亿条:在 2016 年“双11 购物狂欢节”的 24 小时中,支付金额达到了 1207 亿元人民币,付峰值高达 12 万笔/秒,下单峰值达 17.5 万笔/秒,媒体直播大屏处理的总数据量高达百亿且所有数据都需要做到实时、准确地对外披露……这些给数据采集、存储和计算都带来了极大的挑战。
在阿里内部,数据工程师每天要面对百万级规模的离线数据处理工作。阿里大数据井喷式的爆发,加大了数据模型、数据研发、数据质量和运维保障工作的难度。同时,日益丰富的业态,也带来了各种各样、纷繁复杂的数据需求。如何有效地满足来自员工、商家、合作伙伴等多样化的需求 ,提高他们对数据使用的满意度,是数据服务和数据产品需要面对的挑战。如何建设高效的数据模型和体系,使数据易用,避免重复建设和数据不一致性,保证数据的规范性;如何提供高效易用的数据开发工如何做好数据质量保障;如何有效管理和控制日益增长的存储和计算消如何保证数据服务的稳定,保证其性能 如何设计有效的数据产品高效赋能于外部客户和内部员工……这些都给大数据系统的建设提出了更多复杂的要求。
本书介绍的阿里巴巴大数据系统架构,就是为了满足不断变化的业务需求,同时实现系统的高度扩展性、灵活性以及数据展现的高性能而设计的。
如图 1.1 所示是间里巴巴大数据系统体系架构图,从图中可以清晰地看到数据体系主要分为数据采集、数据计算、数据服务和数据应用四大层次。

文章目录

  • 大数据之路读书笔记-01总述
  • 1 .数据采集层
  • 2、数据计算层
  • 3.数据服务层
  • 4. 数据应用层

1 .数据采集层

阿里巴巴是一家多业态的互联网公司,几亿规模的用户(如商家、消费者、商业组织等)在平台上从事商业、消费、娱乐等活动,每时每刻都在产生海量的数据,数据采集作为阿里大数据系统体系的第一环尤为重要。因此阿里巴巴建立了一套标准的数据采集体系方案,致力全面、高性能、规范地完成海量数据的采集,并将其传输到大数据平台。阿里巴巴的日志采集体系方案包括两大体系: Aplus.JS Web日志采集技术方案; UserTrack APP 端日志采集技术方案。在采集技术基础之上,阿里巴巴用面向各个场景的埋点规范,来满足通用浏览、点击、特殊交互、 APP 事件、 H5 APP 里的 H5 Native 日志数据打通等多种业务场景。同时,还建立了一套高性能、高可靠性的数据传输体系,完成数据从生产业务端到大数据系统的传输。在传输方面,采用TimeTunnel (TT ),它既包括数据库的增量数据传输,也包括日志数据的传输; TT 作为数据传输服务的基础架构,既支持实时流式计算,也支持各种时间窗口的批量计算。另外,也通过数据同步工具( DataX同步中心,其中同步中心是基于 DataX 易用性封装的)直连异构数据库(备库)来抽取各种时间窗口的数据。(注:其中的相关细节将在后续的“日志采集”和“数据同步”章节中详细说明 。)

2、数据计算层

数据只有被整合和计算,才能被用于洞察商业规律,挖掘潜在信息,从而实现大数据价值,达到赋能于商业和创造价值的目的。从采集系统中收集到的大量原始数据,将进入数据计算层中被进 步整合与计算。面对海量的数据和复杂的计算,网里巴巴的数据计算层包括两大体系:数据存储及计算云平台(离线计算平台 MaxCompute 和实时计算StreamCompute )和数据整合及管理体系(内部称之为“OneData ”)其中, Max Compute 是阿里巴巴自主研发的离线大数据平台 ,其丰富的功能和强大的存储及计算能力使得阿里巴巴的大数据有了强大的存储和计算引擎; StreamCompute 是网里巴巴自主研发的流式大数据平台,在内部较好地支持了阿里巴巴流式计算需求: OneData 是数据合及管理的方法体系和工具(注 为方便内部工作及沟通,在阿里内部将这一统一的方法体系和工具简称为“ OneData ”),阿里巴巴的大数据工程在这一体系下,构建统一、规范、可共享的全域数据体系 ,避免数据的冗余和重复建设 ,规避数据烟囱和不一致性,充分发挥间里巴巴在大数据海量、多样性方面的独特优势。借助这一统一化数据整合及管理的方法体系 ,我们构建了阿里巴巴的数据公共层,并可以帮助相似大数据项目快速落地实现。
从数据计算频率角度来看,阿里数据仓库可以分为离线数据仓库和实时数据仓库。离线数据仓库主要是指传统的数据仓库概念,数据计算频率主要以天(包含小时、周和月)为单位 ;如下 ,则每天凌晨处理上一天的数据。但是随着业务的发展特别是交易过程的缩短,用户对数据产出的实时性要求逐渐提高,所以阿里的实时数据仓库应运而生。“双11 ”实时数据直播大屏,就是实时数据仓库的一种典型应用。
阿里数据仓库的数据加工链路也是遵循业界的分层理念,包括操作数据层( Operational Data Store, ODS 、明细数据层( Data Warehouse Detail , DWD )、汇总数据层( Data Warehouse Summary, DWS )和应用数据层( Application Data Store, ADS )。通过数据仓库不同层次之间的加工过程实现从数据资产向信息资产的转化,并且对整个过程进行有效的元数据管理及数据质量处理。
在阿里大数据系统中,元数据模型整合及应用是一个重要的组成部分,主要包含数据源元数据、数据仓库元数据 、数据链路元数据、工具类元数据 数据质量类元数据等。元数据应用主要面向数据发现、数据管理等 ,如用于存储、计算和成本管理等。

3.数据服务层

当数据已被整合和计算好之后, 需要提供给产品和应用进行数据消费。为了有更好的性能和体验,阿里巴巴构建了自己的数据服务层,通过接口服务化方式对外提供数据服务。针对不同的需求,数据服务层的数据源架构在多种数据库之上,如 MySQL HBase 等。后续将逐渐迁移至阿里云云数据库 ApsaraDB for RDS (简称“ RDS ”)和表格存储( TableStore )等。

数据服务可以使应用对底层数据存储透明,将海量数据方便高效地开放给集团内部各应用使用。现在,数据服务每天拥有几十亿的数据调用量,如何在性能、稳定性、扩展性等方面更好地服务于用户:如何满足应用各种复杂的数据服务需求:如何保证“双 11 ”媒体大屏数据服务接口的高可用……随着业务的发展,需求越来越复杂,因此数据服务也在不断地前进。

数据服务层对外提供数据服务主要是通过统 的数据服务平台(方便阅读,简称为“OneService ”)。 One Service 以数据仓库整合计算好的数据作为数据源,对外通过接口的方式提供数据服务,主要提供简单数据查询服务、复杂数据查询服务(承接集团用户识别、用户画像等复
杂数据查询服务)和实时数据推送服务 大特色数据服务。

4. 数据应用层

数据已经准备好,需要通过合适的应用提供给用户,让数据最大化地发挥价值。阿里对数据的应用表现在各个方面,如搜索、推荐、广告、
金融、信用、保险、文娱、物流等。商家 ,阿里内部的搜索、推荐、广告、金融等平台 ,阿里内部的运营和管理人员等,都是数据应用方; ISV研究机构和社会组织等也可以利用阿里开放的数据能力和技术。
间里巴巴基于数据的应用产品有很多,本书选择了服务于阿里内部员工的阿里数据平台和服务于商家的对外数据产品一一生意参谋进行基础性介绍。其他数据应用不再赘述。对内,阿里数据平台产品主要有实时数据监控、自助式的数据网站或产品构建的数据小站、宏观决策分析支撑平台、对象分析工具、行业数据分析门户、流量分析平台等。

我们相信,数据作为新能源,为产业注人的变革是显而易见的。我们对数据新能源的探索也不仅仅停留在狭义的技术、服务和应用上。我们正在挖掘大数据更深层次的价值,为社会经济和民生基础建设等提供创新方法。
注:本书中出现的专有名词 专业术语 产品名称、软件项目名称名称等,是沟宝(中国)软件有限公司内部项目的惯用词语,如与第三方名雷同,实属巧合

大数据之路读书笔记-01总述相关推荐

  1. 大数据之路读书笔记-03数据同步

    大数据之路读书笔记-03数据同步 如第一章所述,我们将数据采集分为日志采集和数据库数据同步两部分.数据同步技术更通用的含义是不同系统间的数据流转,有多种不同的应用场景.主数据库与备份数据库之间的数据备 ...

  2. 大数据之路读书笔记-11事实表设计

    大数据之路读书笔记-11事实表设计 文章目录 大数据之路读书笔记-11事实表设计 11.1 事实表基础 11.1.1 事实表特性 11.1.2 事实表设计原则 11.1.3 事实表设计方法 11.2 ...

  3. 大数据之路读书笔记-16数据应用

    大数据之路读书笔记-16数据应用 全球知名咨询公司麦肯锡称:"数据,已经 透到当今每一个行业和业务职能领域,成为重要的生产要素.人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈 ...

  4. 大数据之路读书笔记-15数据质量

    大数据之路读书笔记-15数据质量 随着 IT向DT 时代的转变,数据的重要性不言而喻,数据的应用也日趋繁茂,数据正扮演着一个极其重要的角色.而对于被日益重视的数据,如何保障其质量也是间里巴巴乃至业界都 ...

  5. 大数据之路读书笔记-09阿里巴巴数据整合及管理体系

    大数据之路读书笔记-09阿里巴巴数据整合及管理体系 面对爆炸式增长的数据,如何建设高效的数据模型和体系,对这些数据进行有序和有结构地分类组织和存储,避免重复建设和数据不一致性,保证数据的规范性, 直是 ...

  6. 大数据之路读书笔记-02日志采集

    大数据之路读书笔记-02日志采集 数据采集作为阿里大数据系统体系的第 环尤为重要.因此阿里巴巴建立了一套标准的数据采集体系方案,致力全面.高性能.规范地完成海量数据的采集,并将其传输到大数据平台.本章 ...

  7. 大数据之路读书笔记-10维度设计

    大数据之路读书笔记-10维度设计 文章目录 大数据之路读书笔记-10维度设计 10.1 维度设计基础 10.1.1 维度的基本概念 10.1.2 维度的基本设计方法 10.1.3 维度的层次结构 10 ...

  8. 阿里巴巴大数据之路读书笔记——用户画像的定义

    用户画像 在阿里巴巴旗下的淘宝网.虾米音乐上都不乏个性化推荐场景,淘 宝.天猫平台上的众多商家则需要通过用户调研和产品研发来把握产品 的目标人群和人群偏好,从而对用户投其所好.对用户有深刻的理解是 网 ...

  9. 大数据Hadoop教程-学习笔记01【大数据导论与Linux基础】

    视频教程:哔哩哔哩网站:黑马大数据Hadoop入门视频教程,总时长:14:22:04 教程资源:https://pan.baidu.com/s/1WYgyI3KgbzKzFD639lA-_g,提取码: ...

最新文章

  1. Java 和 C 长期霸权结束
  2. 坐拥双妹、佰草集,上海家化是怎样将一只脚留在高端护肤品门外的?
  3. Windows下使用Notepad++修改二进制文件,exe可执行文件
  4. 吊打一切现有开源OCR项目:效果再升7%,速度提升220%
  5. HDU4514(非连通图的环判断与图中最长链)
  6. ssh 命令行通过私钥登录其它设备
  7. IMP-00002: 无法打开 D:\orcldat\test_20111024.dmp 进行读取,rman备份
  8. chart控件做实时曲线显示_基于GDI+技术开发工业仪表盘控件
  9. File /usr/bin/pip, line 11, in module sys.exit(__main__._main()) AttributeError: 'module' ob...
  10. C语言中如何使用system函数
  11. 制作Mobi电子书目录
  12. ESP8266 WIFI模块学习基础入门
  13. 电子设计大赛-AD与DA电路设计
  14. Excel quot;定位条件quot;使用技巧(1)快速在空格,批量写入公式。
  15. 树梅派学习 15. 语音合成软件使用
  16. 使用whistle实现移动网页(H5、公众号、企微应用)的本地开发及调试
  17. 《矛盾论》与《实践论》
  18. 微信防封汇总,解决办法及数据分析
  19. 如何从Excel表格导入数据批量生成二维码
  20. H ICPC Standings

热门文章

  1. Tikhonov 正则化模型用于图片去噪_matlab
  2. 2022年2月最受欢迎编程语言排行榜|Python遥遥领先
  3. java trim函数的使用方法_java trim的用法实例详解
  4. 要访问1KB的内存为啥需要10位地址线,而不是13位?
  5. 提高企业计算机网络安全意识,对企业计算机网络安全建设问题综合分析探讨.doc...
  6. mysql add months,mysql里有没有类似oracle里的ADD_MONTHS函数,自能的提取间隔的月份...
  7. “天地不仁,以万物为刍狗”的真正意思
  8. C# 使用HttpClient上传文件并附带其他参数的步骤
  9. 2007热点技术职位排行及点评
  10. PMAC应用一简单介绍