ps:这本书主讲阿里的大数据体系架构方案,从底层到高层阐述,目前对我来说此书的难度较大,不是很懂,大部分为对原书的引用归纳,我会给出相应的大牛的关于此书的读书笔记的传送门供参考。以下为大牛关于本书的读书笔记供参考:读书笔记传送门https://www.jianshu.com/p/69dbf35713ad

此书下载传送门http://www.java1234.com/a/javabook/yun/2018/0308/10578.html

整本书分为四篇幅,共分16个章节分别阐述阿里巴巴在大数据的挑战下的各个方面的应对与方法。

第一篇数据技术篇,包括第2、2、4、5、6、7章。

第二篇模型篇,包括第8、9、10、11章。

第三篇数据管理篇,包括第12、13、14、15章。

第四篇数据应用篇,包括16章。

总述阿里巴巴在大数据时代,面临的挑战与机遇,系统的整体大数据系统架构,在数据爆炸增长的时代,能不能有组织、有序、有结构地存储,是阿里数据技术部门和产品部门需要解决的问题,另一个很重要的问题是在如双十一这种促销活动购物活动时候,阿里的服务能不能稳定的提供,满足越来越高的下单峰值,阿里大数据井喷式爆发,在数据服务和数据产品方面有着极大的挑战。

各层总述1.数据采集层方案主要包含俩个部分,第一部分Aplus.JS,它是Web端日志采集技术方案,app端日志采集技术方案为UserTrack,在此之上,阿里用规范埋点,这样在满足用户要求的同时,像在不同是场景中都有做,这样以此为依托在通过建立一套数据传输体系,来实现从生产业务端到大数据系统的数据传输,传输采用TimeTunnel(TT),包括数据库增量数据传输以及日志数据传输,TT作为基础架构,支持流式计算和及以不同时间窗口的批量计算,通过DataX和同步中心(ps基于前者封装)来连节备用数据库获取数据。典型的日志采集工作过程如下,1用户点击操作,2浏览器随即像服务器发起http请求,3服务器端业务处理模块按逻辑解析,将处理结果反馈给浏览器,4浏览器展现给客户。日志采集工作,一般在第四步执行,在HTML文档中增加一个日志采集点,当进行到这一步时候,会触发这个操作,发出请求至日志采集的服务器,如此日志采集服务器便可以确认浏览器的操作,采集-发送-收集-解析,另外考虑到互动行为特征,如鼠标焦点的变化,交互日志采集阿里通过一套名为“黄金令箭”采集方案来解决。另外包括页面日志服务器端的清洗和预处理,此处不再 细说,以上仅仅为浏览器的页面采集工作,还有无线客户端的日志采集工作,阿里使用采集sdk来实现,阿里使用名为UserTrack(UT)的sdk,有些页面事件,有着无痕埋点,无需开发者任何编码实现,UT提供了页面展现、页面退出、添加页面扩展信息这三个接口,UT提供透传参数的功能,及当前页面某些信息传入到下一个或者好几个页面中,通过Super Position Moder来进行来源去向的追踪,像用户路径还原这种问题就很简单了。

还有一些控点事件和其他事件,除了之前提到的,UT还提供默认的采集方法,如自动捕获应用崩溃,sdk提供日志的聚合功能,利用页面的生命周期来适当的聚合,以及本地聚合功能,识别页面复用,配合栈的深度等进行更为复杂的操作。很多情况下H5和Native互跳,数据丢失验证,用户路径无法还原,多端之间数据隔离等问题,阿里通过对H5和Native统一处理来解决。那么就涉及到日志的归档,通常Native部署采集SDK方式,具体流程略过。涉及到另外一个问题访客数,用户登陆时候用用户ID来唯一标示,为登陆的界面,pc端用Cookie信息作为设备唯一信息,aap端,阿里采用UTDID来标识。

无线端日志上传,是先存储在本地,后伺机上传,上传动作不单以时间间隔来决定,还要考虑日志的大小以及合理性,对与重要的数据,此时可以适当地释放其他日志资源来优先处理。日志早已不是初期的饥饿阶段,反而面临海量日志淹没的危险,故问题不再是采集技术本身,而是如何数据的规范化、机构化、组织化。阿里采用日志分流和定制处理、采集与计算一体化设计这俩个方案。具体有关分布式,分治策略等,后一个要求对日志的归类和汇总,,一体化要求采集和计算作为一个系统考虑,阿里采用用户直观感知的SPM规范。

另外一个重要的问题是大促保障,如“双十一“活动,需要保证每个阶段都没有问题,端埋点采集,服务器处理,传输,解析,分析,应用,需要考虑服务器能力,实时处理等各方面,对非重要数据进行适当限流,延迟上报,部分采样,后错峰恢复。

另外从业务上改造,各链路做优化。

数据同步主要将不同源系统的数据文件通过文件服务器,上传到目标系统,由于上传下载可能会造成数据丢失,除上传文件本身外还会上传一个校验文件,以确保准确性。通过解析日志文件获取发生变更的数据,主要步骤为源系统日志文件到通过日志解析模块,在由TCP/IP协议,数据加载模块再到目标系统。

数据存储时候面对大量非结构化数据,将其直接以文本文件形式存放在文件系统中,这些数据也有着很大的作用,目前阿里的大数据处理系统MaxCompute数据存储已经达到了PB级别!对于离线类型数据仓库应用,需将不同数据源数据批量同步至数据仓库。数据只有被整合和计算才能使用,挖掘潜在信息,数据的最大化价值化,阿里数据计算层主要包括俩大体系:数据存储及计算云平台(离线计算平台MaxCompute和StreamCompute:阿里自主研发的流式大数据平台)和数据整合及管理体系(内部称之为OneData),构建统一规范可共享的全域数据体系,数据仓库的数据加工链路包括:操作数据层(ODS)、明细层(DWD)、汇总层(ADS)。

数据计算和整合好后,需要供给产品和应用进行消费,阿里构建了自己的数据服务层,通过接口服务话方式对外提供数据服务。数据源架构在各种数据库之上,如Hbase,后面移至阿里云数据库(ApsaraDB for RDS  简称RDS)和表格存储(Table Store),统一数据平台(OneService ),提供数据查询、复杂数据查询、实时数据推送等服务。

在数据应用层,需要将数据供给给用户,阿里表现在各个方面:搜索、广告、金融、文娱、物流、保险等,阿里平台产品主要有实时数据监控、自助式数据网站或产品构建的数据小站、宏观决策分析支撑平台、对象分析工具、行业数据分析门、流量分析平台等。

总结:在数据为王的时代,有数据是资本,能分析数据是优势,最大消费数据是才是目的所在,有了这些数据才能成为新能源。

《大数据之路-阿里巴巴大数据实践》读书笔记相关推荐

  1. 读书笔记 | 墨菲定律

    1. 有些事,你现在不做,永远也不会去做. 2. 能轻易实现的梦想都不叫梦想. 3.所有的事都会比你预计的时间长.(做事要有耐心,要经得起前期的枯燥.) 4. 当我们的才华还撑不起梦想时,更要耐下心来 ...

  2. 读书笔记 | 墨菲定律(一)

    1. 有些事,你现在不做,永远也不会去做. 2. 能轻易实现的梦想都不叫梦想. 3.所有的事都会比你预计的时间长.(做事要有耐心,要经得起前期的枯燥.) 4. 当我们的才华还撑不起梦想时,更要耐下心来 ...

  3. 洛克菲勒的38封信pdf下载_《洛克菲勒写给孩子的38封信》读书笔记

    <洛克菲勒写给孩子的38封信>读书笔记 洛克菲勒写给孩子的38封信 第1封信:起点不决定终点 人人生而平等,但这种平等是权利与法律意义上的平等,与经济和文化优势无关 第2封信:运气靠策划 ...

  4. 股神大家了解多少?深度剖析股神巴菲特

    股神巴菲特是金融界里的传奇,大家是否都对股神巴菲特感兴趣呢?大家对股神了解多少?小编最近在QR社区发现了<阿尔法狗与巴菲特>,里面记载了许多股神巴菲特的人生经历,今天小编简单说一说关于股神 ...

  5. 2014巴菲特股东大会及巴菲特创业分享

     沃伦·巴菲特,这位传奇人物.在美国,巴菲特被称为"先知".在中国,他更多的被喻为"股神",巴菲特在11岁时第一次购买股票以来,白手起家缔造了一个千亿规模的 ...

  6. 《成为沃伦·巴菲特》笔记与感想

    本文首发于微信公众帐号: 一界码农(The_hard_the_luckier) 无需授权即可转载: 甚至无需保留以上版权声明-- 沃伦·巴菲特传记的纪录片 http://www.bilibili.co ...

  7. 读书笔记002:托尼.巴赞之快速阅读

    读书笔记002:托尼.巴赞之快速阅读 托尼.巴赞是放射性思维与思维导图的提倡者.读完他的<快速阅读>之后,我们就可以可以快速提高阅读速度,保持并改善理解嗯嗯管理,通过增进了解眼睛和大脑功能 ...

  8. 读书笔记001:托尼.巴赞之开动大脑

    读书笔记001:托尼.巴赞之开动大脑 托尼.巴赞是放射性思维与思维导图的提倡者.读完他的<开动大脑>之后,我们就可以对我们的大脑有更多的了解:大脑可以进行比我们预期多得多的工作:我们可以最 ...

  9. 读书笔记003:托尼.巴赞之思维导图

    读书笔记003:托尼.巴赞之思维导图 托尼.巴赞的<思维导图>一书,详细的介绍了思维发展的新概念--放射性思维:如何利用思维导图实施你的放射性思维,实现你的创造性思维,从而给出一种深刻的智 ...

  10. 产品读书《滚雪球:巴菲特和他的财富人生》

    作者简介 艾丽斯.施罗德,曾经担任世界知名投行摩根士丹利的董事总经理,因为撰写研究报告与巴菲特相识.业务上的往来使得施罗德有更多的机会与巴菲特亲密接触,她不仅是巴菲特别的忘年交,她也是第一个向巴菲特建 ...

最新文章

  1. windows崩溃转储文件
  2. 移动端网页特效:左右滑动开关
  3. 腾讯iOA零信任安全——IT变革下的新一代企业网
  4. 平板游戏问题(luogu 2003/2018 特长生 T4)
  5. mysql严格模式 报错_mysql严格模式
  6. 一个炫酷的仿雷达扫描和扩散效果——自定义View就是这么简单
  7. python笔记(1)安装调试
  8. 修改虚拟机设置过游戏检测
  9. [ZT]新点子,就在空气中飘荡着...
  10. vue如何调用高德地图
  11. win10文件资源管理器卡死未响应的完美解决方法
  12. 【JavaScript】从事件驱动到数据驱动
  13. 面试十五年经验程序员,面试官沦为听众
  14. MTK笔试面试题集锦
  15. 【Niagara Vykon N4】物联网学习 02 照明控制
  16. 非自锁单按钮控制启停电路
  17. MySQL5.6与5.7的区别——及MySQL5.6版本安装
  18. 洛谷P1244青蛙过河题解
  19. Redis学习7之Predis连接redis过程和测试
  20. 苹果商店打不开怎么办_王者荣耀荣耀战区排行打不开解决办法介绍 裴擒虎李小龙皮肤免费获取方法_游戏频道...

热门文章

  1. Java黑皮书课后题第3章:*3.31(金融:货币兑换)编写程序,提示用户输入从美元到人民币的兑换汇率,然后提示用户输入0表美元兑人民币、1表人民币兑美元。继而提示用户输入美元数量或人民币数量,兑换
  2. Pandas入门超详细教程,看了超简单
  3. 关于学习的几个经典定律
  4. 微商加粉方法,微商加粉,究竟难在哪?
  5. Android | 教你如何开发一键银行卡绑定功能
  6. JMeter递增加压
  7. docker | 基于 WSL2 在 Windows 下使用 docker
  8. 模仿微信九宫格图片展示控件
  9. dedecms 织梦后台系统配置参数空白的解决方法
  10. 写给四十岁女人的箴言,写给四十岁男人的忠告