​1. 故事缘起:我们需要工程原型!

从2008年Hadoop成为Apache的顶级项目开始,大数据技术迎来了十多年的持续发展,其间随着Spark的异军突起,整个大数据生态圈又经历了一次“装备升级”,变得更加完善和强大。

今天,很多企业已经完成了早期对大数据技术的尝试和探索转而进入到应用阶段,但不得不说的是,大数据平台的架构体系庞大,技术堆栈非常深,从事大数据开发的同学对此应该都深有体会。而在很多细分领域(例如实时计算、作业调度)也没有像样的工程模板,这一现状与Java社区使用Spring Boot信手拈来地搭建Web工程原型形成了鲜明了对比。

这导致很多团队在启动大数据平台建设时往往感到无所侍从,也使得希望深入学习大数据技术的开发者由于缺少工程级的示例参考而感到迷茫。如果在大数据领域也有基于最佳实践提炼出来的工程原型,帮助团队快速启动开发,上手就写业务代码的话,你想了解一下吗?

在历时三年的艰苦写作和源代码编写之后,这本凝结了我多年知识积累和从业经验的《大数据平台架构与原型实现:数据中台建设实战》终于和大家见面了!本书就是以此为命题创作的!

京东购书链接:https://item.jd.com/12677623.html

当当购书链接:http://product.dangdang.com/28974965.html

↓扫码获取详情↓

(限时活动,下单立减50元)

2. 鲜明特色:原型驱动与脚手架项目

作为一名长期坚持在一线编写代码的架构师,我曾经参与过多个大数据平台的设计和开发工作,在长期的工作中积累了一些值得分享的宝贵经验。同时,在项目初期我还会为团队搭建工程原型,在经过多个项目的优化和提炼之后积累了一套成熟通用的原型方案,本书讲解的原型系统正是由此而来。

原型系统的8个子项目

原型系统由8个子项目组成,总计超过2万行源代码,已在Github上开源。它们并不是相互孤立的,而是密切协同工作的一个完整平台,8个子项目会在一个虚拟的轻量业务场景下完成数据采集 、实时处理、数仓建设和作业调度等若干重要环节,直至输出最后的结果数据。

本书原型系统各个子项目在系统架构中的定位与分工

本书的原型项目不仅仅是一套示例代码,而是一个能应用于实际项目的“脚手架”,其源代码具有很高的参考性和可移植性,将虚拟的业务逻辑抽离之后能很容易地应用到实际项目中,以帮助团队快速启动开发工作。

这本书会把大数据平台的架构设计和原型系统的具体实现结合在一起讲解,希望能帮助读者有效地学习大数据平台的设计方法和各项技术。

3. 正面应对:最实际的技术和管理难题

本书的很多建议和做法都是从过去项目的“踩坑”和“填坑”中总结提炼而来,针对的都是非常现实的技术和管理问题,是在一线进行大数据平台研发必然会面临的难题,以下列出的未必都是本书的重点,但一定是很多人在实际工作中曾经遇到和思考过的问题:

3.1 技术类难题

  • 如何合并每日增量数据?
  • 如何构建2型缓慢变化维度表?
  • 如何生成代理主键?
  • 如何处理Hive/Spark SQL脚本中的变量参数?
  • 如何设计流计算工程结构?
  • 如何在数据采集时应对作业超时和数据延迟就绪?
  • 如何设计理想的HBase Rowkey?
  • 如何切分工作流?
  • 如何一键编译并部署项目?

3.2 策略与管理类难题

  • 如何判定企业目前对数据的应用能力?
  • 数据中台如何落地?
  • 如何在数据平台的长期基础设施建设和短期上层业务需求之间进行平衡?
  • 当企业从旧的数据平台向新一代数据中台迁移时,有没有“明智”的推进策略协调好两者之间的关系?

如果你对这些问题也感同身受,那么我相信这本书一定会对你有所帮助!因为,所有这些问题书中都给出了答案!

4. 内容介绍:涵盖平台架构各个环节

本书开篇先从数据对企业的价值谈起,给出了度量企业数据能力的成熟度模型,然后着重讨论了企业如何建设数据团队,培育数据文化;接着在第二章转入对中台架构的详细介绍,给出了数据中台建设的建议策略;然后,全书转入对大平台建设的具体介绍,包括了:基础设施建设、平台架构设计、数据采集、主数据管理、实时计算、批处理与数据仓库、数据存储和作业调度等,每个环节独立成章,每一章会介绍相应主题的架构方案和技术选型,然后结合原型项目讲解具体的实现细节。

5. ​精华揭秘:通用架构参考与最佳实践

本书的架构方案与工程原型均来数个大数据平台项目的积累,包含了很多经过繁复打磨和提炼才得以成型的设计方案和做法,其中有很多都已集成进原型项目,沉淀为了最佳实践。下面就为大家揭秘本书的一部分精华内容。

5.1 企业数据应用能力和技术成熟度模型

我的企业在数据应用上处于什么水平?还有哪些欠缺?下一步的发展方向是什么?本书给出的企业数据应用能力和技术成熟度模型做了准确地度量,帮助企业认清现状和未来发展方向。

本书推出的企业数据应用能力成熟度模型

本书推出的企业数据应用技术成熟度模型

5.2 通用型平台架构参考

大数据平台怎么搭?有哪些数据处理环节和组件?它们之间如何集成?本书给出了一种以Lambda架构为蓝本的通用型架构参考,这个架构曾经历经多个项目验证,稳定、可靠并具有广泛的适用性。

本书推荐的通用型大数据平台架构参考

5.3 千锤百炼的数仓架构

数仓架构,千锤百炼,一切都是最好的安排。本书使用的数仓架构参考了众多主流架构方案,不管你是从事传统数仓开发还是在大数据平台上构建数仓,相信对下面的数仓架构应该不会感到陌生。

本书推荐并使用的数仓架构

5.4 实时流计算的工程结构

实时流计算工程怎么搭?代码应改如何组织?看看下面这张图,有没有似曾相识,豁然开朗的感觉?这一工程结构充分借鉴了Java Web工程的做法,这也折射出我们对流计算的深刻解读,即:流(Stream)只是流计算的“门面”(Facade),相当于某些MVC框架中的Action,业务实体和逻辑以及数据读写都有对应的组件负责,这是在Web应用常年积累出的最佳实践,也同样适用于流计算。

本书实时流计算推荐并使用的工程结构

5.5 合理有效的工作流切分策略

大数据平台上作业众多,相互之间关系密切,如何合理的组织工作流是一个很棘手的问题。本书提出的切分策略既能减轻作业间依赖又能很好的遵循业务主题,是对数据仓库工作深度剖析之后的经验总结。

本书推荐并使用的工作流切分策略

6. 适用读者:技术开发与管理者

6.1 架构师、技术负责人

如果你是一位架构师或团队技术负责人,这本书可以帮助你提升对大数据平台的整体把控力。如果你的大数据平台尚在规划中,本书提出的架构方案和原型项目可以作为你的重要参考;如果你的平台已经进入实施阶段,对于长期积累的技术债务和将要扩展的新能力,本书提出的一些解决方案也会对你有所帮助。

6.2 开发人员

如果你是有一定技术背景的工程师,想往大数据领域转型,或者你已经是大数据领域内的中高级大数据开发人员,想要拓宽自己的技术堆栈,建议你有针对性地选择数据处理流程中具体环节,结合原型项目代码深入地学习其中的技术细节。

6.3 CIO、CTO、顾问咨询

如果你是CIO、CTO或顾问咨询,本书的第1、2、4章对于帮助你定制企业数据战略、规划数据平台蓝图及组建数据团队都有重要的参考价值。

7. 业界领袖亲力推荐

这本书的架构理论、方案和一些重要建议都经过了实践检验,并取得了良好的效果,我相信书中的知识和见解可以复用于很多企业,帮助他们打破信息孤岛,将线上与线下渠道连接在一起,为消费者提供更佳的用户体验,并帮助企业在激烈的市场竞争中迅速而敏捷地捕捉商机。

欧莱雅集团亚太区首席信息官
Rita Lau

本书涵盖了大数据平台建设的全部环节,通读下来,整体上实操性很强,架构原理融于了工程原型的搭建过程,对于希望自己动手实践的读者会很有帮助,同时在操作步骤中介绍了相应的逻辑及设计,有利于读者更好地领会背后的原理。在今天这个时代,我们不见得要自己搭建整个平台,但是了解原理可以让自己工作起来事半功倍,不管是自己搭建,还是利用成熟平台,懂得理论,明白实践,再开始在企业中搭建数据驱动内部经营的完善体系就会胸有成竹、游刃有余。

彩食鲜CTO、鲲鹏会荣誉导师、苏宁科技集团原副总裁
乔新亮

这本书的理论基础扎实,架构方案完备,更难能可贵的是它还有丰富详实的原型系统代码供读者参考和学习,这对很多读者来说是一份宝贵的“礼物”,而作为企业的CTO,这本书给我的惊喜还在于除了技术之外,它还对企业的数据战略和中台架构做了精彩的论述,对很多企业构建数据中台都有指导意义。这是一本很有诚意,干货满满的书,不仅对程序员、架构师有帮助,也同样适合CIO、CTO。

华住集团技术副总裁及盟广CTO
王晓光

数据中台的概念满天飞,但是数据中台的落地始终是一个难点,很难统一。将数据中台的核心通用组件抽象出来,一步步地指导企业如何去构建,这会是数据中台领域的下一个课题。这本书率先在这一方向上进行了系统地阐述,它从数据中台的概念出发,然后快速落地到实践指导层面,讲解如何从零开始构建数据中台的核心组件,它是一本靠坚实的实践积累出来的好书!

​ThoughtWorks数据智能总经理
史凯

8. 行业专家评论

企业品牌方在运营管理中一项非常重要的任务是提升用户留存率并扩大产品用户群,而数据在其中起到的作用至关重要,但凡能做出一番成绩的公司,都必定有一个具有自己DNA的数据分析团队,他们在进行各类数据分析时,离不开强大而完善的大数据平台。然而,常规的IT数据团队对于业务方的需求及数据应用不甚了解,这本书对致力于在品牌方的数据工程师有很大的参考价值,可以帮助他们对大数据平台有一个全面的认识,了解数据从获取到产出为分析结果这一过程中发生的事情,能更好的与业务部门协作,实现大数据赋能。

欧莱雅(中国)有限公司大众化妆品部 大数据总监
唐雯

本书作者曾经分享过很多在中台系统落地过程中遇到的问题及解决方案,这些方法论在我们搭建营销相关的业务中台过程中有很多启示作用。而数据中台也是助力企业数字化转型的核心动力之一,它能为业务发展提供强大的数据支撑和灵活决策支持。在我们经历每日千万级交易数据的中台建设过程中,深刻地体会到数据中台在数据驱动创新方面的价值。本书详细介绍了数据中台的技术选型和架构方案,以及落地过程中的一些关键要素。希望本书能够帮助读者快速搭自己企业的数据中台,为业务发展助力。

饿了么营销中台 架构师
宋艳飞

本书的作者是一位深耕于大数据领域,并一直奋战在一线编写代码的架构师,作者凭借自身十多年的设计和研发经验,归纳总结出了这本通俗易懂的大数据架构和技术书籍。从企业数据战略规划到架构方案设计与技术选型都给我们带来了有益的帮助和启发,并从开发人员最实际的需要出发给出了详细的工程代码,从理论到实战都进行了专业而细致的讲解。

埃森哲(中国)有限公司 技术架构经理
张俊

这是一本富有实战色彩的大数据新作,汇聚了作者宝贵的经验与独到的观点。本书涵盖的知识与内容非常丰富,并呈纵深化结构,除技术内容之外,还包括与大数据平台配套的人才能力、组织架构与管理方法论,适合不同级别的读者。除了信息技术行业的专业人士外,我也极力推荐此书给从事科技行业与数据合规的法律人士,尝试用微观视角来深入剖析近年来火爆的大数据技术及中台等概念。

​希尔顿酒店集团 亚太区数据保护官,国际信息隐私专家协会前上海分会主席
李宵声

重磅推荐:建大数据平台太难了!给我发个工程原型吧!相关推荐

  1. 数据科学太难?这些陷阱请避开,正能量很重要!

    数据科学太难?这些陷阱请避开,正能量很重要! 全文共2982字,预计学习时长6分钟 很多人可能都会有这样的疑问:网上有这么多可用的资源,为什么保持学习数据科学的积极性这么难呢? 无论你怎样学习数据科学 ...

  2. 数据建模太难?全美一等奖得主,带你从入门到超神!

    如果说当今是数据的时代,那么「数学建模」就是名副其实的万金油.不论是经济,计算机,还是金融和公共政策,它都是背后的根基和指导. 对于大学生来说,参加数学建模竞赛是有很多好处的.不仅可以锻炼自己的创新能 ...

  3. 快看漫画大数据平台的模型思维与用户增长实践

    本文根据快看漫画屈世超老师在DataFunTalk数据主题技术沙龙活动"大数据从底层处理到数据驱动业务"中分享的<大数据平台的模型思维与用户增长实践>编辑整理而成,在未 ...

  4. 大数据平台构建_如何像产品一样构建数据平台

    大数据平台构建 重点 (Top highlight) Over the past few years, many companies have embraced data platforms as a ...

  5. 炸裂!微软重磅推出混合现实平台 Mesh、基于 Excel 的低代码语言 Power Fx,Ignite 2021 太精彩!...

    作者 | 伍杏玲 出品 | CSDN(ID:CSDNnews) "一开始,这就是混合现实的梦想." 在微软 Ignite 2021 大会上,微软 HoloLens 之父 Alex ...

  6. 数据埋点太难!知乎的做法有何可借鉴之处?

    导读:埋点作为商业智能(BI)和人工智能(AI)体系中重要的一环,是公司提升产品工程质量.实施 AB Testing.个性化推荐服务重要的数据来源.在传统的纯 Web 和 Native 开发的产品中, ...

  7. 物联网、车联网、工业互联网大数据平台,为什么推荐使用TDengine?

    物联网.车联网.工业互联网大数据平台,为什么推荐使用TDengine? 大数据有很多处理工具,最流行的当属Hadoop系统.Hadoop生态包括HDFS, HBase, Hive, YARN, Sto ...

  8. 金融科技大数据产品推荐:Chinapex创略智能客户数据平台——开启智慧营销之旅

    智能.实时的客户数据平台是一个独特的解决方案,由AI和机器学习驱动,助力企业完成从多数据源采集.分析,到数据运用的闭环,支持各种客户相关的应用场景,包括营销.客户体验优化,以及运营等 官网 | www ...

  9. 【推荐】智慧检察公益诉讼辅助快检AI人工智能大数据平台解决方案合集(共183份,928M)

    [推荐]智慧检察公益诉讼辅助快检AI人工智能大数据平台解决方案,检务保障系统,整体解决方案合集,公益诉讼方案,可视化检察管理,概要详细设计交付验收模板. 下载地址:https://download.c ...

最新文章

  1. (C++)输入10个整数,将其中最小的数与第一个数对换,把最大的数与最后一个数对换。要求用3个函数实现,分别为输入10个数、进行处理、输出10个数。要求使用指针的方法进行处理。
  2. 如何解决Win10不能新建项目的问题?
  3. PHP的CI框架流程基本熟悉
  4. php 图片上传 水印,PHP - 图片上传并添加水印
  5. .NETCore3.1中的Json互操作最全解读-收藏级
  6. 常用的C#正则表达式! [转]
  7. SpringMVC连接MongoDB操作数据库
  8. jQuery插件编写,
  9. css让image不改变大小_如何改变图片大小
  10. 张一鸣:关于创业的4点感悟
  11. stm32 RO RW ZI
  12. cxxxxx和xxxxx.h的区别
  13. List集合和ArrayList集合源码
  14. python实现K-means多维数据聚类代码
  15. 悼念512汶川大地震遇难同胞——一定要记住我爱你
  16. ubuntu源无法下载
  17. 更智能!AIRIOT加速煤炭行业节能减排升级
  18. lisp封装为vlx方法_将VLDCL的FAS编译进VLX
  19. 第二章 沟通的障碍
  20. 程序员小灰2020年整理

热门文章

  1. notepad批量转换文件编码utf8、gbk
  2. Quartus-原理图文件转换Verilog语言文件
  3. 东莞市政府补贴1.5亿,推动免费WiFi建设!
  4. 如何做好企业并购中的文化融合
  5. 2022-2027年中国牙科医院行业市场深度分析及投资战略规划服告
  6. 全球及中国牙科蜡分离剂行业研究及十四五规划分析报告
  7. 干干干干干干干干干干干干干干干干干干干干干干干干干干干干干干干干干干干干干干干干干干干干干干干干干干干干干干干干干干干干干干干货
  8. 皮尔逊积矩相关系数和显著性matlab,Excel 应用RSQ函数计算Pearson乘积矩相关系数的平方...
  9. 加码自动驾驶,四维图新开启长期战争
  10. 降薪也要跳槽,是傻还是“佛系”?