见:http://lxw1234.com/archives/2016/11/795.htm

如果你已经按照《写给大数据开发初学者的话3》中第五章和第六章的流程认真完整的走了一遍,那么你应该已经具备以下技能和知识点:

  1. 为什么Spark比MapReduce快。
  2. 使用SparkSQL代替Hive,更快的运行SQL。
  3. 使用Kafka完成数据的一次收集,多次消费架构。
  4. 自己可以写程序完成Kafka的生产者和消费者。

从前面的学习,你已经掌握了大数据平台中的数据采集、数据存储和计算、数据交换等大部分技能,而这其中的每一步,都需要一个任务(程序)来完成,各个任务之间又存在一定的依赖性,比如,必须等数据采集任务成功完成后,数据计算任务才能开始运行。如果一个任务执行失败,需要给开发运维人员发送告警,同时需要提供完整的日志来方便查错。

第七章:越来越多的分析任务

不仅仅是分析任务,数据采集、数据交换同样是一个个的任务。这些任务中,有的是定时触发,有点则需要依赖其他任务来触发。当平台中有几百上千个任务需要维护和运行时候,仅仅靠crontab远远不够了,这时便需要一个调度监控系统来完成这件事。调度监控系统是整个数据平台的中枢系统,类似于AppMaster,负责分配和监控任务。

7.1 Apache Oozie

1.    Oozie是什么?有哪些功能?
2.    Oozie可以调度哪些类型的任务(程序)?
3.    Oozie可以支持哪些任务触发方式?
4.    安装配置Oozie。

7.2 其他开源的任务调度系统

Azkaban:

https://azkaban.github.io/

light-task-scheduler:

https://github.com/ltsopensource/light-task-scheduler

Zeus:

https://github.com/alibaba/zeus

等等……
另外,我这边是之前单独开发的任务调度与监控系统,具体请参考《大数据平台任务调度与监控系统》.

如果你认真完成了上面的学习和实践,此时,你的”大数据平台”应该是这样的:

第八章:我的数据要实时

在第六章介绍Kafka的时候提到了一些需要实时指标的业务场景,实时基本可以分为绝对实时和准实时,绝对实时的延迟要求一般在毫秒级,准实时的延迟要求一般在秒、分钟级。对于需要绝对实时的业务场景,用的比较多的是Storm,对于其他准实时的业务场景,可以是Storm,也可以是Spark Streaming。当然,如果可以的话,也可以自己写程序来做。

8.1 Storm

1.    什么是Storm?有哪些可能的应用场景?
2.    Storm由哪些核心组件构成,各自担任什么角色?
3.    Storm的简单安装和部署。
4.    自己编写Demo程序,使用Storm完成实时数据流计算。

8.2 Spark Streaming

1.    什么是Spark Streaming,它和Spark是什么关系?
2.    Spark Streaming和Storm比较,各有什么优缺点?
3.    使用Kafka + Spark Streaming,完成实时计算的Demo程序。

如果你认真完成了上面的学习和实践,此时,你的”大数据平台”应该是这样的:

以下章节正在整理中,请持续关注 lxw的大数据田地

第九章:我的数据要对外

第十章:牛逼高大上的机器学习

写给大数据开发初学者的话1

写给大数据开发初学者的话2

第三章:把别处的数据搞到Hadoop上

第四章:把Hadoop上的数据搞到别处去

写给大数据开发初学者的话3

第五章:快一点吧,我的SQL

第六章:一夫多妻制

写给大数据开发初学者的话4

第七章:越来越多的分析任务

第八章:我的数据要实时

写给大数据开发初学者的话5

第九章:我的数据要对外

第十章:牛逼高大上的机器学习

写给大数据开发初学者的话4相关推荐

  1. 一文读懂大数据平台——写给大数据开发初学者的话!

     一文读懂大数据平台--写给大数据开发初学者的话! 文|miao君 导读: 第一章:初识Hadoop 第二章:更高效的WordCount 第三章:把别处的数据搞到Hadoop上 第四章:把Hado ...

  2. 写给大数据开发初学者的话 | 附教程

    导读: 第一章:初识Hadoop 第二章:更高效的WordCount 第三章:把别处的数据搞到Hadoop上 第四章:把Hadoop上的数据搞到别处去 第五章:快一点吧,我的SQL 第六章:一夫多妻制 ...

  3. 写给大数据开发初学者的话

    PS:原文分为五个章节,这里直接合并为一篇文章,原文地址:http://lxw1234.com/archives/2016/11/779.htm 经常有初学者在博客和QQ问我,自己想往大数据方向发展, ...

  4. 写给大数据开发初学者的话5

    见:http://lxw1234.com/archives/2017/01/832.htm 至此,你的大数据平台底层架构已经成型了,其中包括了数据采集.数据存储与计算(离线和实时).数据同步.任务调度 ...

  5. 写给大数据开发初学者的话3

    前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家.点击跳转到教程. 如果你已经按照<写给大数据开发初学者的话2>中第三章和第四章的流程认真完整的走了一遍,那 ...

  6. 写给大数据开发初学者的话2

    见 : http://lxw1234.com/archives/2016/11/782.htm 如果你已经按照<写给大数据开发初学者的话>中第一章和第二章的流程认真完整的走了一遍,那么你应 ...

  7. 大数据开发初学者学习路线

    目录 前言 导读: 第一章:初识Hadoop 第二章:更高效的WordCount 第三章:把别处的数据搞到Hadoop上 第四章:把Hadoop上的数据搞到别处去 第五章:快一点吧,我的SQL 第六章 ...

  8. 大数据开发初学者学习路线_初学者的Web开发路线图

    大数据开发初学者学习路线 This beginner's roadmap lays out all the basics for web development. We're going to go ...

  9. 写给大数据初学者的话——转自lxw的大数据田地

    原文地址:http://lxw1234.com/archives/2016/11/779.htm 导读: 第一章:初识Hadoop 第二章:更高效的WordCount 第三章:把别处的数据搞到Hado ...

最新文章

  1. MVC开发Markdown编辑器(1)
  2. golang goroutine 协程原理
  3. boot界面上下键调节键不能动_手机音量键还有这5大作用,你知道几条?
  4. Ajax-基础篇(02)
  5. 程 序 测 试 规 范
  6. 08.实例方法和类方法的区别与及工厂方法
  7. 使用大量数据提高算法性能的前提条件
  8. Tools_Procexp找文件被哪个进程占用
  9. 图解MongoChef的安装步骤
  10. IDEA的short command line 的作用
  11. Dev5.4.0由于与64位的版本不兼容的问题解决方案
  12. 提供AlTi5B催化富铝合金水解产氢材料/Ru/Ce(OH)CO3纳米材料/Al-Ga-Mg-Sn多元铝合金
  13. matlab费曼编码输入,多点格林函数数值积分(费曼参数积分)的程序分析及应用
  14. Mono.Cecil FAQ文档翻译
  15. 7kyu Jaden Casing Strings
  16. [BZOJ2177][最小/最大(曼哈顿距离)生成树]曼哈顿最小生成树
  17. 小众但口碑好的便签软件
  18. 计挑赛初赛试题(2020)(一)
  19. java-Map接口
  20. 嘉靖王朝最大的一出闹剧和惨剧——大礼仪之争

热门文章

  1. JAVA-入门(内含jdk配置)
  2. mongo更新数组字段_更新mongodb中嵌套数组中的几个字段(使用pymongo)
  3. 【LightOJ - 1104】Birthday Paradox(概率,思维)
  4. 【蓝桥杯官网试题 - 基础练习】 矩形面积交 (几何)
  5. 【 CodeForces - 1060B 】Maximum Sum of Digits(思维,构造)
  6. php百度搜索框代码,基于jquery的仿百度搜索框效果代码_jquery
  7. java redis 重连_突破Java面试(23-4) - Redis 复制原理
  8. C++ 类的知识 | 构造函数再探、匿名对象、友元函数、内部类、类的const成员、类的static成员
  9. 函数重载、引用再探、内联函数
  10. leetcode96. 不同的二叉搜索树 动归vs数学?