写给大数据开发初学者的话4
见:http://lxw1234.com/archives/2016/11/795.htm
如果你已经按照《写给大数据开发初学者的话3》中第五章和第六章的流程认真完整的走了一遍,那么你应该已经具备以下技能和知识点:
- 为什么Spark比MapReduce快。
- 使用SparkSQL代替Hive,更快的运行SQL。
- 使用Kafka完成数据的一次收集,多次消费架构。
- 自己可以写程序完成Kafka的生产者和消费者。
从前面的学习,你已经掌握了大数据平台中的数据采集、数据存储和计算、数据交换等大部分技能,而这其中的每一步,都需要一个任务(程序)来完成,各个任务之间又存在一定的依赖性,比如,必须等数据采集任务成功完成后,数据计算任务才能开始运行。如果一个任务执行失败,需要给开发运维人员发送告警,同时需要提供完整的日志来方便查错。
第七章:越来越多的分析任务
不仅仅是分析任务,数据采集、数据交换同样是一个个的任务。这些任务中,有的是定时触发,有点则需要依赖其他任务来触发。当平台中有几百上千个任务需要维护和运行时候,仅仅靠crontab远远不够了,这时便需要一个调度监控系统来完成这件事。调度监控系统是整个数据平台的中枢系统,类似于AppMaster,负责分配和监控任务。
7.1 Apache Oozie
1. Oozie是什么?有哪些功能?
2. Oozie可以调度哪些类型的任务(程序)?
3. Oozie可以支持哪些任务触发方式?
4. 安装配置Oozie。
7.2 其他开源的任务调度系统
Azkaban:
https://azkaban.github.io/
light-task-scheduler:
https://github.com/ltsopensource/light-task-scheduler
Zeus:
https://github.com/alibaba/zeus
等等……
另外,我这边是之前单独开发的任务调度与监控系统,具体请参考《大数据平台任务调度与监控系统》.
如果你认真完成了上面的学习和实践,此时,你的”大数据平台”应该是这样的:
第八章:我的数据要实时
在第六章介绍Kafka的时候提到了一些需要实时指标的业务场景,实时基本可以分为绝对实时和准实时,绝对实时的延迟要求一般在毫秒级,准实时的延迟要求一般在秒、分钟级。对于需要绝对实时的业务场景,用的比较多的是Storm,对于其他准实时的业务场景,可以是Storm,也可以是Spark Streaming。当然,如果可以的话,也可以自己写程序来做。
8.1 Storm
1. 什么是Storm?有哪些可能的应用场景?
2. Storm由哪些核心组件构成,各自担任什么角色?
3. Storm的简单安装和部署。
4. 自己编写Demo程序,使用Storm完成实时数据流计算。
8.2 Spark Streaming
1. 什么是Spark Streaming,它和Spark是什么关系?
2. Spark Streaming和Storm比较,各有什么优缺点?
3. 使用Kafka + Spark Streaming,完成实时计算的Demo程序。
如果你认真完成了上面的学习和实践,此时,你的”大数据平台”应该是这样的:
以下章节正在整理中,请持续关注 lxw的大数据田地
第九章:我的数据要对外
第十章:牛逼高大上的机器学习
写给大数据开发初学者的话1
写给大数据开发初学者的话2
第三章:把别处的数据搞到Hadoop上
第四章:把Hadoop上的数据搞到别处去
写给大数据开发初学者的话3
第五章:快一点吧,我的SQL
第六章:一夫多妻制
写给大数据开发初学者的话4
第七章:越来越多的分析任务
第八章:我的数据要实时
写给大数据开发初学者的话5
第九章:我的数据要对外
第十章:牛逼高大上的机器学习
写给大数据开发初学者的话4相关推荐
- 一文读懂大数据平台——写给大数据开发初学者的话!
一文读懂大数据平台--写给大数据开发初学者的话! 文|miao君 导读: 第一章:初识Hadoop 第二章:更高效的WordCount 第三章:把别处的数据搞到Hadoop上 第四章:把Hado ...
- 写给大数据开发初学者的话 | 附教程
导读: 第一章:初识Hadoop 第二章:更高效的WordCount 第三章:把别处的数据搞到Hadoop上 第四章:把Hadoop上的数据搞到别处去 第五章:快一点吧,我的SQL 第六章:一夫多妻制 ...
- 写给大数据开发初学者的话
PS:原文分为五个章节,这里直接合并为一篇文章,原文地址:http://lxw1234.com/archives/2016/11/779.htm 经常有初学者在博客和QQ问我,自己想往大数据方向发展, ...
- 写给大数据开发初学者的话5
见:http://lxw1234.com/archives/2017/01/832.htm 至此,你的大数据平台底层架构已经成型了,其中包括了数据采集.数据存储与计算(离线和实时).数据同步.任务调度 ...
- 写给大数据开发初学者的话3
前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家.点击跳转到教程. 如果你已经按照<写给大数据开发初学者的话2>中第三章和第四章的流程认真完整的走了一遍,那 ...
- 写给大数据开发初学者的话2
见 : http://lxw1234.com/archives/2016/11/782.htm 如果你已经按照<写给大数据开发初学者的话>中第一章和第二章的流程认真完整的走了一遍,那么你应 ...
- 大数据开发初学者学习路线
目录 前言 导读: 第一章:初识Hadoop 第二章:更高效的WordCount 第三章:把别处的数据搞到Hadoop上 第四章:把Hadoop上的数据搞到别处去 第五章:快一点吧,我的SQL 第六章 ...
- 大数据开发初学者学习路线_初学者的Web开发路线图
大数据开发初学者学习路线 This beginner's roadmap lays out all the basics for web development. We're going to go ...
- 写给大数据初学者的话——转自lxw的大数据田地
原文地址:http://lxw1234.com/archives/2016/11/779.htm 导读: 第一章:初识Hadoop 第二章:更高效的WordCount 第三章:把别处的数据搞到Hado ...
最新文章
- MVC开发Markdown编辑器(1)
- golang goroutine 协程原理
- boot界面上下键调节键不能动_手机音量键还有这5大作用,你知道几条?
- Ajax-基础篇(02)
- 程 序 测 试 规 范
- 08.实例方法和类方法的区别与及工厂方法
- 使用大量数据提高算法性能的前提条件
- Tools_Procexp找文件被哪个进程占用
- 图解MongoChef的安装步骤
- IDEA的short command line 的作用
- Dev5.4.0由于与64位的版本不兼容的问题解决方案
- 提供AlTi5B催化富铝合金水解产氢材料/Ru/Ce(OH)CO3纳米材料/Al-Ga-Mg-Sn多元铝合金
- matlab费曼编码输入,多点格林函数数值积分(费曼参数积分)的程序分析及应用
- Mono.Cecil FAQ文档翻译
- 7kyu Jaden Casing Strings
- [BZOJ2177][最小/最大(曼哈顿距离)生成树]曼哈顿最小生成树
- 小众但口碑好的便签软件
- 计挑赛初赛试题(2020)(一)
- java-Map接口
- 嘉靖王朝最大的一出闹剧和惨剧——大礼仪之争
热门文章
- JAVA-入门(内含jdk配置)
- mongo更新数组字段_更新mongodb中嵌套数组中的几个字段(使用pymongo)
- 【LightOJ - 1104】Birthday Paradox(概率,思维)
- 【蓝桥杯官网试题 - 基础练习】 矩形面积交 (几何)
- 【 CodeForces - 1060B 】Maximum Sum of Digits(思维,构造)
- php百度搜索框代码,基于jquery的仿百度搜索框效果代码_jquery
- java redis 重连_突破Java面试(23-4) - Redis 复制原理
- C++ 类的知识 | 构造函数再探、匿名对象、友元函数、内部类、类的const成员、类的static成员
- 函数重载、引用再探、内联函数
- leetcode96. 不同的二叉搜索树 动归vs数学?