写给大数据开发初学者的话3
前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到教程。
如果你已经按照《写给大数据开发初学者的话2》中第三章和第四章的流程认真完整的走了一遍,那么你应该已经具备以下技能和知识点:
- 知道如何把已有的数据采集到HDFS上,包括离线采集和实时采集;
- 你已经知道sqoop(或者还有DataX)是HDFS和其他数据源之间的数据交换工具;
- 你已经知道flume可以用作实时的日志采集;
从前面的学习,对于大数据平台,你已经掌握的不少的知识和技能,搭建Hadoop集群,
把数据采集到Hadoop上,使用Hive和MapReduce来分析数据,把分析结果同步到其他数据源。
接下来的问题来了,Hive使用的越来越多,你会发现很多不爽的地方,特别是速度慢,
大多情况下,明明我的数据量很小,它都要申请资源,启动MapReduce来执行。
第五章:快一点吧,我的SQL
其实大家都已经发现Hive后台使用MapReduce作为执行引擎,实在是有点慢。
因此SQL On Hadoop的框架越来越多,按我的了解,最常用的按照流行度依次为SparkSQL、Impala和Presto.
这三种框架基于半内存或者全内存,提供了SQL接口来快速查询分析Hadoop上的数据。关于三者的比较,请参考1.1.
我们目前使用的是SparkSQL,至于为什么用SparkSQL,原因大概有以下吧:
- 使用Spark还做了其他事情,不想引入过多的框架;
- Impala对内存的需求太大,没有过多资源部署;
5.1 关于Spark和SparkSQL
什么是Spark,什么是SparkSQL。
Spark有的核心概念及名词解释。
SparkSQL和Spark是什么关系,SparkSQL和Hive是什么关系。
SparkSQL为什么比Hive跑的快。
5.2 如何部署和运行SparkSQL
Spark有哪些部署模式?
如何在Yarn上运行SparkSQL?
使用SparkSQL查询Hive中的表。
PS: Spark不是一门短时间内就能掌握的技术,因此建议在了解了Spark之后,可以先从SparkSQL入手,循序渐进。
关于Spark和SparkSQL,可参考 http://lxw1234.com/archives/category/spark
第六章:一夫多妻制
请不要被这个名字所诱惑。其实我想说的是数据的一次采集、多次消费。
在实际业务场景下,特别是对于一些监控日志,想即时的从日志中了解一些指标(关于实时计算,后面章节会有介绍),这时候,从HDFS上分析就太慢了,尽管是通过Flume采集的,但Flume也不能间隔很短就往HDFS上滚动文件,这样会导致小文件特别多。
为了满足数据的一次采集、多次消费的需求,这里要说的便是Kafka。
6.1 关于Kafka
什么是Kafka?
Kafka的核心概念及名词解释。
6.2 如何部署和使用Kafka
使用单机部署Kafka,并成功运行自带的生产者和消费者例子。
使用Java程序自己编写并运行生产者和消费者程序。
Flume和Kafka的集成,使用Flume监控日志,并将日志数据实时发送至Kafka。
关于Kafka,可以参考 http://lxw1234.com/archives/category/kafka
这时,使用Flume采集的数据,不是直接到HDFS上,而是先到Kafka,Kafka中的数据可以由多个消费者同时消费,其中一个消费者,就是将数据同步到HDFS。
写给大数据开发初学者的话1
写给大数据开发初学者的话2
第三章:把别处的数据搞到Hadoop上
第四章:把Hadoop上的数据搞到别处去
写给大数据开发初学者的话3
第五章:快一点吧,我的SQL
第六章:一夫多妻制
写给大数据开发初学者的话4
第七章:越来越多的分析任务
第八章:我的数据要实时
写给大数据开发初学者的话5
第九章:我的数据要对外
第十章:牛逼高大上的机器学习
写给大数据开发初学者的话3相关推荐
- 一文读懂大数据平台——写给大数据开发初学者的话!
一文读懂大数据平台--写给大数据开发初学者的话! 文|miao君 导读: 第一章:初识Hadoop 第二章:更高效的WordCount 第三章:把别处的数据搞到Hadoop上 第四章:把Hado ...
- 写给大数据开发初学者的话 | 附教程
导读: 第一章:初识Hadoop 第二章:更高效的WordCount 第三章:把别处的数据搞到Hadoop上 第四章:把Hadoop上的数据搞到别处去 第五章:快一点吧,我的SQL 第六章:一夫多妻制 ...
- 写给大数据开发初学者的话
PS:原文分为五个章节,这里直接合并为一篇文章,原文地址:http://lxw1234.com/archives/2016/11/779.htm 经常有初学者在博客和QQ问我,自己想往大数据方向发展, ...
- 写给大数据开发初学者的话5
见:http://lxw1234.com/archives/2017/01/832.htm 至此,你的大数据平台底层架构已经成型了,其中包括了数据采集.数据存储与计算(离线和实时).数据同步.任务调度 ...
- 写给大数据开发初学者的话4
见:http://lxw1234.com/archives/2016/11/795.htm 如果你已经按照<写给大数据开发初学者的话3>中第五章和第六章的流程认真完整的走了一遍,那么你应该 ...
- 写给大数据开发初学者的话2
见 : http://lxw1234.com/archives/2016/11/782.htm 如果你已经按照<写给大数据开发初学者的话>中第一章和第二章的流程认真完整的走了一遍,那么你应 ...
- 大数据开发初学者学习路线
目录 前言 导读: 第一章:初识Hadoop 第二章:更高效的WordCount 第三章:把别处的数据搞到Hadoop上 第四章:把Hadoop上的数据搞到别处去 第五章:快一点吧,我的SQL 第六章 ...
- 大数据开发初学者学习路线_初学者的Web开发路线图
大数据开发初学者学习路线 This beginner's roadmap lays out all the basics for web development. We're going to go ...
- 写给大数据初学者的话——转自lxw的大数据田地
原文地址:http://lxw1234.com/archives/2016/11/779.htm 导读: 第一章:初识Hadoop 第二章:更高效的WordCount 第三章:把别处的数据搞到Hado ...
最新文章
- vuejs滚动条_Vue.js 桌面端虚拟滚动条|vue美化滚动条VScroll
- linux磁盘虚拟化
- 利用存储过程完成定时备份数据
- I Hate It(线段树基础)
- 非常全面的Android Bitmap知识点梳理
- Hyperledger Fabric 1.2 --- Chaincode Operator 解读和测试(一)
- 【渝粤教育】国家开放大学2018年秋季 0554-21T立体构成(一) 参考试题
- 中希尔排序例题代码_【数据结构与算法】这或许是东半球分析十大排序算法最好的一篇文章...
- oracle中sequence详解
- 已解决:nginx修改上传文件大小限制
- java连接Neo4j服务器
- 禁用Chrome Frame
- JAVA 日期格式化
- Python+Webdriver实现淘宝、京东等抢单操作
- 浅析泛在电力物联网及国网公司“三型两网”战略
- 0xc0000225无法进系统_win10系统出现0xc0000225无法进入系统的恢复方法
- PMP学习考试感悟之——坚持、努力是唯一法宝
- 微信订阅号如何开通付费功能
- JS标准时间时间格式化
- 谷歌浏览器小恐龙作弊无敌代码
热门文章
- 插入法排序c语言程序,插入排序算法及C语言实现
- Spark读取HDFS上的Snappy压缩文件所导致的内存溢出问题 java.lang.OutOfMemoryError: GC overhead limit exceeded
- Python 数据分析三剑客之 Matplotlib(八):等高线 / 等值线图的绘制
- CCNA-第八篇-OSPF-上
- 【LCS系列】最长公共子序列和最长公共子串
- 【机器学习】 - 使用dlib进行人脸定位,人脸检测,给人脸图片戴口罩
- Coursera自动驾驶课程第15讲:GNSS and INS Sensing for Pose Estimation
- HTML中scr是图片的什么,HTML中关于url、scr、href的区别
- Struts2和Spring和Hibernate应用实例
- Struts1.x和Struts2.0的Action的区别