为什么要做骑象人–解锁Hadoop高薪之路

1.数据也疯狂

数据和每个人甚至是每个时代都息息相关，即使你穿越到人类才刚刚学会使用工具的石器时代，假如你就是那个手握石斧，躲在草丛之后窥视一群肥羊的原始人，你都要在心理盘算着这样一堆数据，我已经2天没吃饭了，以现在的体力，我的奔跑速度只能抓到羊群中那只最小的羊，这只羊大约有30斤，我家里一家老小共5人，追到这只肥羊省着点吃，可以吃上3天…假如你还是一个喜欢记录的原始人，篱笆上的绳结记录着你捕到的肥羊数，家里的墙壁上还画着一条条线，记录着在没有羊吃的日子里，你欠邻居的肥羊数…

你说，你不喜欢数羊，一数羊，你就犯困，好吧，那让我们穿越回来好了。现在是7:30分，你已经开始挤地铁去公司了，今天是星期一，上班的人很多，刚刚过去的那趟地铁，你没有挤上去，在距离门口2米的时候，地铁关门的声音就响起来了，你拿出手机拍了几张挤地铁的照片发到朋友圈抱怨一下今天的人真多。下一趟地铁3分钟后到达，这时候，你瞟了一眼你的运动手环，你现在已经走了6851步，消耗了252卡路里，相当于1个汉堡热量，地铁进站了，你挤上了地铁，随手拍了一个长度15秒的视频，发到抖音上，记录一下地铁关门的一瞬间，那些即将上班迟到的人生无可恋的表情，在配上一段幸灾乐祸的音乐。忽然想起了，今天是618，你打开京东，你心仪已久的那款运动相机开始降价了，赶紧加入购物车，你发现购物车下方，又为你推荐了运动相机支架、充电电池，运动相机收纳包，甚至你喜欢吃的辣条也在里面…

这些就是你正在产生的数据，朋友圈的照片，抖音上的小视频，运动手环记录的步数，电商网站上的购买商品，搜索记录等等。而这仅仅是你一个人，在上班路上所产生的数据。很多终端都在贡献数据，包括交通路口摄像头的监控数据，机场安检时，你刷脸的数据等等，根据 Google 的报告，从人类文明产生以来到 2003 年为止，人类产生了 5 艾字节的数据，而现在人类在互联网上平均每 2 天就产生大约 5 艾字节的数据。那么5艾字节有多大呢，大约相当于14亿张DVD光盘的存储量（每张DVD光盘大约4G），如果每张光盘的厚道按1.5毫米计算，那么14亿张DVD叠起来厚度有2100公里，这大约是从深圳自驾到北京的距离。

而这些数据很大一部分都是传统工具无法处理的非结构化数据。

从上图可以看出，人类产生的数据包括结构化数据和非结构化数据，从2012年以来，非结构化数据呈现出爆炸式增长，而到2020年数据总量将达到50000艾字节，而其中非结构化数据将达到10000艾字节。

如此疯狂增长的数据也给我们带来了无限商机。

2.指数级增长的大数据市场

现在的企业已经慢慢的意识到大数据能够给它们带来更多的商机。正如前面你在京东上购买运动相机的例子中所提到的，当你把运动相机添加到购物车的时候，京东的大数据平台会根据推荐算法，为你推荐运动相机支架，甚至根据你的搜索记录，购买记录顺便向你推荐了一包辣条，通过一台运动相机的销售，带来了相机支架甚至辣条的销售机会。你在抖音上查看小视频的时候，也会带来某款网红商品的销售机会。

而在印度，数据分析领域已经达到8倍的增长。根据NASSCOM（印度软件和服务业企业行业协会）的数据，到2025年将从20亿美元增长到160亿美元。大数据市场来势凶猛。

随着大数据市场的增长，对大数据技术的需求也在增长。而Hadoop作为大数据处理平台，因为其开源，经济，可靠，可扩展等众多优势，而被众多厂商使用。

下图我们可以看到Hadoop的市场增长情况：

从2013年到2020年Hadoop市场的年综合增长率达到58.2%。从2012年的15亿美元增长到502亿美元。

3.为什么会是Hadoop

Hadoop最初用于Nutch搜索引擎项目，该项目由Doug Cutting带头开发，因此 Doug Cutting 也被称为
Hadoop之父。 Hadoop的名字源于Doug Cutting儿子的一个玩偶的名字，当时Doug Cutting想为自己的项目起一个名字，既要简单，又要朗朗上口，而小孩子是起这类名字的天才。刚好Doug Cutting的儿子有一个黄色的小象玩偶，儿子称它为Hadoop，因此，Doug Cutting就把这个名字借用了过来。

由于Hadoop作为一个开源项目，而且能够运行在普通硬件上，因此降低了企业的使用成本，越来越多的企业开始使用Hadoop，没想到这个曾经的玩偶小象，现在成为大数据领域所向披靡的大象。

当然，Hadoop的流行还有以下原因：

3.1 健壮的Hadoop生态系统

Hadoop具备非常健壮而丰富的生态系统，从而服务于各类组织。对于初创企业，电信，金融等各行各业都需要hadoop去解决它们的业务需求。

Hadoop生态系统包含了很多组件，包括像MapReduce，Hive，HBase，Zookeeper，Apache Pig等等。这些组件所支持的应用非常广泛。我们可以使用Map-Reduce来基于大数据进行聚合及汇总。Hive是基于HDFS上层的数据仓库项目。它提供了类似SQL这样的数据查询和分析接口。HBase是一个NoSQL数据库。它提供了实时读写大数据集的能力。它天生就和Hadoop集成在一起。Pig是一个用在Hadoop上面的高级脚本语言。它把数据分析问题描述为数据流。使用Pig我们可以完成对数据的所有操控。Zookeeper是一个开源的服务它在各种分布式过程之间做协调调度。分布式应用程序使用zookeeper存储和更新重要的配置信息。

3.2 研究工具

到每年年底正是忙着写年终总结的时候，相信很多人也会收到一些电商网站对你的总结，比如，这一年来，你购买了哪些商品，最大的一笔支出是什么时候，如果你买了很多户外运动商品，它会给你打上运动达人的标签，如果你购买的厨房用品很多，你会被贴上顾家一族的标签等等，这些正是电商平台应用Hadoop为用户画像来分析用户的购买行为，利用这些分析结果，它们可以更贴近客户，精确推销自己的商品。

Hadoop正在变成强大的研究工具，它有助于一个组织发现它们的业务问题。Hadoop帮助它们从事研究和开发工作。应用大数据技术能够改进运营效率增加收入。它可以让你更好的理解业务数据而促进业务增长。通过大数据技术和IT技术，不同公司之间的信息交流和发布更便捷，一些组织可以从它们的客户那里搜集数据来发展它们的业务。

3.3 易用

Hadoop的创建者使用Java语言开发了Hadoop，而Java拥有最大的开发者社区，因此，Hadoop很容易被程序开发者所采用。当然，你也可以采用其他语言，比如C，C++，Python，Perl，Ruby等等。如果你熟悉SQL，使用起HIVE将非常轻松。如果你熟悉脚本，那么PIG就非常适合你。

Hadoop在后端并行处理所有数据。在编码过程中，你不必担心分布式处理的复杂性。我们只需要编写驱动程序，mapper和Reducer功能。Hadoop框架会为我们考虑在分布式环境下数据该如何存储和处理。在Hadoop中引入Spark之后，生态圈的编码变得更加轻松。在MapReduce中，我们需要编写上千行的代码，而在Spark中，实现同样的功能只需要寥寥几行代码。

3.4 Hadoop无处不在

现在几乎没有不用到大数据的行业。大数据几乎覆盖到了所有领域，比如，医疗，零售，政府，银行，媒体，运输，自然研究等等。人们的大数据意识也在进步，人们开始意识到数据的强大力量。Hadoop框架能够驾驭数据为业务服务。

世界上所有的公司都想试图访问各类社交信息。它们这样做的目的无非是想提高它们的业绩获得更高的利润。很多组织面临从种类繁杂的数据中提前有价值信息的问题。Hadoop有能力为研究领域，业务市场等带来革命性的变革。

很多知名公司都雇佣Hadoop专家，因此学习Hadoop有助于你实现进入这些知名公司的梦想。

3.5 技术成熟

Hadoop与时俱进，新版本的Hadoop（Hadoop 3.0）已经进入市场。它已经和HortonWorks, Tableau, MapR进行合作，甚至BI专家也开始青睐它。Spark，Flink等也进入大数据市场，这些技术加速了数据处理速度。Hadoop为这些技术提供了健壮的数据存储能力。

Spark的到来促进了Hadoop生态系统，强化了Hadoop的处理能力。Spark的建立者设计Spark能够工作在Hadoop分布式存储系统HDFS之上。Spark也可以工作在HBase以及Amazon的S3之上。即使你使用Hadoop1.x，你也可以从Spark中受益。

最新的Flink技术也对Hadoop兼容。你不必改动任何一行代码就可以在Flink中使用所有MapReduce API。Flink也支持Hadoop原生数据类型，比如，Writable和WritableComparable。我们可以在Flink程序中使用Hadoop功能。我们可以在Flink中混入Hadoop的功能。

4. 是时候该跨上这头大象了

4.1 Hadoop专业人员缺乏

麦肯锡全球研究院的研究预测在未来6年，仅在美国本土就面临缺乏14万至19万大数据人才，同时具备大数据分析能力的管理人员和分析师达到150万人缺口。

Hadoop市场持续增长正在为我们创造更多的工作机会。很多人都缺乏适应Hadoop工作岗位的专业技能。此时更需要我们抓住这个机遇掌握Hadoop技能，你也将有机会成为Hadoop专家，为你的职业生涯突破发展瓶颈。

4.2 Hadoop为你而来

越早学习Hadoop，你就越早精通此项技术，从而获得高薪工作。IT从业者可以通过Java或者python编程学习MapReduce，而那些擅长使用脚本的人可以学习Hadoop生态系统中的Pig。而对于了解SQL的数据库人员，Hive将是他们的最佳选择。如果你是下面的人员，你可以轻松学习Hadoop技术：

IT专业
测试专业
计算机维护和支持工程师
数据库管理员
刚毕业准备进入大数据领域的学生
数据仓库专业
项目经理

4.3.挑战高薪

下图是在51job上搜索hadoop职位的情况：

我们发现在深圳近一个月内hadoop相关岗位的招聘需求为1037个职位，而且起薪在1万元以上的岗位比比皆是。而也有网站统计过北京的hadoop的薪水情况，其Hadoop工程师的平均工资竟高达2万元以上：

掌握Hadoop技能，你的年薪会高出其他职位薪水的95%。很多人都希望理解数据，能够可视化地查看数据。出于这样的原因，拥有数据分析技能的人更是急需人才。

4.4.Hadoop有更好的职业发展空间

Hadoop在处理各种数据时表现非常优秀。我们拥有众多Hadoop生态组件，它们提供了批量处理，流式处理，机器学习等等各种各样的能力。学习这些技术将给你开启通向各种职业的通道，比如：

大数据架构师
Hadoop开发工程师
数据科学家
Hadoop管理员
数据分析师

通过学习Hadoop你可以进入当今IT最热门的领域。甚至一些新人通过恰当的培训和辛勤的工作都可以跨入这个领域。只要你有决心，你就可以成为Hadoop专家，而几乎很多公司，包括教育，医疗，保险等等各个领域都需要Hadoop专家。

雇佣Hadoop人员的大数据公司

未来将有更多的公司为适应它们的业务需求而采用大数据技术。下面是对美国各行业采用大数据技术的调查结果：

12%的企业正在考虑使用大数据
17%的企业大数据应用处在试验阶段
67%的企业已经在产生中使用了大数据

从上面的统计中，我们已经清楚的知道Hadoop正在被迅速采用。这些企业将需要大量高薪聘请Hadoop专业人才。企业如果不掌握大数据的力量将没有竞争优势。

5.为什么开设这个专栏

对于大数据的入门者，很多人想了解Hadoop这头大象，由于Hadoop体系庞大，最终犹如盲人摸象，不得全貌。而对于有着多年大数据使用经验的人来说，尽管可以驾驭这头大象，但仍旧经常遇到困惑，很想知道如此笨拙的大象也能够翩翩起舞背后的秘密。那么本专栏正是为您而来。

相信大家在学习Hadoop的时候，看过很多书，但总有一些疑问和不解，似乎有那么一点点窗户纸就是没有被捅破，因此，学习的效率并不高，或者总是不能从深层解释Hadoop的各种原则。《大象为什么会跳舞–Hadoop技术探秘》编写的目的就是要解决您在学习Hadoop中遇到的这些问题。

本专栏向您介绍了Hadoop为什么会成为流行的大数据处理平台，Hadoop具有怎样的特性，并且详细介绍了Hadoop的生态圈组件，Hadoop内部工作原理，从实用的角度出发介绍了Hadoop常用命令，Hadoop单点安装，Hadoop集群安装。
本专栏还探讨了集群高可用、作业调度、分布式缓存、自动故障转移等内容，最后对Hadoop2.x和Hadoop3.x做出对比。

正如标题所揭示的一样，本专栏在介绍概念的同时，重点在向您说明为什么会这样，相信通过本专栏，您会对Hadoop有更清晰的认识。

本专栏适合那些对大数据感兴趣的读者，并且对Hadoop技术有过初步的了解，旨在向您梳理和解释Hadoop的一些关键术语和技术难点，其读者定位如下：

Hadoop中高级开发及运维人员
数据库技术从业者
准备进入大数据领域的大学生
项目经理
测试专业

5.2 专栏特色

本专栏在向您介绍具体概念的同时，重点关注为什么，让您理解技术背后的原因
本专栏不准备代替全面的Hadoop技术教程，而是对Hadoop的关键概念进行梳理，让您对Hadoop的认知更加清晰
本专栏每一节都是一个技术专题，每个专题尽量以图文方式向您解释关键内容，如果您准备进行Hadoop方面的求职面试，浏览各个技术专题将对您的帮助很大
本专栏对比了Hadoop2.x和Hadoop3.x，为您过渡到下一代Hadoop提供基本的参考

6.技术大纲

第一部分：大象为什么会跳舞

本部分向您介绍了Hadoop的关键特性，并详细介绍了Hadoop生态圈的各个组件，为今后的Hadoop学习指明方向，您需要重点掌握Hadoop架构，Hadoop是如何工作的，本部分还向您介绍了Hadoop的设计原则，这会给您后续学习Hadoop带来重要的启发。

第二部分：庖丁解象

本部分涉及到Hadoop的高可用，作业调度，分布式缓存，自动故障转移，集群设计原则等众多高级话题，这些话题也是Hadoop技术面试过程中常见的问题，很多书籍对这部分内容的解释没有很好的归纳总结，本部分将为您捅破这层窗户纸。

第三部分：分而治之

古时候，人们用牛来拉重物，当一头牛拉不动一根圆木的时候，他们不曾想过培育个头更大的牛。同样，我们也不需要尝试更大的计算机，而是应该开发更多的计算系统。

——格蕾丝·霍珀

我们套用软件工程第一夫人的话，当数据量非常大时，我们不是培育一头更强大的象，这样的大象很难培育，或者说成本很高，我们应该使用一群象来分食这些数据。这就是分而治之的原则，这正是Hadoop中MapReduce框架的基本思路，因此，我们在这部分探讨MapReduce编程模型，我们将理解什么是MapReduce，以及它是如何工作的，Mapper，Reducer的各个阶段，从而对分而治之思想有更深层次的认识。

第四部分：飞象的秘密

本部分重点关注如何Hadoop的性能问题，从数据本地性到推测执行、分布式缓存以及作业优化、性能调优，最后向您介绍了Hadoop3的关键特性，对hadoop2.x和3.x进行了对比，并为您分析了Hadoop3的优劣，也为您今后学习Hadoop的新版本打下基础。

7. 寄语

Hadoop已经不再是曾经的那个玩偶，如今已经长成一头大象，其体系非常庞大，相信本专栏向您介绍的关键技术话题，给您带来启发，使您不再有盲人摸象的感觉，这就是本专栏的初衷。

那么，即将做为骑象人的您，让我们扬鞭启程吧！

00-为什么要做骑象人--解锁Hadoop高薪之路相关推荐

31 《象与骑象人:幸福的假设》 -豆瓣评分8.4
与您一起终身学习~ border="0" width="330" height="86" src="//music.163.com ...
《象与骑象人》总结一
我们是从动物进化而来的,最初人类和动物一样,只有最基本的情绪模块,条件反射模块,本能模块,而后进化出大脑前额皮层,该区域不像其他区域(如杏仁核负责记忆,下丘脑负责情绪),该区域没有实际的作用,但是 ...
《象与骑象人听书笔记》
人们会因为偶尔的小毛病而异常难受,而对大多数平常日子里的活蹦乱跳却毫无知觉. 现代科学发现佛陀"放下身外之物"的观点也不够全面,因为确实有少数的身外之物能够给我们带来持续的幸福,值 ...
自身的优势--抱怨，读《象与骑象人》有感
一.为什么我们会不幸福: 二.追求幸福的科学方法是什么: 三.如何超越自我的局限,实现人生的升华. 一.为什么我们会不幸福 1. 人无法完全控制自己的行为人的心理可分为两半,一半像一头桀骜不驯的大象 ...
九月书单3期-《终身成长》《象与骑象人》《1Q84》《法国革命史》
1 终身成长固定型思维和成长型思维是人的两种思维模式,它们最大的区别是决定人对于挑战和失败的看法,我们每个人都要学着摆脱固定思维的桎梏,做一个成长型思维的人,不断去学习,接受新的事务,努力提高自己, ...
python 吧-做为IT人的你趁年轻学点Python吧
曾几何时,流行过这么一句话:再不疯狂我们就老了!这是青春的再召唤,还是献给青春的挽歌,个中滋味,也许只有内心自知! 在AI蓬勃发展的今天,IT巨头都在悄悄布局,做为IT人的你,是否也准备好了?虽说Py ...
做项目管理PM人的特质
01 所以,第一想说的是,做PM的人,必须很勤劳,能吃苦,简称吃苦耐劳. 然后,做PM的人,性格要好点,要开朗.因为每天碰的钉子会很多,性格如果内向的,不会发泄,容易得抑郁症,不建议做这个工作. 接着 ...
做科研没人带，发不了文章怎么办？
为什么要早点发论文? 首先,论文重要,很重要.即使大家都在呼吁要打破"唯论文"论,这也不代表论文就不重要了. 央视网评清华大学宣布"申请硕士学位不必发表学术论文" ...
做成熟的人，做高效能的人
简介高效能人士的七个习惯积极主动以终为始要事第一双赢思维知彼解己统合综效不断更新其中,积极主动.以终为始和要事第一主要讲的是个人领域,剩下的四个习惯是人际交往领域. 习惯一:积极主动 ...

00-为什么要做骑象人--解锁Hadoop高薪之路