Hadoop是什么，Hadoop主要有哪几部分组成？

通俗来讲，Hadoop是由Apache软件基金会所开发出来的开放源代码分布式计算技术，是以Java语言开发，专门针对大量且结构复杂的大数据分析所设计，其目的不是为了瞬间反应、撷取和分析数据，而是通过分布式的数据处理模式，大量扫描数据文件以产生结果。其在效能与成本上均具有优势，再加上可通过横向扩充，易于应对容量增加的优点，因而备受瞩目。

Hadoop不需要使用商业服务器，在一般个人计算机上就能运转。用户可利用网络连接两台以上的电脑组成服务器群，即所谓的“丛集”，丛集内的主机会分工合作处理数据。随着需要处理的数据量越来越大，只要不断增加计算机数量，而不需修改应用程序代码，就能立即提高Hadoop的运算能力。

总而言之，Hadoop可以用更低的成本，得到更高的运算效能，提高数据分析的能力，也难怪有些人称Hadoop为大数据的救星，这说法虽然夸张，但却有几分真实，因为通过Hadoop，就算资金不够雄厚的个人或组织，也能分析大量的结构与非结构数据。

Hadoop的组成，Hadoop的组成主要分为三个部分，分别为最著名的分布式文件系统（HDFS）、MapReduce框架、储存系统（HBase）等组件。

HDFS：数据切割、制作副本、分散储存

HDFS会把一个文档切割成好几个小区块、制作副本，然后在Hadoop的服务器群集中跨多台计算机储存副本，文档副本通常预设为3份，该设定可以自行更改。除此之外，HDFS的理念是其认为移动运算到数据端通常比移动数据到运算端来得成本低，这是由于数据的位置信息会被考虑在内，因此运算作业可以移至数据所在位置。

MapReduce:拆解任务、分散处理、汇整结果

MapReduce是由Map和Reduce组成，Map为分布式计算数据，Reduce则是负责汇整Map运算完的结果并输出。由于将一份数据分成多份储存和运算，本来一台计算机的工作可以被分工合作，所以速度当然可以快很多。

更厉害的是当某副本毁损时，MapReduce还会自动侦测，改派另一个副本执行任务。因为Hadoop一般是在计算机上运转，计算机的故障率比商业服务器高出许多，所以这种容错的功能非常重要，当丛集中有计算机毁损时，才能继续执行任务。

简单来说，Hadoop借由把数据切割、分散存放和处理的方式，让丛集内每台计算机只需处理小部分的任务，大大提高了数据分析的效率，再加上可以同时处理结构和非结构的数据格式、相对便宜的建置成本及容错的特点，使之成为大数据分析很重要的技术。

HBase:分布式储存系统

HBase是Hadoop所使用的数据库，可在随机且实时地读写超大数据集时使用。HBase是一种分布式储存系统，并且具备可用性、高效能、以及容易扩充容量及效能的特性。HBase适用于在数以千计的一般等级服务器上储存PB级的数据，其中以Hadoop分布式文件系统（HDFS）为基础，提供类似Bigtable的功能，HBase同时也提供了MapReduce程序设计的功能。

Hadoop的影响力，就是说，Hadoop丛集可扩充至PB甚至是EB的容量，过去只能仰赖抽样数据进行分析的企业数据分析师及营销人员，现在能将所有相关的数据纳入一起分析，再加上处理速度与日俱进，可借由反复进行分析或测试各种不同的查询条件，进而获得过去无法取得的更有价值的洞见与信息。
大数据入门之Hadoop基础学习
http://www.duozhishidai.com/article-12891-1.html
Spark 和 Hadoop之间，主要有什么联系
http://www.duozhishidai.com/article-9781-1.html
大数据工程师培训，需要学习的有哪些课程?
http://www.duozhishidai.com/article-15081-1.html
　

多智时代-人工智能和大数据学习入门网站|人工智能、大数据、物联网、云计算的学习交流网站

Hadoop是什么，Hadoop主要有哪几部分组成？相关推荐

何时使用hadoop fs、hadoop dfs与hdfs dfs命令
hadoop fs:使用面最广,可以操作任何文件系统. hadoop dfs与hdfs dfs:只能操作HDFS文件系统相关(包括与Local FS间的操作),前者已经Deprecated,一般使用后 ...
Hadoop初级之Hadoop基本概念与应用前景
Hadoop 大数据概念大数据(big data):指无法在一定时间范围内用常规软件工具(例如java ee 中的mysql)进行捕捉.管理和处理的数据集合,是需要新处理模式才能具有更强的决策力.洞 ...
在Ubuntu下创建hadoop组和hadoop用户
一.在Ubuntu下创建hadoop组和hadoop用户增加hadoop用户组,同时在该组里增加hadoop用户,后续在涉及到hadoop操作时,我们使用该用户. 1.创建hadoop用户组 2.创 ...
Hadoop教程(二)Hadoop伪集群环境安装
Hadoop教程(二)Hadoop伪集群环境安装本文链接:https://blog.csdn.net/yuan_xw/article/details/50039325 Hadoop教程(二)Hado ...
何时使用hadoop fs、hadoop dfs与hdfs dfs命令(转)
hadoop fs:使用面最广,可以操作任何文件系统. hadoop dfs与hdfs dfs:只能操作HDFS文件系统相关(包括与Local FS间的操作),前者已经Deprecated,一般使用后 ...
linux hadoop etc目录,Hadoop系列——Linux下Hadoop的安装与伪分布式配置
1 环境配置 1.1 JDK配置在这里使用的是Oracle的JDK1.8. 1. 下载安装JDK 2. 配置环境变量以上两个步骤不再展开赘述. 3. 验证JDK是否安装成功分别使用 echo $ ...
【Hadoop篇】--Hadoop常用命令总结
[Hadoop篇]--Hadoop常用命令总结一.前述分享一篇hadoop的常用命令的总结,将常用的Hadoop命令总结如下. 二.具体 1.启动hadoop所有进程 start-all.sh等价 ...
hadoop搭建之hadoop安装
运行环境: 系统:centos6.9 jdk:jdk1.8.0_201 搭建版本: hadoop:hadoop-2.7.2 环境说明: 集群环境至少需要 3 个节点(也就是 3 台服务器设备):1 个 ...
Hadoop回顾:(一)Hadoop生态系统简介
首先我们先了解一下Hadoop的起源.然后介绍一些关于Hadoop生态系统中的具体工具的使用方法.如:HDFS.MapReduce.Yarn.Zookeeper.Hive.HBase.Oozie.Ma ...
hadoop基础----hadoop理论(四)-----hadoop分布式并行计算模型MapReduce详解
我们在前一章已经学习了HDFS: hadoop基础----hadoop理论(三)-----hadoop分布式文件系统HDFS详解我们已经知道Hadoop=HDFS(文件系统,数据存储技术相关)+ M ...

Hadoop是什么，Hadoop主要有哪几部分组成？

Hadoop是什么，Hadoop主要有哪几部分组成？相关推荐

最新文章

热门文章