Hadoop是较早用于处理大数据集合的分布式存储计算基础架构，通过Hadoop，用户可以在不了解分布式底层细节的情况下，开发分布式程序，充分利用集群的为例执行告诉运算和存储。简单来说，Hadoop是一个平台，在它之上，可以更容易地开发和运行大规模数据的软件。

01 Hadoop 概述

Hadoop体系也是一个计算框架，在这个框架下，可以使用一种简单的编程模式，通过多台计算机构成的集群，分布式处理大数据集。

Hadoop是可扩展的，可以方便的从单一服务器扩展到数千台服务器，每台服务器进行本地计算和存储。除了依赖于硬件交付的高可用性，软件库本身也提供数据保护，并且可以在应用层做失败处理，从而在计算机集群的顶层提供高可用服务。
Hadoop核心生态圈组件：

02 Hadoop生态圈

Hadoop包括以下4个基本模块。
1）Hadoop基础功能库：支持其他Hadoop模块的通用程序包。
2）HDFS：一个分布式文件系统，能够以高吞吐量访问应用中的数据。
3）Yarn：一个作业调度和资源管理框架。
4）MapReduce：一个基于Yarn的大数据并行处理程序。

除了基本模块，Hadoop还包括以下项目。
1）Ambari：基于Web，用于配置、管理和监控Hadoop集群，支持HDFS、MapReduce、Hive、HCatalog、HBase、ZooKeeper、Oozie、Pig和Sqoop。Ambri还提供显示集群健康状况的仪表盘，如热点图等。Ambari以图形化的方式查看MapReduce、Pig和Hive应用程序的运行情况，因此可以通过对用户友好的方式诊断应用的性能问题。
2）Avro：数据序列化系统。
3）Cassandra：可扩展的、无单点故障的NoSQL多主数据库。
4）Chukwa：用于大型分布式系统的数据采集系统。
5）HBase：可扩展的分布式数据库，支持大表的结构化数据存储。
6）Hive：数据仓库基础架构，提供数据汇总和命令行即席查询功能。
7）Mahout：可扩展的机器学习和数据挖掘库。
8）Pig：用于并行计算的高级数据流语言和执行框架。
9）Spark：可高速处理Hadoop数据的通用计算引擎。Spark提供了一种简单而富有表达能力的编程模式，支持ETL、机器学习、数据流处理。图像计算等多种应用。
10）Tez：完整的数据流编程框架，基于Yarn建立，提供强大而灵活的引擎，可执行任意有向无环图数据处理任务，既支持批处理又支持交互式的用户场景。Tez目前已被Hive、Pig等Hadoop生态圈的组件所采用，用来替代MapReduce作为底层执行引擎。
11）Zookeeper：用于分布式应用的高性能协调服务。
除了以上这些官方认可的Hadoop生态圈组件之外，还有很多十分优秀的组件这里没有介绍，这些组件的应用也非常广泛，例如基于Hive查询优化的Presto、Impala、Kylin等。

此外，在Hadoop生态圈的周边，还聚集了一群伙伴，它们虽未深入融合Hadoop生态圈，但是和Hadoop有着千丝万缕的联系，并且在各自擅长的领域起到了不可替代的作用。下图是阿里云E-MapReduce平台整合的Hadoop生态体系中的组件，比Apache提供的组合更加强大。

其中比较重要的成员有：
1）Presto：开源分布式SQL查询引擎，适用于交互式分析查询，数据量支持GB到PB级。Presto可以处理多数据源，是一款基于内存计算的大数据存储引擎。
2）Kudu：与HBase类似的列存储分布式数据库，能够快速更新和删除数据，是一款支持随机读写又支持OLAP分析的大数据存储引擎。
3）Impala：高效的基于MPP架构的快速查询引擎，基于Hive并使用内存进行计算，兼顾ETL功能，具有实时、批处理、高并发等优点。
4）Kylin：开源分布式分析型数据仓库，提供Hadoop/Spark之上的SQL查询接口及OLAP能力，支持超大规模数据的亚秒级。
5）Flink：一款高吞吐量、低延迟的针对流数据和批数据的分布式实时处理引擎，是实时处理领域的新星。
6）Hudi：Uber开发并开源的数据湖解决方案，Hudi（Hadoop updates and incrementals）支持HDFS的修改和增量更新操作。

03 Hadoop的优缺点

如今，Hadoop已经演化成了一个生态系统，系统内的组件千差万别，有的还是孵化阶段，有的风华正茂，有的垂垂老矣。其中，最经久不衰的是HDFS和Hive两大组件，昙花一现的包括HBase、MapReduce、Presto等，风华正茂的当属Spark和Flink。
大数据成功最核心的原因是开源，但它存在的最大问题也是开源。很多组件虽然依靠开源可以快速成熟，但一旦成熟，就会出现生态紊乱和版本割裂的情况，其中最典型的就是Hive。Hive1.X之前的版本功能不完善，1.X和2.X版算是逐步优化到基本可用了，到了3.X版又出现了各种问题，并且各大云平台Hive版本都停留在2.X版本，新版本推广乏力。另外，Hive的计算引擎也是饱受争议的，Hive支持的计算引擎主要有MapReduce、Tez、Spark、Presto。十多年来，MapReduce的计算速度没有提升；Tez虽然计算速度快，但是安装需要定制化编译和部署；Spark的计算速度最快，但是对JDBC支持不友好；Presto计算速度快并且支持JDBC，但是语法又和Hive不一致。

总的来说，基于Hadoop开发出来的大数据平台，通常具有以下特点：
1）扩容能力：能够可靠地存储和处理PB级的数据。Hadoop生态基本采用HDFS作为存储组件，吞吐量高，稳定性高。
2）成本低：可以利用廉价、通用的机器组成的服务器群分发、处理数据。这些服务器群总计可以达到数千个节点。
3）高效率：通过分发数据，Hadoop可以在数据所在节点上并行处理，处理速度非常快。
4）可靠性：Hadoop能自动维护数据的多份备份，并且在任务失败后能自动重新部署计算任务。

Hadoop生态同时也存在不少缺点：
1）读写时效差：因为Hadoop采用文件存储系统，所以读写时效差，至今没有一款既支持快速更新又支持高效查询的组件。
2）组件间兼容性差：Hadoop生态系统趋于复杂，组件之间的兼容性差，安装和维护比较困难。
3）组件功能单一：各个组件功能相对单一，优点明显，缺点也明显。
4）版本分歧大：云生态对Hadoop的冲击十分明显，云厂商定制化组件导致版本分歧进一步扩大，无法形成合力。
5）容错性差：整体生态基于Java开发，容错性较差，可用性不高，组件容易挂掉。

大数据系统架构-Hadoop生态系统相关推荐

大数据系统架构-MPP数据库架构
当前的大数据系统架构主要有两种:一种是MPP数据库架构,另一种就是Hadoop体系的分层架构.这两种架构各有优势和适合的场景.另外随着光纤网络通信技术的发展,大数据系统架构正在向着存储与计算分离的架构 ...
Hadoop大数据系统架构（深入浅出）
目录 1. Hadoop生态体系 2. Hadoop集群硬件架构 3. Hadoop体系分层功能架构参考资料导读: 从资源管理角度来看,当前的大数据系统架构主要有两种:一种是 MPP数据库架构 , ...
GitChat · 大数据 | 一步一步学习大数据：Hadoop 生态系统与场景
目录(?)[-] Hadoop概要 Hadoop相关组件介绍 HDFS Yarn Hive HBase Spark Other Tools Hadoop集群硬件和拓扑规划硬件配置软件配置 Hado ...
两种主流大数据系统架构的区别，终于有人讲明白了
导读:从资源管理角度来看,当前的大数据系统架构主要有两种:一种是MPP数据库架构 ,另一种是Hadoop体系的分层架构.这两种架构各有优势和相应的适用场景.本文主要讲这两种架构的区别. 同样都可以处理 ...
大数据系统架构之降龙八式
大数据系统架构之降龙八式: 第一式之linux 加固:包括安装,防火墙,网络,ssh,ddos,syn攻击等第二式之linux 调优:包括内核优化,cpu,内存,虚拟内存,tcp 等第三式之存储 ...
大数据系统架构的通用模块有哪些
企业要开展大数据相关业务,首先就需要基于自身的需求,来设计搭建数据系统平台.而大数据系统平台的搭建,需要基于实际需求,来进行系统架构规划.下面来对大数据系统架构模块做一个简单的介绍. 通常来说,一个大 ...
大数据系统架构模块解析
企业要开展大数据相关业务,首先就需要基于自身的需求,来设计搭建数据系统平台.而大数据系统平台的搭建,需要基于实际需求,来进行系统架构规划.今天我们就从大数据平台开发的角度,来对大数据系统架构模块做一个 ...
大数据平台开发：大数据系统架构模块解析
企业要开展大数据相关业务,首先就需要基于自身的需求,来设计搭建数据系统平台.而大数据系统平台的搭建,需要基于实际需求,来进行系统架构规划.今天我们就从大数据平台开发的角度,来对大数据系统架构模块做一个 ...
大数据系统架构包含内容涉及哪些?
大数据系统架构包含内容涉及哪些? [导语]大数据的应用开发过于偏向底层,具有学习难度大,涉及技术面广的问题,这制约了大数据的普及.大数据架构是大数据技术应用的一个非常常见的形式,那么大数据系统架构包含 ...

大数据系统架构-Hadoop生态系统

01 Hadoop 概述

02 Hadoop生态圈

03 Hadoop的优缺点

大数据系统架构-Hadoop生态系统相关推荐

最新文章

热门文章