Hadoop生态系统
Hadoop1.x 的各项目介绍
1. HDFS
2. MapReduce
3. Hive
4. Pig
5. Mahout
6. ZooKeeper
7. HBase
8. Sqoop
9. Flume
10. Ambari

Hadoop生态系统

当今的Hadoop已经成长为一个庞大的体系,只要有和海量数据相关的领域。都有Hadoop的身影。
Hadoop生态系统图谱

大家知道,Hadoop的两大核心就是HDFS和MapReduce,而整个Hadoop的体系结构主要是通过HDFS的分布式存储作为底层数据支持的。并且会通过MapReduce来进行计算分析。
Hadoop1.x的核心:

  1. Hadoop Common
  2. Hadoop Distributed File System(HDFS)
  3. Hadoop MapReduce

Hadoop2.x的核心:

  1. Hadoop Common
  2. Hadoop Distributed File System(HDFS)
  3. Hadoop MapReduce
  4. Hadoop YARN

Hadoop1.x 生态系统图

Hadoop2.x 生态系统图

Hadoop1.x 的各项目介绍

1. HDFS

分布式文件系统,将一个文件分成多个块,分别存储(拷贝)到不同的节点上.它是Hadoop体系中数据存储管理的基础。它是一个高度容错的系统,能检测和应对硬件故障,用于在低成本的通用硬件上运行。HDFS简化了文件的一致性模型,通过流式数据访问,提供高吞吐量应用程序数据访问功能,适合带有大型数据集的应用程序。

2. MapReduce

分布式计算框架,它是一种分布式计算处理模型和执行环境,用于进行大数据量的计算。共包括Map和Reduce部分。其中Map接受一个键值对(key-value),产生一组中间键值对。MapReduce框架会将map函数产生的中间键值对里键相同的值传递给一个reduce函数。Reduce函数:接受一个键,以及相关的一组值,将这组值进行合并产生一组规模更小的值(通常只有一个或零个值)。

3. Hive

基于Hadoop的数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类似SQL一样的查询语言HiveQL来管理这些数据。Hive定义了一种类似SQL的查询语言(HQL),将SQL转化为MapReduce任务在Hadoop上执行。通常用于离线分析。

4. Pig

Pig是一个基于Hadoop的大数据分析平台,它提供了一个叫PigLatin的高级语言来表达大数据分析程序,将脚本转换为MapReduce任务在Hadoop上执行。通常用于进行离线分析。

5. Mahout

数据挖掘算法库,Mahout起源于2008年,最初是Apache Lucent的子项目,它在极短的时间内取得了长足的发展,现在是Apache的顶级项目。Mahout的主要目标是创建一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout现在已经包含了聚类、分类、推荐引擎(协同过滤)和频繁集挖掘等广泛使用的数据挖掘方法。除了算法,Mahout还包含数据的输入/输出工具、与其他存储系统(如数据库、MongoDB 或Cassandra)集成等数据挖掘支持架构。

6. ZooKeeper

分布式协作服务,是一个针对大型分布式系统的可靠协调系统,提供包括配置维护,名字服务,分布式同步和组服务等功能。Hadoop的管理就是用的ZooKeeper

7. HBase

HBase是一个分布式列存数据库,它基于Hadoop之上提供了类似BigTable的功能。HBase是一个针对结构化数据的可伸缩、高可靠、高性能、分布式和面向列的动态模式数据库。和传统关系数据库不同,HBase采用了BigTable的数据模型:增强的稀疏排序映射表(Key/Value),其中,键由行关键字、列关键字和时间戳构成。HBase提供了对大规模数据的随机、实时读写访问,同时,HBase中保存的数据可以使用MapReduce来处理,它将数据存储和并行计算完美地结合在一起。

8. Sqoop

数据同步工具,SQL-to-Hadoop的缩写。Sqoop是一个Hadoop和关系型数据库之间的数据转移工具。可将关系型数据库中的数据导入到Hadoop的HDFS中,也可将HDFS中的数据导进到关系型数据库中主要用于传统数据库和Hadoop之前传输数据。数据的导入和导出本质上是Mapreduce程序,充分利用了MR的并行化和容错性。

9. Flume

日志收集工具,Cloudera开源的日志收集系统,具有分布式、高可靠、高容错、易于定制和扩展的特点。它将数据从产生、传输、处理并最终写入目标的路径的过程抽象为数据流,在具体的数据流中,数据源支持在Flume中定制数据发送方,从而支持收集各种不同协议数据。同时,Flume数据流提供对日志数据进行简单处理的能力,如过滤、格式转换等。此外,Flume还具有能够将日志写往各种数据目标(可定制)的能力。总的来说,Flume是一个可扩展、适合复杂环境的海量日志收集系统。

10. Ambari

是一个对Hadoop集群进行监控和管理的基于Web的系统。目前已经支持HDFS,MapReduce,Hive,HCatalog,HBase,ZooKeeper,Oozie,Pig和Sqoop等组件。

来自为知笔记(Wiz)

转载于:https://www.cnblogs.com/meet/p/5439202.html

Hadoop生态系统介绍相关推荐

  1. Hadoop生态系统介绍-汇总-标注重点

    hadoop生态系统的详细介绍 转自:https://blog.csdn.net/wdr2003/article/details/79692886 补充参考:https://blog.csdn.net ...

  2. Hadoop的生态系统介绍

    一. Hadoop生态系统架构 二. 生态系统介绍 2.1 HDFS(分布式文件存储系统) Hadoop分布式文件系统是Hadoop项目的两大核心之一,是针对谷歌文件系统(GoogleFileSyst ...

  3. hive 插入数据映射到hbase_大数据基础知识:Hadoop分布式系统介绍

    随着智能化.万物互联时代的快速发展,数据量开始暴增,一方面我们需要开始思考如何高效可靠地存储海量的数据,另一方面我们还需要对这些数据进行分析处理,以获得更多有价值的信息.这时期我们就需要用到Hadoo ...

  4. Hadoop 生态学习

    Hadoop 生态学习 转载于:https://www.cnblogs.com/liuys635/p/10828201.html

  5. Hadoop 生态系列之 Mapreduce

    阅读文本大概需要 5 分钟.文章稍长,建议收藏慢慢看. 目前 Hadoop 系列文章的规划就是这样,持续补充完善中- 同时可以访问 https://data.cuteximi.com Hadoop 生 ...

  6. Hadoop 生态系列之 HDFS

    目前 Hadoop 系列文章的规划就是这样,持续补充完善中... 同时可以访问 :https://data.cuteximi.com Hadoop 生态系列之1.0和2.0架构 Hadoop 生态系列 ...

  7. Hadoop 生态系列之 1.0 和 2.0 架构

    自学大数据有一段时间了,找工作历时一周,找到一家大厂,下周入职,薪资待遇还不错,公司的业务背景自己也很喜欢.趁着还没有入职,给大家争取先把 Hadoop 系列的文章总结完毕,可以当做科普文,也可以当做 ...

  8. 大数据之Hadoop生态系统概述

    一.什么是大数据         首先,我们来了解一下,什么是大数据?大数据(BigData)是指无法在一定时间内用常规软件工具进行捕捉.管理和处理的数据集合,是需要新处理模式才能具有更强的决策力.洞 ...

  9. Hadoop生态之Mapreduce

    今天给大家带来的是Hadoop生态中的Mapreduce,看到这里诸佬们可能就有疑惑了呢,啥是Mapreduce?小小的脑袋大大的疑惑. 在上篇博客中博主使用了王者来举例子,如果把Hadoop当作王者 ...

最新文章

  1. getprop 与 dumpsys 命令
  2. Linux文件系统只读Read-only file system的解决方法
  3. 能跑TensorFlow,能唱KTV,这是国产车吉利的智能系统和背后的芯片
  4. H5存储------localStorage和sessionStorage
  5. java使用xml存储数据_用存储过程和 JAVA 写报表数据源有什么弊端?
  6. http请求502_从知乎页面的502说一说测试人员应该知道的HTTP协议状态码!
  7. Day1 安装虚拟机和centos7系统
  8. 双硬盘 双linux系统同时运行,XP与linux  双硬盘 双启动管理
  9. JavaScript开发工具大全
  10. CCS软件下载安装教程
  11. labview技巧——自定义 5位数码管字体 显示控件
  12. 如何在IDEA中导出jar包
  13. 18、HX1838红外遥控模块控制led
  14. oracle 数据库日志归档,ORACLE 数据库日志归档的清理
  15. 英文论文检索数据库以及英文文献下载
  16. 【Pygame小游戏】超好玩的——Python版“愤怒的小鸟”,我能玩上一整天(附源码)
  17. 个人电脑php网站搭建,如何在本地电脑搭建自己网站的流程(图文教程)
  18. python123第三单元测试卷_第三单元测试卷(带答案)
  19. 原生javascript实现星级评价功能
  20. 快速电商排版网页布局ps神器插件_安装教程

热门文章

  1. loc和iloc的用法汇总(完成)
  2. udf、utaf、udtf进出数量规律
  3. html放缩都让内容处于正中间
  4. ubuntu18.10终端的方块改成竖线
  5. ubuntu16.04下面使用graphviz
  6. 大话数据结构05: 双向链表
  7. ROS总结一,catkin,package,CMakeList,Topic,node
  8. 数据结构与算法:树与二叉树python实现
  9. mysql 排序_MySql的几种排序方式
  10. 深度学习(二十六)——VAE