hadoop学习——Hadoop核心组件

下图展示了hadoop生态系统的核心组件。

下面来简单介绍各个组件的作用:

HDFS(Hadoop distribute file system)——Hadoop生态系统的基础组件Hadoop分布式文件系统。它是其他一些工具的基础HDFS的机制是将大量数据分布到计算机集群上,数据一次写入,但可以多次读取用于分析。HDFS让Hadoop可以最大化利用磁盘。

HBase—— 一个构建在HDFS之上的面向列的NoSql数据库,HBase用于对打量数据进行快速读取/写入。HBase将Zookeeper用于自身的管理,以保证其所有组件都正在运行。HBase使得Hadoop可以最大化利用内存。

MapReduce——MapReduce是Hadoop的主要执行框架,它是一个用于分布式并行数据处理的编程模型,将作业分为mapping阶段和reduce阶段。开发人员谓Hadoop编写MapReduce作业,并使用HDFS中存储的数据,而HDFS可以保证快速的数据访问。鉴于MapReduce作业的特性,Hadoop以并行的方式将处理过程移向数据。MapReduce使得Hadoop可以最大化利用CPU。

Zookeeper——Zookeeper是Hadoop的分布式协调服务。Zookeeper被设计成可以在机器集群上运行,是一个具有高度可用性的服务,用于Hadoop操作的管理,而且很多Hadoop组件都依赖它。

Oozie—— Oozie是一个北极测很难过到Hadoop软件栈中的可扩展的Workflow系统。用于协调多个MapReduce作业的执行。它能够处理大量的复杂性,基于外部事件来管理执行。

Pig——Pig是对MapReduce编程复杂性的抽象,Pig平台包含用于分析Hadoop数据集的执行环境和脚本语言(Pig Latin)。它的编译器将Pig Latin翻译为MapReduce程序序列。

Hive——类似于SQL的高级语言,用于执行对存储在Hadoop中数据的查询,Hive允许不熟悉MapReduce的开发人员编写数据查询语句,它会将翻译为Hadoop中的MapReduce作业。类似于Pig。Hive是一个抽象层,适合于较熟悉SQL而不是java编程的数据库分析师。

Hadoop生态系统中还包含一些用于与其他企业级应用进行集成的框架,例如上图所示的Sqoop和Flume:

Sqoop是一个连通性工具,用于在关系型数据库和数据仓库Hadoop之间移动数据。Sqoop利用数据库来描述导入/导出数据的模式,并使用MapReduce实现并行操作和容错。

Fulme是一个分布式的、具有可靠性和高可用性的服务,用于从单独的机器上将大量数据高效的收集、聚合并移动到HDFS中。它给予一个简单灵活的架构,童工流式数据操所。它借助于简单可扩展的数据模型,允许将来自企业中多台机器上的数据移到Hadoop中。

hadoop学习——Hadoop核心组件相关推荐

  1. Hadoop学习----Hadoop介绍

    Hadoop介绍 Hadoop是Apache软件基金会的一款开源软件.底层是由java语言实现. 功能:允许用户使用简单的编程模型实现跨机器集群对海量数据进行分布式计算处理. Hadoop核心组件: ...

  2. Hadoop学习——Hadoop概述

    目录 (一)Hadoop概念 (二)Apache Hadoop下载网址 (三)Hadoop优势 (四)Hadoop架构 1.HDFS(NameNode(nn).DataNode(dn).Seconda ...

  3. hadoop学习记录

    一.Hadoop学习 Hadoop由hdfs和MapReducer组成,hadoop是主流的大数据基础架构 Hdfs是hadoop的一种分布式文件系统 MapReducer是hadoop的分布式计算方 ...

  4. Hadoop学习之yarn

    Hadoop学习之YARN 1 YARN简介 1.1 概述 YARN (Yet Another Resource Negotiator)是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个 ...

  5. Hadoop学习之整体介绍及环境搭建

    Hadoop学习之整体介绍及环境搭建 1 大数据概述 1.1 什么是大数据 数据(data)是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加 工的的原始素材. 大数据:传统处理方 ...

  6. Hadoop学习总结(1)——大数据以及Hadoop相关概念介绍

    一.大数据的基本概念 1.1.什么是大数据 大数据指的就是要处理的数据是TB级别以上的数据.大数据是以TB级别起步的.在计算机当中,存放到硬盘上面的文件都会占用一定的存储空间,例如: 文件占用的存储空 ...

  7. 如何学习Hadoop,学习Hadoop要学什么?怎么学?

    如何学习Hadoop,学习Hadoop要学什么?怎么学? 第一章:初识Hadoop 第二章:更高效的WordCount 第三章:把别处的数据搞到Hadoop上 第四章:把Hadoop上的数据搞到别处去 ...

  8. Hadoop学习与使用

    Hadoop基础 1. 大数据解决方案 Hadoop是一个开源框架,它允许在整个集群使用简单编程模型计算机的分布式环境存储并处理大数据.它的目的是从单一的服务器到上千台机器的扩展,每一个台机都可以提供 ...

  9. Hadoop学习笔记(系统的学习)

    学习大纲 前置知识: java基础 linux基本操作 mysql基本操作 开发工具: IDEA 环境参数: CDH(5.15.1) 大数据定义: 大数据4V特征: 数据量大 速度快 多样性,复杂性 ...

最新文章

  1. 日期格式转换 java 2016-09-03T00:00:00.000+08:00
  2. 不是你无法入门自然语言处理(NLP),而是你没找到正确的打开
  3. uboot-spl编译流程
  4. Avaya以1亿美元向Extreme销售网络业务
  5. C++设计模式——观察者模式(转)
  6. Sitemesh3使用及配置
  7. centos设置静态IP地址
  8. DOE实验设计操作手册
  9. snappy流式编解码总结
  10. filezilla 无法启动传输
  11. 推荐几款超好用的内网穿透神器,总有一款适合你!
  12. Java高并发累加器Striped64
  13. 实测办公场景下,国产远程控制软件的表现力如何?(技术解析)
  14. maven仓库中的.LastUpdated文件
  15. matlab 01变量,MATLAB变量
  16. c#黑白棋算法_黑白棋C#源代码
  17. 前端学习笔记02--CSS快速了解
  18. Java实现 LeetCode 754 到达终点数字(暴力+反向)
  19. MySQL 8.0踩的坑
  20. php最简易安装教程

热门文章

  1. AIX6.1下WebLogic的nohup日志按天分割
  2. AIX下密码永不过期
  3. JavaScript之arguments属性
  4. 我要去三清山国家公园。。。
  5. 国内最大最全的交换技术专区上线
  6. 给 npm script 传递参数和添加注释
  7. 获取到的数字证书如何配置在自己的Apache中?
  8. 在Mac OS X上安装Oracle客户端
  9. 结构设计模式 - Flyweight设计模式(享元设计模式)
  10. Fedora/RedHat上使用Docker命令搭建Mysql服务器