1. HDFS

HDFS(Hadoop分布式文件系统)源于Google在2003年10月发表的GFS论文,HDFS是GFS的实现。HDFS通过流式数据访问,适合大数据集访问的应用程序。HDFS有一次写入多次读取的机制,数据已块的形式,同时分布在集群的不同物理机器上。

2. MapReduce

MapReduce(分布式计算框架)源于Google在2004年12月发表的MapReduce论文,Hadoop MapReduce是Google MapReduce的克隆版。MapReduce是一种分布式计算模型,用以进行海量数据的计算,它将计算抽象成Map和Reduce两部分,其中Map对数据集上的独立元素进行指定的操作,生成键-值对形式中间结果。Reduce则对中间结果中相同“键”的所有“值”进行规约,以得到最终结果。

3. YARN

YARN(分布式资源管理器)是第二代MapReduce,即MRv2,是从第一代MapReduce基础上演变而来的,主要为了解决原始Hadoop扩展性较差,不支持多计算框架而提出的。它的作用包括作业调度和资源管理等。

4. Ambari

Ambari是一个基于Web的工具,用于配置、管理和监控Hadoop集群。Ambari以图形化的方式 查看MapReduce、Pig、Hive应用程序的运行状况,方便用户进行问题诊断和优化。

5. HBase

HBase(分布式列存储数据库)源于Google的BigTable论文,发表于2006年11月,HBase是Google BigTable的实现。HBase是一个建立在HDFS上,面向结构化数据的可伸缩、高可靠、高性能、分布式和面向列的动态模式数据库。HBase采用BigTable模型,即增强的稀疏排序映射表(Key/Value),其中,键由行关键字、列关键字和时间戳构成。

6. Hive

Hive(数据仓库)有Facebook开源,最初用于解决海量结构化的日志数据统计问题。Hive定义了一种类似于SQL的查询语言(HQL),将SQL转化为MapReduce任务在Hadoop上运行,通常用于离线分析。

7. ZooKeeper

ZooKeeper(分布式协作服务)源自Google的Chubby论文,发表于2006年11月,ZooKeeper是Chubby实现版。ZooKeeper的主要目标是解决分布式环境下的数据管理问题,如统一命名、状态同步、集群管理等。Hadoop的很多组件都依赖Zookeeper,它运行在Hadoop集群上面,用于管理Hadoop操作。

8. Pig

Pig(ad-hoc脚本)有Yahoo开源,其设计目的是提供一种基于MapReduce的ad-hoc数据分析工具。Pig定义了一种数据流语言——Pig Latin,它是MapReduce复杂编程的抽象。其编译器将Pig Latin翻译成MapReduce程序序列,将脚本转换为MapReduce任务在Hadoop上执行,同行用于离线分析。

9. Sqoop

Sqoop(数据ETL/同步工具)是SQL-to-Hadoop的缩写,主要用于传统数据库和Hadoop之间的数据传输。数据的到导入和导出实质上是MapReduce程序,充分利用了MR的并行化和容错性。Sqoop利用数据库技术描述数据架构,用于咋关系数据库、数据仓库和Hadoop之间转换数据。

10. Flume

Flume(日志收集工具)是Cloudera开源的日志收集系统,具有分布式、高可靠、高容错、易于定制和扩展的特点。他将数据从产生、传输、处理并最终写入目标的路径的过程抽象为数据流。总的来说,Flume是一个可扩展、适合复杂环境的海量日志收集系统,当然也可以用于收集其他类型数据。

11. Mahout

Mahout源于2008年,最初是Apache Lucent的子项目,现在发展为Apache的顶级项目。Mahout是一个可扩展的机器学习和数据挖掘库。

12. Spark

Spark(内存DAG计算模型)是一个处理Hadoop数据的、高速的、通用的计算引擎。Spark提供了一种简单而富有表达能力的编程模式,支持包括ETL、机器学习、数据流处理、图像计算等多种应用。

13. Kafka

Kafka是Linkedin于2010年12月开源的消息系统,主要用于处理活跃的流式数据。活跃的流式数据在Web网站应用中非常常见,这些数据包括网站的PV(Page View),用户访问了什么内容,搜索了什么内容等。这些数据通常以日志的形式记录下来,然后每隔一段时间进行一次统计。

【Hadoop】Hadoop生态圈基本组件介绍相关推荐

  1. Hadoop生态圈各种组件介绍

    好多初入学习大数据的人不是很清楚,今天分享一个图,并介绍一下大致的组件,其他还有一些组件是没有包含在其中的,但是大部分这个图片是有了的. 一.简介 Hadoop是一个由Apache基金会所开发的分布式 ...

  2. Hadoop架构及各组件介绍

    什么是hadoop? hadoop是一个可靠,可扩展的分布式开源框架,提供海量数据的存储和计算.一般hadoop指的是hadoop生态圈. 一.先通过一张图了解一下hadoop生态系统整体框架结构. ...

  3. Hadoop入门及常用组件介绍

    文章目录 大数据体系架构 hadoop介绍 Hadoop生态系统主要组件 HDFS (分布式文件系统) MapReduce(分布式计算框架) Spark(基于内存的分布式计算框架) Storm(实时的 ...

  4. 【大数据笔记】hadoop基础——各组件介绍

    目录 故事背景 Hadoop 与大数据之间到底是什么关系? 1.数据存储:HDFS,一个分布式文件系统 2. 数据分析:MapReduce 计算引擎 HDFS(Hadoop 分布式文件系统) MapR ...

  5. hadoop系列(一)概念、组件介绍、安装环境、配置

    hadoop系列(一)概念.组件介绍.安装环境.配置 一.大数据概念 概念 大数据:解决海量数据的采集.存储.分析计算的能力 大数据特点 Volume(大量) Velocity(高速) Variety ...

  6. 2021年大数据Hadoop(二十六):YARN三大组件介绍

    全网最详细的Hadoop文章系列,强烈建议收藏加关注! 后面更新文章都会列出历史文章目录,帮助大家回顾知识重点. 目录 本系列历史文章 前言 Yarn三大组件介绍 ResourceManager No ...

  7. Hadoop基础-Hdfs各个组件的运行原理介绍

    Hadoop基础-Hdfs各个组件的运行原理介绍 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.NameNode工作原理(默认端口号:50070) 1>.什么是NameN ...

  8. 大数据生态圈常用组件(二):概括介绍、功能特性、适用场景

    三更灯火五更鸡,正是男儿读书时. 小编整理了一些常用的大数据组件,使用场景及功能特性,希望对后浪有所帮助. 分类 名称 简介 功能特点 使用场景 大数据存储 HDFS HDFS是一个分布式的文件系统, ...

  9. 【Hadoop大数据平台组件搭建系列(一)】——Zookeeper组件配置

    简介 本篇介绍Hadoop大数据平台组件中的Zookeeper组件的搭建 使用软件版本信息 zookeeper-3.4.14.tar.gz Zookeeper安装 解压Zookeeper安装包至目标目 ...

最新文章

  1. sqlite复制数据主键重复_Flutter 数据库指南
  2. 【转】关于char * 与 char[]
  3. java北大青鸟试题_10个常见2020春招Java面试题及注意事项!
  4. Memcached学习---(3)Windows 下安装 Memcached
  5. 如何使用计算机讲解ppt,如何录制PPT讲解视频?
  6. 新闻管理系统数据库设计
  7. 利用接口实现动态加载类以及 Activator.CreateInstance用法示例
  8. xshell 导入.xsh 文件
  9. 个人作业——软件产品案例分析
  10. 流水线中数据相关的理解(RAW、WAR和WAW)
  11. Anaconda => PyCharm => CUDA => cudnn => PyTorch 环境配置
  12. 10年后,程序员的薪资还会这么高么?
  13. 一看就觉得特别好的21条感悟
  14. 基于java我爱短视频管理系统计算机毕业设计源码+系统+lw文档+mysql数据库+调试部署
  15. 基于Python实现的费诺编码
  16. ARM ADDS和ADCS的区别
  17. 泰勒法计算sin和cos值
  18. 《仙剑奇侠传四》完全攻略
  19. 使用Spring Cloud配置服务器控制配置
  20. C语言指针的算术运算

热门文章

  1. C语言的变参函数设计
  2. Flex3 CRUD 与Java后台交互 完整Demo
  3. 人类首张黑洞照片发布,像甜圈圈,顺便恭喜爱因斯坦
  4. 基于盐+Sha算法的安全密码保护机制
  5. 机器学习之——神经网络模型
  6. Qt 遍历目录下所有图片
  7. 微软职位内部推荐-Senior Network Engineer
  8. html5 Canvas画图3:1像素线条模糊问题
  9. Android之PopupWindow弹出对话框
  10. DataGridView 设置行不可见时,与货币管理器的位置关联的行不能设置为不可见