004-hadoop家族概述

hadoop家族

名称	简介
Hadoop	分布式基础架构	Hadoop的框架最核心的设计就是：HDFS和MapReduce。 HDFS为海量的数据提供了存储，则MapReduce为海量的数据提供了计算
zookeeper	分布式应用程序协调服务	ZooKeeper是一个分布式的，开放源码的分布式应用程序协调服务，是Google的Chubby一个开源的实现，是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件，提供的功能包括：配置维护、域名服务、分布式同步、组服务等
hive	数据仓库工具	hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。
hbase	分布式的、面向列的开源数据库	HBase – Hadoop Database，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群
Pig	基于Hadoop的大规模数据分析平台	它提供的SQL-LIKE语言叫Pig Latin，该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。Pig为复杂的海量数据并行计算提供了一个简单的操作和编程接口。
sqoop	数据相互转移的工具	Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具，可以将一个关系型数据库（例如： MySQL ,Oracle ,Postgres等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中
Cassandra	开源分布式数据库管理系统	Apache Cassandra是一套开源分布式数据库管理系统，由Facebook开发，用于储存特别大的数据。
Hama	纯BSP计算框架	Apache Hama是一个纯BSP（Bulk Synchronous Parallel）计算框架，模仿了Google的Pregel。用来处理大规模的科学计算，特别是矩阵和图计算。
Flume	日志收集处理系统	Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统， Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。
Giraph	迭代式图处理系统
Oozie	工作流引擎服务器	用于运行Hadoop Map/Reduce和Pig 任务工作流.同时Oozie还是一个Java Web程序,运行在Java Servlet容器中,如Tomcat.
Crunch		Apache Crunch是FlumeJava的实现，为不太方便直接开发和使用的MapReduce程序，开发一套MR流水线，具备数据表示模型，提供基础原语和高级原语，根据底层执行引擎对MR Job的执行进行优化。
Mahout		Mahout 是 Apache Software Foundation（ASF）旗下的一个开源项目，提供一些可扩展的机器学习领域经典算法的实现，旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout包含许多实现，包括聚类、分类、推荐过滤、频繁子项挖掘。此外，通过使用 Apache Hadoop 库，Mahout 可以有效地扩展到云中。
Avro	基于二进制数据传输高性能的中间件	在Hadoop的其他项目中例如HBase(Ref)和Hive(Ref)的Client端与服务端的数据传输也采用了这个工具。 Avro是一个数据序列化的系统。Avro 可以将数据结构或对象转化成便于存储或传输的格式。 Avro设计之初就用来支持数据密集型应用，适合于远程或本地大规模数据的存储和交换。
Chukwa	监控大型分布式系统的数据收集系统	这是构建在 hadoop 的 hdfs 和 map/reduce 框架之上的，继承了 hadoop 的可伸缩性和鲁棒性。 Chukwa 还包含了一个强大和灵活的工具集，可用于展示、监控和分析已收集的数据。
Ambari	基于Web的工具	是一种基于Web的工具，支持Apache Hadoop集群的供应、管理和监控。 Apache Ambari 支持HDFS、MapReduce、Hive、Pig、Hbase、Zookeper、Sqoop和Hcatalog等的集中管理。也是5个顶级hadoop管理工具之一。
Whirr
bigtop		Bigtop是去年apache基金会推出的一个对Hadoop及其周边生态进行打包，分发和测试的工具。
HCatalog		Hcatalog是apache开源的对于表和底层数据管理统一服务平台
Hue	开源的Apache Hadoop UI系统

004-hadoop家族概述相关推荐

[转]Hadoop家族学习路线图
Hadoop家族学习路线图 Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, ...
Hadoop家族学习路线图--转载
原文地址:http://blog.fens.me/hadoop-family-roadmap/ Sep 6, 2013 Tags: Hadoophadoop familyroadmap Comment ...
Hadoop家族学习路线图
Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, ...
大数据架构师基础：hadoop家族，Cloudera产品系列等各种技术
大数据我们都知道hadoop,可是还会各种各样的技术进入我们的视野:Spark,Storm,impala,让我们都反映不过来.为了能够更好的架构大数据项目,这里整理一下,供技术人员,项目经理,架构师选 ...
hadoop家族的各个成员
这篇文章不提原理,讲讲hadoop及其周边项目的作用. hadoop这个词已经流行好多年了,一提到大数据就会想到hadoop,那么hadoop的作用是什么呢? 官方定义:hadoop是一个开发和执行处 ...
hadoop家族简介
Hadoop家族由以下几个子项目组成: Hadoop Common Hadoop体系最底层的一个模块,为Hadoop各子项目提供各种工具,如:配置文件和日志操作等. Avro Avro是doug cu ...
Apache Twill：Hadoop家族的最新成员
Continuuity将他们之前在GitHub开源的项目Weave提交到Apache基金会,获得批准成为孵化项目Apache Twill,这是Hadoop家族的最新成员. Twill的目的是在比较底层 ...
大数据004——Hadoop
大数据004--Hadoop 1. 前言 Hadoop是一个开源框架,它允许在整个集群使用简单编程模型计算机的分布式环境存储并处理大数据.它的目的是从单一的服务器到上千台机器的扩展,每一个台机都可以提 ...
最全的大数据技术大合集：Hadoop家族、Cloudera系列、spark
大数据我们都知道hadoop,可是还会各种各样的技术进入我们的视野:Spark,Storm,impala,让我们都反映不过来.为了能够更好的架构大数据项目,这里整理一下,供技术人员,项目经理,架构师选 ...

004-hadoop家族概述

004-hadoop家族概述相关推荐

最新文章

热门文章