这篇文章不提原理,讲讲hadoop及其周边项目的作用。

hadoop这个词已经流行好多年了,一提到大数据就会想到hadoop,那么hadoop的作用是什么呢?

官方定义:hadoop是一个开发和执行处理大规模数据的软件平台。核心词语是平台,也就是说我们有大量的数据,又有好几个电脑,我们知道应该把处理数据的任务分解到各个电脑上,可是不知道如何分配任务,如何回收结果,hadoop大概就帮助我们做了这件事。

1HDFS

我们首先应该考虑的是海量数据怎么保存,怎么管理。这就有了分布式文件系统,HDFS。

2Map-Reduce

数据保存后,我们如何处理这些数据呢,假设我处理的方法复杂,而不不过排序,查找这种操作怎么办?须要有一个可以提供编写代码的地方,让我们自己写出操作,它内部再进行分解,分配,回收数据等等。

3Hive

能编代码是好的,但编代码太麻烦,并且数据库人员是熟悉SQL语句的,能用SQL语句处理,就不用Map-Reduce了吧,所以出现了Hive。并且大数据不管怎样是离不开数据库,离不开表,Hive就能讲数据映射成数据表,然后再操作就方便了,它的缺点是速度较慢。

4HBase

既然Hive的速度较慢,那么有没有较快的数据库呢?HBase就是,他为查询而生的,查询的速度非常快。

5Sqoop

曾经不是有非常多有名的数据库像MySQL,Oracle,我数据都是存在这里面的,怎么导入到HDFS中呢?Sqoop提供了关系型数据库和HDFS之间的相互转换。

6Flume

在这么多电脑上工作,假设当中一台有点问题,或者上面哪个服务有点问题,如何知道哪坏了呢?Flume提供了一个高可靠的日志採集系统。

7Mahout

处理大数据非常多是用来进行数据挖掘,有那几种常见的机器学习算法,既然算法都固定了并且就那几种,那就开发个叫Mahout的东西实现各种算法,开发者就能更快捷的使用。

8Zookeeper

ZooKeeper的目标是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。说白了就是动物园管理员,他是用来来管大象(Hadoop) 、 蜜蜂(Hive)的。
以上是Hadoop家族的主要成员,还有几个不经常使用的就不用介绍了,知道这些成员的作用后,对Hadoop总体能干什么就有了初步的认识,剩下的就是慢慢学习各个部分的原理和用法了。

转载于:https://www.cnblogs.com/yxwkf/p/3849348.html

hadoop家族的各个成员相关推荐

  1. Apache Twill:Hadoop家族的最新成员

    Continuuity将他们之前在GitHub开源的项目Weave提交到Apache基金会,获得批准成为孵化项目Apache Twill,这是Hadoop家族的最新成员. Twill的目的是在比较底层 ...

  2. 大数据架构师基础:hadoop家族,Cloudera产品系列等各种技术

    大数据我们都知道hadoop,可是还会各种各样的技术进入我们的视野:Spark,Storm,impala,让我们都反映不过来.为了能够更好的架构大数据项目,这里整理一下,供技术人员,项目经理,架构师选 ...

  3. [转]Hadoop家族学习路线图

    Hadoop家族学习路线图 Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, ...

  4. Hadoop家族学习路线图--转载

    原文地址:http://blog.fens.me/hadoop-family-roadmap/ Sep 6, 2013 Tags: Hadoophadoop familyroadmap Comment ...

  5. Hadoop家族学习路线图

    Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, ...

  6. hadoop家族简介

    Hadoop家族由以下几个子项目组成: Hadoop Common Hadoop体系最底层的一个模块,为Hadoop各子项目提供各种工具,如:配置文件和日志操作等. Avro Avro是doug cu ...

  7. Nature子刊:机器学习方法扩展了anti-CRISPR蛋白家族的所有成员

    机器学习方法扩展了anti-CRISPR蛋白家族的成员 Machine-learning approach expands the repertoire of anti-CRISPR protein ...

  8. 最全的大数据技术大合集:Hadoop家族、Cloudera系列、spark

    大数据我们都知道hadoop,可是还会各种各样的技术进入我们的视野:Spark,Storm,impala,让我们都反映不过来.为了能够更好的架构大数据项目,这里整理一下,供技术人员,项目经理,架构师选 ...

  9. hadoop家族成员

    Hadoop是Apache开源组织的一个分布式计算开源框架(http://hadoop.apache.org/) 其主要成员为 HDFS HDFS是一种用于Hadoop应用程序的主存储系统,也是一个高 ...

最新文章

  1. 是否能领先e步 浅析SSD中的eTLC和eMLC颗粒
  2. RocketMQ架构模块解析
  3. 修改Eclipse中项目在Apache Tomcat中的部署路径
  4. 表单提交对chrome记住密码的影响
  5. VTK:标记关键点用法实战
  6. Cell封面文章:跑步短短10分钟,身体近10000个分子大变样!蛋白组学破解运动有益健康之谜...
  7. 空调恶搞工具小程序版源码下载
  8. 修改数据库的兼容级别
  9. android 8.1闪退,宁波市民卡app在Android 8.1闪退_宁波民生e点通
  10. python之--工具类方法
  11. (转)如何在MySql中记录SQL日志(例如Sql Server Profiler)
  12. 获取Access数据库字段的所有属性(转)
  13. Linux下安装、配置、启动Apache
  14. Swift开发:使用SwiftyJSON解析JSON数据
  15. Java文件上传数据库(并保存本地)、word转pdf并进行页面预览
  16. payjs 源码_GitHub - wlijie/payjs_test: PAYJS 小程序支付框架与示例
  17. 你真的理解亲密关系的价值吗?
  18. 不同的工具包对Voxel-based morphometry (VBM)计算结果的影响
  19. 药物研发统计师的一天(试验设计篇)
  20. html小游戏色,【HTML小游戏】找色差游戏,没事儿可以解解闷(附源代码)

热门文章

  1. 提里奥·弗丁(魔兽世界里的NPC)
  2. Vue组件通信原理剖析(二)全局状态管理Vuex
  3. 【WPF】设置TextBox内容为空时的提示文字
  4. 2.数据结构笔记学习--线性表基本操作
  5. Noise噪音halcon算子,持续更新
  6. python 制作二进制文件数据集(bin)
  7. python arcgis 图书_arcgis python
  8. java 观察者模式_Java技术干货分享:深入理解观察者模式原理与技术
  9. java wait源码_Java精通并发-透过openjdk源码分析wait与notify方法的本地实现
  10. php strstr 效率,PHP中的stristr(),strstr(),strpos()速度比较