Apache Hadoop 项目开发的开源软件提供了可靠、可伸缩、分布式的计算。它是Google类似技术的开源版本。使用Hadoop的公司有Yahoo!, Facebook, Twitter, IBM等。

为什么要开发这样的系统呢?“When data exists in this quantity (terabit/day or petabit/day), one of the processing limitations is that it takes a significant amount of time to move the data. Apache Hadoop has emerged to address these concerns with its unique approach of moving the work to the data and not the other way around.” 简单翻译就是,当数据量非常庞大的时候,移动数据时间也非常庞大。为了处理这个挑战,Hadoop采用将数据处理工作移动到数据处而不是反向移动的方式。

Hadoop 包括如下的子项目:

  • Hadoop Common : 项目共用软件包
  • Chukwa : 数据收集系统以管理大型分布式系统
  • HBase : 可伸缩、分布式、结构化数据库
  • HDFS : 分布式文件系统
  • Hive : 数据仓库以提供数据整合以及ad hoc查询
  • MapReduce : 分布式大型数据处理软件框架
  • Pig : 数据流语言以及平行化执行框架
  • ZooKeeper : 为分布式应用程序提供高性能协调服务

Hadoop的工作原理可以用下面的图简单描述:

还有很多基于Hadoop开发的项目:

  • Nutch:开发基于 Nutch 的集群式搜索引擎
  • Mahout:基于 Apache Mahout 构建社会化推荐引擎
  • Cassandra: 分布式 Key-Value 存储系统:Cassa

如果你想进一步了解Hadoop,《Hadoop权威指南(中文版)》将是你第一选择了,它是Hadoop的开发者写的,所以相当的权威性。

转载于:https://www.cnblogs.com/ainima/archive/2010/08/11/6331329.html

Apache Hadoop 项目介绍相关推荐

  1. Apache基金会项目介绍

    项目名称 描述 HTTP Server 互联网上首屈一指的HTTP服务器 Abdera Apache  Abdera项目的目标是建立一个功能完备,高效能的IETF Atom联合格式(RFC4287)和 ...

  2. Apache Jakarta 项目介绍

    Apache Jakarta apache是一个开源的组织名.后来制定了一个以apache命名的开源协议. jakarta是apache组织下的一套Java解决方案的开源软件的名称,它包括了很多子项目 ...

  3. hadoop简单介绍_Hadoop:简单介绍

    hadoop简单介绍 什么是Hadoop: Hadoop是用Java编写的框架,用于在大型商品硬件群集上运行应用程序,并具有类似于Google File System和MapReduce的功能 . H ...

  4. 大数据概念和Hadoop基本介绍

    开始学习大数据,一步一个脚印,好好坚持下去! 大数据概述 1.大数据特征 第一个,volume(量),大数据第一个基础是它的数据量要大: 第二个,velocity(速度),大数据一个很重要的它必须是实 ...

  5. 官网教程:什么是Apache Hadoop?

    英文原文地址:http://hadoop.apache.org/ Apache™Hadoop®项目为可靠的,可扩展的分布式计算开发开源软件. Apache Hadoop软件库是一个框架,它允许使用简单 ...

  6. Apache Hadoop 2.9.2文档中文译文 -------未完!!!!!!

    目录 一. General(概括) 1. Overview 2. Single Node Setup 3. Cluster Setup 4. Commands Reference 5. FileSys ...

  7. Submarine:在 Apache Hadoop 中运行深度学习框架

    \u003cp\u003e作者: \u003ca href=\"https://hortonworks.com/blog/author/wtan/\"\u003eWangda Ta ...

  8. Apache Zookeeper基本介绍

    ZooKeeper是分布式应用程序的高性能协调服务.它是Apache Hadoop项目的一个子项目,主要用来解决分布式应用场景中存在的一些问题,如:统一命名服务.状态同步服务.集群管理.分布式应用配置 ...

  9. Hadoop学习笔记—20.网站日志分析项目案例(一)项目介绍

    Hadoop学习笔记-20.网站日志分析项目案例(一)项目介绍 网站日志分析项目案例(一)项目介绍:当前页面 网站日志分析项目案例(二)数据清洗:http://www.cnblogs.com/edis ...

  10. hadoop创建java项目的步骤_为 Apache Hadoop 创建 Java MapReduce - Azure HDInsight | Microsoft Docs...

    您现在访问的是微软AZURE全球版技术文档网站,若需要访问由世纪互联运营的MICROSOFT AZURE中国区技术文档网站,请访问 https://docs.azure.cn. 为 HDInsight ...

最新文章

  1. 赛程一览 | 2019 上海国际创客大赛
  2. c# dynamic 无法创建 泛型变量的问题
  3. 《大数据,小时代,向移动互联网迁徙-2012上半年移动互联网数据分享》_DCCI
  4. Linux带给了我什么?
  5. SAP Spartacus - Progressive Web Applications,渐进式 Web 应用程序
  6. 【对象程序设计面向】虚继承
  7. 已饱和!未来程序员没活路了...
  8. 2017.5.9 寻找道路 思考记录
  9. linux 不显示路径原因,linux 下shell 显示-bash-4.1不显示路径解决办法
  10. 访问母版页控件、属性、方法及母版页中调用内容页的方法
  11. CentOS系统yum源使用报错:Error: Cannot retrieve repository metadata
  12. 数据--第37课 - 线索化二叉树
  13. 阿里云郑晓:浅谈GPU虚拟化技术(第二章)
  14. Maya及UE4的 ART相关
  15. 【Java】用类描述计算机中CPU的速度和硬盘的容量,要求Java应用程序由4个类,名字分别是PC、CPU、HardDisk、和Test,其中Test是主类。
  16. 正态分布、对数正态分布参数(mu, sigma)与数据本身均值方差(m, v)的关系
  17. 熊猫数据集_使用大数据的熊猫
  18. OpenCV实践(4)- 叠加两幅图片
  19. secure CRT设置自动保存日志
  20. 好久不见——洗尽铅华后的释然放手

热门文章

  1. EtherDream:在 JavaScript 中使用 C 程序
  2. Python天天学_03_基础三
  3. 怎么方便地不通过鼠标在应用之间复制/粘贴文本
  4. .AsEnumerable() 和 .ToList() 的区别:
  5. 10074 启用开发者模式 for vs2015rc
  6. 在Virtual Machine上运行Hello China的方法和工具
  7. idea 设置代码的颜色
  8. 2015/8/30 Python基础(4):序列操作符
  9. 【Zend Studio】10.6.0版本设置默认编码为UTF-8
  10. 将DataGrid中的数据导出为Excel的方法