官网教程:什么是Apache Hadoop?
英文原文地址:http://hadoop.apache.org/
Apache™Hadoop®项目为可靠的,可扩展的分布式计算开发开源软件。
Apache Hadoop软件库是一个框架,它允许使用简单的编程模型跨计算机群集分布式处理大型数据集。它旨在从单个服务器扩展到数千台机器,每台机器提供本地计算和存储。该库本身不是依靠硬件来提供高可用性,而是设计用于在应用层检测和处理故障,从而在一组计算机之上提供高可用性服务,每个计算机都可能出现故障。
该项目包括这些模块:
- Hadoop Common:支持其他Hadoop模块的常用工具。
- Hadoop分布式文件系统(HDFS™):一种分布式文件系统,可提供对应用程序数据的高吞吐量访问。
- Hadoop YARN:作业调度和集群资源管理的框架。
- Hadoop MapReduce:一种用于并行处理大型数据集的基于YARN的系统。
Apache的其他Hadoop相关项目包括:
- Ambari™:一种用于供应,管理和监控Apache Hadoop集群的基于Web的工具,其中包括对Hadoop HDFS,Hadoop MapReduce,Hive,HCatalog,HBase,ZooKeeper,Oozie,Pig和Sqoop的支持。 Ambari还提供了一个用于查看集群运行状况的仪表板,例如热图以及以可视方式查看MapReduce,Pig和Hive应用程序以及以用户友好的方式诊断其性能特征的功能。
- Avro™:数据序列化系统。
- Cassandra™:无单点故障的可扩展多主数据库。
- Chukwa™:管理大型分布式系统的数据收集系统。
- HBase™:可扩展的分布式数据库,支持大型表格的结构化数据存储。
- Hive™:提供数据汇总和即席查询的数据仓库基础架构。
- Mahout™:可扩展的机器学习和数据挖掘库。
- Pig™:用于并行计算的高级数据流语言和执行框架。
- Spark™:用于Hadoop数据的快速和通用计算引擎。 Spark提供了一个简单而富有表现力的编程模型,支持广泛的应用程序,包括ETL,机器学习,流处理和图计算。
- Tez™:一种基于Hadoop YARN的通用数据流编程框架,它提供了一个强大且灵活的引擎,可执行任意DAG任务来处理批处理和交互式用例的数据。 Hado™生态系统中的Hive™,Pig™和其他框架以及其他商业软件(例如ETL工具)正在采用Tez,以替代Hadoop™MapReduce作为底层执行引擎。
- ZooKeeper™:分布式应用程序的高性能协调服务。
入门
要开始,请从这里开始:
- 通过阅读文档了解Hadoop。
- 从发布页面下载Hadoop。
- 在邮件列表中讨论Hadoop。
下载Hadoop
请前往 发布页面下载Apache Hadoop版本。
谁在使用Hadoop?
各种各样的公司和组织都将Hadoop用于研究和生产。鼓励用户将自己添加到Hadoop PoweredBy wiki页面。
新闻
2018年5月31日:版本3.0.3可用
这是Apache Hadoop 3.0产品线的下一个版本。它包含249个错误修复,自3.0.2以来的改进和其他增强。
鼓励用户阅读自3.0.2以来的主要更改概述。有关自上一版3.0.2发布以来的249个错误修复,改进和其他增强的详细信息,请查看发行说明和更改日志详细了解自3.0.2以来所做的更改。
2018年5月15日:版本2.8.4可用
这是Apache Hadoop 2.8产品线的下一个版本。它包含77个错误修复,自2.8.3以来的改进和增强。
鼓励用户阅读Apache Hadoop 2.8主要功能和改进的主要更改概述。有关自2.8.3版本以来的77个修复,改进和其他增强的详细信息,请检查发布说明和更新日志。
2018年5月3日:版本2.9.1可用
这是Apache Hadoop 2.9行的下一个版本。它包含208个错误修复,自2.9.0以来的改进和增强。
鼓励用户阅读Apache Hadoop 2.9主要功能和改进的主要更改概述。有关自2.9.0发布以来的208个修复,改进和其他增强的详细信息,请检查发布说明和更新日志。
2018年4月21日:版本3.0.2可用
这是Apache Hadoop 3.0产品线的下一个版本。此版本修复了Hadoop 3.0.1中发布的碎片瓶。
有关详细信息,请参阅Hadoop 3.0.2发行说明。
2018年4月16日:版本2.7.6可用
这是Apache Hadoop 2.7产品线的下一个版本。
2018年4月6日:版本3.1.0可用
这是Apache Hadoop 3.1版本的第一个版本。它包含768个错误修复,自3.0.0以来的改进和增强
鼓励用户阅读自3.0.0以来的主要更改概述。有关自上一版3.0.0以来的768个错误修复,改进和其他增强功能的详细信息,请查看发布说明和更改日志详细了解自3.0.0以来的更改。
2018年3月25日:版本3.0.1可用
这是Apache Hadoop 3.0产品线的下一个版本。它包含49个错误修复,自3.0.0以来的改进和增强。
请注意:在3.0.1之后,3.0.0已被弃用,因为HDFS-12990将NameNode默认RPC端口更改回8020。
鼓励用户阅读自3.0.0以来的主要更改概述。有关自上一版3.0.0发布以来的49个错误修复,改进和其他增强功能的详细信息,请查看发布说明和更改日志详细了解自3.0.0以来的更改。
2017年12月14日:版本2.7.5可用
这是Apache Hadoop 2.7产品线的下一个版本。
请参阅Hadoop 2.7.5发行说明,了解自上一版本2.7.4以来的34个错误修复和优化列表。
2017年12月13日:3.0.0版本一般可用
在四个alpha版本和一个beta版本发布之后,通常可以使用3.0.0。 3.0.0包含自3.0.0-beta1以来的302个错误修复,改进和其他增强功能。总而言之,自2.7.0以来,已有6242个问题作为3.0.0发布系列的一部分进行了修复。
鼓励用户阅读3.0.0中的主要更改概述。 GA发布说明和更新日志详细介绍了自3.0.0-beta1以来的更改。
2017年12月12日:版本2.8.3可用
这是Apache Hadoop 2.8发行版的下一个版本。它包含79个错误修复,自2.8.2以来的改进和其他增强。有关Apache Hadoop 2.8的主要功能和改进,请参阅:主要更改的概述。有关自上一版2.8.2以来的79个修复,改进和其他增强功能的详细信息,请检查:发行说明和更新日志
2017年11月17日:可用版本2.9.0
这是2.9版本发布的第一个GA版本。它包含30个新功能,包含500多个子任务,407个改进,790个错误修复了自2.8.2以来新增的固定问题。有关Apache Hadoop 2.8.2的主要功能和改进,请参阅:主要更改的概述。有关自上一版2.8.2以来的790个错误修复,改进和其他增强功能的详细信息,请检查:发行说明和更改日志
请注意:尽管此版本已在相当大的群集上进行过测试,但生产用户可以等待后续的版本发布,其中包含进一步稳定和下游采用的修复。
2017年10月24日:版本2.8.2可用
这是2.8版本发布的第一个GA版本。它包含自2.8.1以来的315个错误修复,改进和其他增强功能。有关Apache Hadoop 2.8的主要功能和改进,请参阅:主要更改的概述。有关自上一个2.8.1发行版以来的315个修复,改进和其他增强功能的详细信息,请检查:发行说明和更新日志
2017年10月3日:发布3.0.0-beta1可用
这是3.0.0发行版中的第一个测试版。它由自3.0.0-alpha4以来的576个错误修复,改进和其他增强组成。这是计划成为最终的alpha版本,下一个版本是3.0.0 GA。
请注意,beta版本API稳定,但没有质量保证,不适用于生产用途。
鼓励用户阅读3.0.0中的重大更改概述。 beta1发行说明和更新日志详细介绍了自3.0.0-alpha4以来的更改。
2017年8月4日:版本2.7.4可用
这是Apache Hadoop 2.7产品线的下一个版本。
请参阅Hadoop 2.7.4发行说明,了解自上一版本2.7.3以来的264个错误修复和优化列表。
2017年7月7日:发布3.0.0-alpha4可用
这是3.0.0发行版中的第四个alpha版本。它包含自3.0.0-alpha3以来的814个错误修复,改进和其他增强功能。这是计划成为最终的alpha版本,下一个版本是3.0.0-beta1。
请注意,alpha版本不具有质量或API稳定性的保证,并且不适用于生产用途。
鼓励用户阅读3.0.0中的重大更改概述。 alpha4发布说明和更新日志详细介绍了自3.0.0-alpha3以来的更改。
2017年6月8日:版本2.8.1可用
这是2.8.0发行版中的安全发布版。它包含2.8.0以上的安全修复程序。鼓励2.8.0用户升级到2.8.1。
请注意,2.8.x发行版仍未准备好用于生产。关键问题正在通过测试和下游采用来解决。生产用户应该等待2.8.x版本的后续版本。
2017年5月26日:版本3.0.0-alpha3可用
这是3.0.0发行版中的安全发行版。它由alpha2 plus安全修补程序以及必要的与生成相关的修补程序组成。鼓励3.0.0-alpha1和3.0.0-alpha2上的用户升级到3.0.0-alpha3。
请注意,alpha版本不具有质量或API稳定性的保证,并且不适用于生产用途。
鼓励用户阅读3.0.0中的重大更改概述。 alpha3发布说明和更新日志详细介绍了自3.0.0-alpha2以来的更改。
2017年3月22日:版本2.8.0可用
Apache Hadoop 2.8.0包含许多重要的功能和增强功能。有关主要功能和改进,请参阅:2.8.0中的重大更改概述。有关自上一个2.7.0发布以来的2917次修复,改进和新功能的详细信息,请检查:发行说明和更新日志
请注意,此版本还没有准备好供生产使用。关键问题正在通过测试和下游采用来解决。生产用户应该等待2.8.1 / 2.8.2版本。
2017年1月25日:可提供版本3.0.0-alpha2
这是一系列计划的alpha和beta中的第二个alpha,导致3.0.0 GA版本。其目的是“尽早发布,经常发布”,以快速反复收集下游用户的反馈意见。
请注意,alpha版本不具有质量或API稳定性的保证,并且不适用于生产用途。
鼓励用户阅读3.0.0中的重大更改概述。自上一个3.0.0-alpha1发布以来,alpha2发行说明和更新日志详细信息857修复,改进和新功能。
2016年10月08日:版本2.6.5可用
2.6版本的发行版。
请参阅Hadoop 2.6.5发行说明中的79个关键错误修复列表以及自2.6.4之前的版本。
2016年9月3日:发布3.0.0-alpha1可用
这是一系列计划的alpha和beta中的第一个alpha,它们导致了3.0.0 GA版本的发布。其目的是“尽早发布,经常发布”,以快速反复收集下游用户的反馈意见。
请注意,alpha版本不具有质量或API稳定性的保证,并且不适用于生产用途。
鼓励用户阅读3.0.0中的重大更改概述。全套发行说明和更新日志详细介绍了自上一个小版本2.7.0以来的所有更改。
2016年8月25日:版本2.7.3可用
2.7线的点释放。
请参阅Hadoop 2.7.3发行说明,查看自上一版本2.7.2以来的221个错误修复和补丁列表。
2016年2月11日:版本2.6.4可用
2.6版本的发行版。
请参阅Hadoop 2.6.4发行说明中的46个关键错误修复列表以及2.6.3以前的版本。
2016年1月25日:版本2.7.2(稳定)可用
2.7线的点释放。
请参阅Hadoop 2.7.2发行说明,了解自上一版本2.7.1以来的155个错误修复和修补程序的列表。
2015年12月17日:版本2.6.3可用
2.6版本的发行版。
请参阅Hadoop 2.6.3发行说明中的35个关键错误修复列表以及自2.6.2之前的版本。
2015年10月28日:版本2.6.2可用
2.6版本的发行版。
请参阅Hadoop 2.6.2发行说明中的15个关键错误修复列表以及自上一版本2.6.1以来的列表。
2015年9月23日:版本2.6.1可用
2.6版本的发行版。
请参阅Hadoop 2.6.1发行说明中的158个关键错误修复列表以及自2.6.0之前的版本。
2015年7月6日:版本2.7.1(稳定)可用
2.7线的点释放。这个版本现在被认为是稳定的。
请参阅Hadoop 2.7.1发行说明,了解自上一版本2.7.0以来的131个错误修复和修补程序的列表。请参阅下面的2.7.0部分,了解第一个稳定版本2.7.x所支持的增强功能列表。
2015年4月21日:版本2.7.0可用
Apache Hadoop 2.7.0包含许多重要的增强功能。其中一些在下面提到。
重要笔记
此版本不再支持JDK6运行时,仅适用于JDK 7+。
此版本尚未准备好用于生产。关键问题正在通过测试和下游采用来解决。生产用户应该等待2.7.1 / 2.7.2版本。
Hadoop通用
支持Windows Azure存储 - Blob作为Hadoop中的文件系统。
Hadoop HDFS
支持文件截断
支持每种存储类型的配额
支持具有可变长度块的文件
Hadoop YARN
使YARN授权可插入
YARN本地化资源的自动共享全局缓存(测试版)
Hadoop MapReduce
能够限制正在运行的Map / Reduce任务
加快FileOutputCommitter以处理包含许多输出文件的非常大的作业。
有关此里程碑版本的完整信息,请参阅Hadoop发行版。
2014年11月18日:2.6.0版本发售
Apache Hadoop 2.6.0包含许多重要的增强功能,例如:
Hadoop通用
密钥管理服务器(测试版)
凭据提供者(测试版)
Hadoop HDFS
异构存储层 - 阶段2
用于异构存储的应用程序API
SSD存储层
内存作为存储层(测试版)
支持档案存储
静态加密透明数据(测试版)
操作安全的DataNode而无需root访问权限
热插拔驱动器:支持添加/删除数据节点卷,无需重新启动数据节点(测试版)
AES支持更快的线路加密
Hadoop YARN
支持YARN长时间运行的服务
应用程序的服务注册
支持滚动升级
ResourceManager的工作保持重启
NodeManager的容器保留重启
在调度期间支持节点标签
支持Capacity Scheduler中的基于时间的资源预留(测试版)
应用程序工件的全局共享缓存(测试版)
支持在Docker容器中本地运行应用程序(alpha)
有关此里程碑版本的完整信息,请参阅Hadoop发行版。
2014年11月19日:版本2.5.2可用
有关此里程碑版本的完整信息,请参阅Hadoop发行版。
2014年9月12日:发布2.5.1可用
有关此里程碑版本的完整信息,请参阅Hadoop发行版。
2014年8月11日:发布2.5.0可用
有关此里程碑版本的完整信息,请参阅Hadoop发行版。
2014年6月30日:版本2.4.1可用
有关此里程碑版本的完整信息,请参阅Hadoop发行版。
2014年6月27日:发布0.23.11可用
有关此里程碑版本的完整信息,请参阅Hadoop发行版。
2014年4月7日:发布2.4.0可用
有关此里程碑版本的完整信息,请参阅Hadoop发行版。
2014年2月20日:发布2.3.0可用
有关此里程碑版本的完整信息,请参阅Hadoop发行版。
2013年12月11日:发布0.23.10可用
有关此里程碑版本的完整信息,请参阅Hadoop发行版。
2013年10月15日:发布2.2.0可用
Apache Hadoop 2.x达到了GA里程碑!有关此里程碑版本的完整信息,请参阅Hadoop发行版。
2013年8月25日:发布2.1.0-beta版本
Apache Hadoop 2.x达到beta里程碑!有关此里程碑版本的完整信息,请参阅Hadoop发行版。
2011年12月27日:发布1.0.0可用
Hadoop达到1.0.0!有关此里程碑版本的完整信息,请参阅Hadoop发行版。
2011年3月 - Apache Hadoop荣获Media Guardian创新奖最高奖
由评审团称之为“21世纪的瑞士军刀”,Apache Hadoop因具有改变媒体创新面貌的潜力而获得年度创新奖。
请参阅卫报网站
2011年1月 - ZooKeeper毕业生
Hadoop的ZooKeeper子项目已经逐渐成为顶级Apache项目。
Apache ZooKeeper现在可以在http://zookeeper.apache.org/找到。
2010年9月 - 蜂巢和猪毕业生
Hadoop的Hive和Pig子项目已经毕业,成为顶级Apache项目。
Apache Hive现在可以在http://hive.apache.org/找到。
猪现在可以在http://pig.apache.org/找到
2010年5月 - Avro和HBase毕业生
Hadoop的Avro和HBase子项目已经毕业,成为顶级Apache项目。
Apache Avro现在可以在http://avro.apache.org/找到。
Apache HBase现在可以在http://hbase.apache.org/找到。
2009年7月 - 新的Hadoop子项目
Hadoop越来越大!
Hadoop Core被重命名为Hadoop Common。
MapReduce和Hadoop分布式文件系统(HDFS)现在是独立的子项目。
Avro和Chukwa是新的Hadoop子项目。
请参阅上述所有子项目的摘要说明。访问个别网站获取更多详细信息。
2009年3月 - ApacheCon EU
如果你错过了...... ApacheCon欧洲2009
2008年11月 - ApacheCon US
如果你错过了...... ApacheCon US 2008
2008年7月 - Hadoop赢得Terabyte排序基准
Hadoop赢得Terabyte排序基准:雅虎Hadoop集群中的一个在209秒内对1 TB数据进行排序,在年度通用(Daytona)TB级排序基准测试中击败了之前创纪录的297秒。 这是Java或开源程序第一次获得胜利。
官网教程:什么是Apache Hadoop?相关推荐
- Spring Cloud学习笔记—网关Spring Cloud Gateway官网教程实操练习
Spring Cloud学习笔记-网关Spring Cloud Gateway官网教程实操练习 1.Spring Cloud Gateway介绍 2.在Spring Tool Suite4或者IDEA ...
- hadoop官网介绍及如何下载hadoop(2.4)各个版本与查看hadoop API介绍
1.如何访问hadoop官网? 2.如何下载hadoop各个版本? 3.如何查看hadoop API? 很多同学开发都没有二手资料,原因很简单觉得不会英语,但是其实作为软件行业,多多少少大家会英语的, ...
- [pytorch] 官网教程+注释
pytorch官网教程+注释 Classifier import torch import torchvision import torchvision.transforms as transform ...
- MNE溯源fieldtrip官网教程
MNE溯源fieldtrip官网教程 Introduction 在本教程中,您可以找到有关如何使用最小范数估计进行源重构的信息,以重构单个主题的事件相关字段(MEG).我们将使用预处理教程中描述的数据 ...
- 菜鸟官网下载爱装apache
菜鸟官网下载爱装apache 1.对于php学习,肯定都要安装apache服务器,我是初次学习,所以并没有直接wamp一起安装,而是单独进行apache的安装,为了确保软件正确性,我选择官网进行安装. ...
- Gem5模拟器,详解官网教程Event-driven programming(五)
目录 一.解释一下gem5中的event-driven? 二.Creating a simple event callback (1)定义一个新的 C++ 类,并继承自 SimObject 抽象基类 ...
- java官网教程(基础篇)—— 基础的Java类 —— 基础 I / O
目录 基本 Java 类 基础 I/O I/O流 字节流 字符流 缓冲流 扫描和格式化 扫描 格式化 从命令行中进行IO操作 数据流 对象流 文件 I/O(采用 NIO.2) 什么是路径? Path类 ...
- Angular官网教程示例知识点总结
Angular官网教程示例知识点总结 1.背景 2.知识点 2.1 应用的外壳 2.1.1 使用 Angular CLI 创建初始的应用结构 2.1.2 启动应用服务器 2.1.3 双花括号表达式 2 ...
- Docker 官网教程实践 自定义 bridge 网络
前言 这篇笔记是 docker 官网教程 自定义 bridge 网络的实践. 用户自定义 bridge 网络是在生产环境中推荐到最佳方式,因此这篇教程要特别注意. 这个教程中,启动了2个 alpine ...
最新文章
- Symfony学习笔记
- Python 之 matplotlib (七)Scatter
- Android工程师面试该怎么准备?终局之战
- UA OPTI570 量子力学17 创生算符与湮灭算符
- Kafka设计解析(七)- 流式计算的新贵 Kafka Stream
- 一份关于jvm内存调优及原理的学习笔记
- 为iptables开放新的网络端口
- 机器人出魔切还是三相_英雄联盟:辅助也要去上单,机器人布里茨玩法介绍
- 什么原因成就了一位优秀的程序员?
- java界面怎么加图片不显示不出来_Java登录界面中添加背景图片,程序无错,但加载不了图片,求帮忙...
- H5上传从微信保存的图片提示格式不对
- 模拟登录人人网,豆瓣
- Millet谷仓区块链和电子商务及Token相结合的产物
- 液晶显示屏的C语言编码,AMPIRE12864液晶C语言代码
- 主要有哪些具体的技术指标?
- 读透《阿里巴巴数据中台实践》,其到底有什么高明之处?
- 飞跃芝麻街:XLNet 详解
- 张矩:信息安全创业必知手册
- python配对t检验_用python进行配对样本差异分析
- 看金融海啸是如何害死蚯蚓一家的(多图杀猫)
热门文章
- Python如何将多张照片制作成视频
- 转:条件变量(Condition Variables)
- SPI、I2C、UART、I2S、GPIO、SDIO、CAN,你能分清楚吗?
- FreeSwitcch(java使用)
- 实践API钩子拦截DLL库调用
- 表单的一些样式以及属性
- 一步步学习微软InfoPath2010和SP2010--第一章节--介绍InfoPath2010(2)--InfoPath2010的新功能
- 511遇见易语言API模块进程ID取窗口句柄
- 使用C#开发Word VSTO外接程序示例
- BOM123编辑器(123BOM编辑器)是硬件工程师整理BOM的好帮手,3分钟完成一份BOM集成整理,很适合自己创业的工程师