已经出过HDFS和MapReduce系列博客的小菌突发奇想,想拿一篇博客好好介绍一下它们的"老大哥"——Hadoop。为什么这么说,相信看完下面的内容你就知道了!

文章目录

  • Hadoop的简介
  • Hadoop的发展简史
  • Hadoop的特性
  • Hadoop的应用现状
  • Apache Hadoop版本演变
  • Hadoop各种版本
  • Hadoop项目结构
  • Hadoop生态系统

Hadoop的简介

  • Hadoop是Apache软件基金会旗下的一个开源分布式计算平台,为用户提供了系统底层细节透明的分布式基础架构
  • Hadoop是基于Java语言开发的,具有很好的跨平台特性,并且可以部署在廉价的计算机集群中
  • Hadoop被公认为行业大数据标准开源软件,在分布式环境下提供了海量数据的处理能力
  • 几乎所有主流厂商都围绕Hadoop提供开发工具、开源软件、商业化工具和技术服务,如谷歌、雅虎、微软、思科、淘宝等,都支持Hadoop

Hadoop的发展简史

  • Hadoop最初是由Apache Lucene项目的创始人Doug Cutting开发的文本搜索库。Hadoop源自始于2002年的Apache Nutch项目——一个开源的网络搜索引擎并且也是Lucene项目的一部分

  • 在2004年,Nutch项目也模仿GFS开发了自己的分布式文件系统NDFS(Nutch Distributed File System),也就是HDFS的前身

  • 2004年,谷歌公司又发表了另一篇具有深远影响的论文,阐述了MapReduce分布式编程思想

  • 2005年,Nutch开源实现了谷歌的MapReduce

  • 到了2006年2月,Nutch中的NDFS和MapReduce开始独立出来,成为Lucene项目的一个子项目,称为Hadoop,同时,Doug Cutting加盟雅虎

  • 2008年1月,Hadoop正式成为Apache顶级项目,Hadoop也逐渐开始被雅虎之外的其他公司使用

  • 2008年4月,Hadoop打破世界纪录,成为最快排序1TB数据的系统,它采用一个由910个节点构成的集群进行运算,排序时间只用了209秒

  • 在2009年5月,Hadoop更是把1TB数据排序时间缩短到62秒。Hadoop从此名声大震,迅速发展成为大数据时代最具影响力的开源分布式开发平台,并成为事实上的大数据处理标准

Hadoop的特性

Hadoop是一个能够对大量数据进行分布式处理的软件框架,并且是以一种可靠、高效、可伸缩的方式进行处理的,它具有以下几个方面的特性:

  • 高可靠性
  • 高效性
  • 高可拓展性
  • 高容错性
  • 成本低
  • 运行在Linux平台上
  • 支持多种编程语言

Hadoop的应用现状

  • Hadoop凭借其突出的优势,已经在各个领域得到了广泛的应用,而互联网领域是其应用的主阵地
  • 2007年,雅虎在Sunnyvale总部建立了M45——一个包含了4000个处理器和1.5PB容量的Hadoop集群系统
  • Facebook作为全球知名的社交网站,Hadoop是非常理想的选择,Facebook主要将Hadoop平台用于日志处理、推荐系统和数据仓库等方面
  • 国内采用Hadoop的公司主要有百度、淘宝、网易、华为、中国移动等,其中,淘宝的Hadoop集群比较大

Apache Hadoop版本演变

  • Apache Hadoop版本分为两代,我们将第一代Hadoop称为Hadoop 1.0,第二代Hadoop称为Hadoop 2.0
  • 第一代Hadoop包含三个大版本,分别是0.20.x,0.21.x和0.22.x,其中,0.20.x最后演化成1.0.x,变成了稳定版,而0.21.x和0.22.x则增加了NameNode HA等新的重大特性
  • 第二代Hadoop包含两个版本,分别是0.23.x和2.x,它们完全不同于Hadoop 1.0,是一套全新的架构,均包含HDFS Federation和YARN两个系统,相比于0.23.x,2.x增加了NameNode HA和Wire-compatibility两个重大特性

Hadoop各种版本

  • Apache Hadoop
  • Hortonworks
  • Cloudera(CDH:Cloudera Distribution Hadoop)
  • MapR

选择 Hadoop版本我们应该考虑的因素:

  • 是否开源(即是否免费)
  • 是否有稳定版
  • 是否经实践检验
  • 是否有强大的社区支持

Hadoop项目结构


Hadoop生态系统

小伙伴们看到这里,应该明白为什么Hadoop是HDFS和MapReduce的"大哥"了吧~因为HDFS和MapReduce不仅各自作为Hadoop生态系统的一员,它俩更是构成了Hadoop的两大核心。关于HDFS和MapReduce的详细介绍,小伙伴们可以去看小菌前面的博客。关于Hadoop的生态系统,小菌将在下一篇博客为大家做详细介绍!敬请关注!

Hadoop详解(你想知道的这里都有!)相关推荐

  1. 日事清「企业统计」使用详解 leader想看的数据都在这里

    日事清「企业统计」功能可查看企业整体的任务完成率和延期率,部门和员工日程.计划使用情况,方便管理者能够快速的了解该企业日事清的整体使用情况,以便及时发现企业使用过程的问题. 我们可以在日事清的「应用」 ...

  2. Hadoop详解(十二):Yarn资源调度策略

    在Yarn中有三种调度器可以选择:FIFO Scheduler ,Capacity Scheduler,Fair Scheduler. FIFO Scheduler FIFO Scheduler把应用 ...

  3. Hadoop详解以及历史版本介绍

    Hadoop详解 Hadoop的介绍以及发展历史 Hadoop之父Doug Cutting Hadoop最早起源于lucene下的Nutch.Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页 ...

  4. linux的crontab绝对路径咋填,RHCE培训视频Crontab详解(创想云教育)

    原标题:RHCE培训视频Crontab详解(创想云教育) RHCE8培训视频Crontab详解 Linux 定时任务服务 crond (crontab 服务) 附课堂笔记: [root@servera ...

  5. Hadoop生态圈(一)- Hadoop详解

    目录 前言 1. Hadoop概述 1.1 Hadoop是什么 1.2 Hadoop发展简史 1.2 Hadoop三大发行版本 1.3 Hadoop优势 1.4 Hadoop的组成 1.4.1 Had ...

  6. babel 用法及其 .babelrc 的配置详解,想做前端架构,拒绝一知半解...

    Babel 官方介绍:将 ECMAScript 2015 及其版本以后的 javascript 代码转为旧版本浏览器或者是环境中向后兼容版本的  javascript 代码. 简而言之,就是把不兼容的 ...

  7. Hadoop详解(十):Hadoop 作业调度机制

    Hadoop 作为一个分布式计算平台,从集群计算的角度分析,Hadoop可以将底层的计算资源整合后统一分配到集群中的计算节点,从而达到分布式和并行计算的目的,最终完成任务的高效执行.在调度机制中涉及的 ...

  8. (Matlab源码)Matlab实现算术编码(Arithmetic coding)超级详解(每一段代码都可以看懂)

    1.代码功能 输入:一个字符串 输出: codeword(码值) codeword所占的位数 2.代码框图 3.代码超详解 统计字符串中的字符种类,调用函数,放入数组b中. b=unique(str1 ...

  9. Hadoop详解(五)——ZooKeeper详解,ZooKeeper伪分布搭建和集群搭建,Hadoop集群搭建,sqoop工具的使用

    ZooKeeper简介 什么是ZooKeeper? ZooKeeper是Google的Chubby一个开源的实现,是Hadoop分布式协调服务. 它包含了一个简单的原语集,分布式应用程序可以基于它实现 ...

最新文章

  1. iview中的Col在vue/html-self-closing中识别错误
  2. 用C语言实现分治方法数组的排序,C语言实现分治法实例
  3. NLP-基础知识-001
  4. 非常强悍的 RabbitMQ 总结,写得真好
  5. 【知识星球】分组卷积最新进展,全自动学习的分组有哪些经典模型?
  6. CentOS7虚拟机搭建xwiki
  7. java 3000并发,还被面试官怼并发编程?来,吃点能量!Java并发编程技术
  8. SQLite升级数据库:
  9. CentOS_5.5_安装GCC编译LiME
  10. 自动化运维工具 puppet
  11. 在mini2440上面搞定CC2500物理层驱动
  12. SRCNN 图像超分辨率重建(tf2)
  13. 小型电商平台系统需求分析文档
  14. BIN转HEX,HEX转BIN,互相转换工具,PIC
  15. 关于硬件批量贴片焊接流程
  16. 计算机操作系统之CPU架构和原理(二)
  17. 数据结构与算法——RB树简介
  18. 技巧分享:视频配音怎么制作?(内附3种配音教程)
  19. onmouseover 和onmousemove的区别
  20. MFC: DeviceIoControl 通过API访问设备驱动程序

热门文章

  1. 台式机进入bios后显示器无法显示
  2. 在win7安装theano
  3. git detached HEAD 问题处理
  4. Android9.0 Charles 模拟器抓包
  5. 视频水印如何去除?保存的视频怎么去水印?
  6. 。。。。。。。。。。
  7. VMware NSX原理与实践——NSX-V安装
  8. java字符流字节流场景_【120期】Java IO:字节流、字符流、缓冲流
  9. RedisManager使用手册(四)-- 集群创建(Docker)
  10. 2D与3D人体姿态估计数据集(统计)