Hadoop详解

Hadoop的介绍以及发展历史

Hadoop之父Doug Cutting

  1. Hadoop最早起源于lucene下的Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。
  2. 2003年、2004年谷歌发表的三篇论文为该问题提供了可行的解决方案。
    ——分布式文件系统(GFS),可用于处理海量网页的存储
    ——分布式计算框架MAPREDUCE,可用于处理海量网页的索引计算问题。
    ——分布式的结构化数据存储系统Bigtable,用来处理海量结构化数据。
  3. Doug Cutting基于这三篇论文完成了相应的开源实现HDFS和MAPREDUCE,并从Nutch中剥离成为独立项目HADOOP,到2008年1月,HADOOP成为Apache顶级项目(同年,cloudera公司成立),迎来了它的快速发展期。
    为什么叫Hadoop? Logo为什么是黄色的大象?
    狭义上来说,Hadoop就是单独指代Hadoop这个软件(HDFS+MAPREDUCE)
    广义上来说,Hadoop指代大数据的一个生态圈(Hadoop生态圈),包括很多其他的软件。

Hadoop的历史版本介绍

0.x系列版本:Hadoop当中最早的一个开源版本,在此基础上演变而来的1.x以及2.x的版本
1.x版本系列:Hadoop版本当中的第二代开源版本,主要修复0.x版本的一些bug等
2.x版本系列:架构产生重大变化,引入了yarn平台等许多新特性

Hadoop三大公司发型版本介绍

1、免费开源版本apache:http://Hadoop.apache.org/
优点:拥有全世界的开源贡献者,代码更新迭代版本比较快,
缺点:版本的升级,版本的维护,版本的兼容性,版本的补丁都可能考虑不太周到,学习可以用,实际生产工作环境尽量不要使用
apache所有软件的下载地址(包括各种历史版本):
http://archive.apache.org/dist/


2、免费开源版本hortonWorks:https://hortonworks.com/
hortonworks主要是雅虎主导Hadoop开发的副总裁,带领二十几个核心成员成立Hortonworks,核心产品软件HDP(ambari),HDF免费开源,并且提供一整套的web管理界面,供我们可以通过web界面管理我们的集群状态,web管理界面软件HDF网址(http://ambari.apache.org/)


3、服务收费版本ClouderaManager: https://www.cloudera.com/
cloudera主要是美国一家大数据公司在apache开源Hadoop的版本上,通过自己公司内部的各种补丁,实现版本之间的稳定运行,大数据生态圈的各个版本的软件都提供了对应的版本,解决了版本的升级困难,版本兼容性等各种问题,生产环境推荐使用。


Hadoop的模块组成
1、HDFS:一个高可靠、高吞吐量的分布式文件系统。
2、MapReduce:一个分布式的离线并行计算框架。
3、YARN:作业调度与集群资源管理的框架。
4、Common:支持其他模块的工具模块。

Hadoop的架构模型(1.x,2.x的各种架构模型介绍)




Hadoop详解以及历史版本介绍相关推荐

  1. tensorflow对应的python版本_详解Tensorflow不同版本要求与CUDA及CUDNN版本对应关系

    参考官网地址: Windows端:https://tensorflow.google.cn/install/source_windows CPU Version Python version Comp ...

  2. python无法使用1号gpu_详解tensorflow2.x版本无法调用gpu的一种解决方法

    最近学校给了一个服务器账号用来训练神经网络使用,服务器本身配置是十路titan V,然后在上面装了tensorflow2.2,对应的python版本是3.6.2,装好之后用tf.test.is_gpu ...

  3. CCNP课堂练习一:详解交换机vlan的介绍及通过交换机从逻辑上划分区域配置

    详解交换机vlan的介绍及通过交换机从逻辑上划分区域配置 今天我来说一下vlan的用处及配置,大家都知道在一家打的公司会有好几个部门比如:有财务部.技术部.策划部-- 如果这些部门都能通讯,当策划部的 ...

  4. Hadoop详解(十二):Yarn资源调度策略

    在Yarn中有三种调度器可以选择:FIFO Scheduler ,Capacity Scheduler,Fair Scheduler. FIFO Scheduler FIFO Scheduler把应用 ...

  5. C++11 并发指南四(future 详解二 std::packaged_task 介绍)

    上一讲<C++11 并发指南四(<future> 详解一 std::promise 介绍)>主要介绍了 <future> 头文件中的 std::promise 类, ...

  6. Delphi历史版本介绍(二)从Delphi8到DelphiXE3

    Delphi历史版本介绍(二)从Delphi8到DelphiXE3 Delphi 8 Delphi8是一个短命的版本,有点像微软的vista的感觉,没有很好的超越7,后来用被2005取代,很多人都是直 ...

  7. 详解redis5.x版本

    详解redis5.x版本 关系型和非关系型 关系型数据库: mysql Oracle pg 非关系型数据库: redis MongoDB esnosql not only SQL nosql 指的是非 ...

  8. Delphi历史版本介绍(一)从Delphi1到Delphi7

    Delphi历史版本介绍(一)从Delphi1到Delphi7 Pascal是一种计算机通用的高级程序设计语言.它由瑞士Niklaus Wirth教授于六十年代末设计并创立. TurboPascal语 ...

  9. LOD技术——定义详解及相关知识介绍

    LOD技术--定义详解及相关知识介绍 LOD技术(Level Of Detail)指用若干不同复杂度的模型来表示同一对象的技术.此技术主要根据视点距离对象位置的变化调用不同复杂度的模型,即在较远时调用 ...

最新文章

  1. 逆水寒服务器维护7.5,逆水寒7.26日维护到什么时候 逆水寒7.26日游戏改动汇总介绍...
  2. 王道计算机网络 计算机网络体系结构整理 超详细版
  3. php 导出txt 缩进,indent - 缩进文本
  4. GET和POST方式提交参数给web应用
  5. Spark之RDD实战篇
  6. 退出功能—session
  7. SGI版本空间配置器
  8. nginx 根据目录指定root_nginx安全优化与性能优化
  9. Incentive Mechanism Design for Distributed Coded Machine Learning论文笔记
  10. 计算机专业面试英语对话,计算机网络专业面试对话技巧
  11. 基于ssh的后台新闻管理系统
  12. 电脑插耳机有声音,扬声器没声音的解决方案(win10)
  13. window.onload用法
  14. 带你了解什么是Nginx(实操反向代理-负载均衡)
  15. linux下定时清理日志任务
  16. 在Ubuntu中配置中文输入法
  17. ☆ZigBee的碎片化
  18. Java基础3-枚举类与注解
  19. VC6数据库综合开发资料
  20. 操作系统重要概念——虚拟性

热门文章

  1. 前端开发实习面试题(JavaScript篇)
  2. 服务器ie安全增强关闭后还是显示,怎么关掉ie浏览器的增强安全配置
  3. 匈牙利算法编程c语言,华为oj之素数伴侣---匈牙利算法
  4. 豆瓣网技术架构发展历程
  5. Android Settings模块
  6. Android ViewFlipper 使用
  7. 【图像隐写】DWT+DCT+PBFO改进图像水印隐藏提取【含GUI Matlab源码 081期】
  8. linux下Dnw配置(mini2440)
  9. 苏州大学计算机专业2018年复试上机真题
  10. revit建模批量标高操作,简单的一匹。