文章目录

  • 一、Hadoop是什么
  • 二、Hadoop三大发行版本
    • 1.Apche Hadoop
    • 2.Cloudera Hadoop
    • 3.Hortonworks Hadoop
  • 三、Hadoop的优势
    • 1.高可靠性
    • 2.高扩展性
    • 3.高效性
    • 4.高容错性
  • 四、Hadoop组成
    • 1.HDFS组成概述
    • 2.YARN组成概述
    • 3.MapReduce组成概述
  • 总结

一、Hadoop是什么

  • Hadoop是一个由Apache基金会所开发的分布式系统基础架构。
  • 主要解决:海量数据的存储和海量数据的分析计算问题。
  • 广义上来说:Hadoop通常是指一个更广泛的概念–Hadoop生态圈。

二、Hadoop三大发行版本

Hadoop三大发行版本:Apache、Cloudera、Hortonworks

  • Apche版本最原始(最基础)的版本,对于入门学习最好。
  • Cloudera内部集成了很多大数据框架,对应产品CDH。
  • Hortonworks文档较好,对应产品HDP。

1.Apche Hadoop

官网地址:http://hadoop.apache.org/releases.html
下载地址:https://archive.apache.org/dist/hadoop/common/

2.Cloudera Hadoop

官网地址:https://www.cloudera.com/downloads/cdh/5-10-0.html
下载地址:http://archive-primary.cloudera.com/cdh5/cdh/5/
(1)2008年成立的Cloudera是最早将Hadoop商用的公司,为合作伙伴提供Hadoop的商用解决方案,主要是包括支持、咨询服务、培训。
(2)2009年Hadoop的创始人Doug Cutting也加盟Cloudera公司。Cloudera产品主要为CDH,Cloudera Manager,Cloudera Support
(3)CDH是Cloudera的Hadoop发行版,完全开源,比Apache Hadoop在兼容性,安全性,稳定性上有所增强。Cloudera的标价为每年每个节点10000美元。
(4)Cloudera Manager是集群的软件分发及管理监控平台,可以在几个小时内部署好一个Hadoop集群,并对集群的节点及服务进行实时监控。

3.Hortonworks Hadoop

官网地址:https://hortonworks.com/products/data-center/hdp/
下载地址:https://hortonworks.com/downloads/#data-platform
(1)2011年成立的Hortonworks是雅虎与硅谷风投公司Benchmark Capital合资组建。
(2)公司成立之初就吸纳了大约25名至30名专门研究Hadoop的雅虎工程师,上述工程师均在2005年开始协助雅虎开发Hadoop,贡献了Hadoop80%的代码。
(3)Hortonworks的主打产品是Hortonworks Data Platform(HDP),也同样是100%开源的产品,HDP除常见的项目外还包括了Ambari,一款开源的安装和管理系统。
(4)Hortonworks目前已经被Cloudera公司收购。

三、Hadoop的优势

1.高可靠性

Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失。

2.高扩展性

在集群分配任务数据,可方便的扩展数以千计的节点。

3.高效性

在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度。

4.高容错性

能够自动将失败的任务重新分配。

四、Hadoop组成


在Hadoop 1.X时代,Hdoop中的MapReduce同时处理业务逻辑运算和资源的调度,耦合性较大。
在Hadoop 2.X时代开始,增加了yarn,yarn只负责资源的调度,MapReduce只负责运算。

1.HDFS组成概述

1)NameNode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间、副本数、文件权限),以及每个文件的块列表和块所在的DataNode等。
2)DataNode(dn):在本地文件系统存储文件块数据,以及块数据的校验和。
3)SecondaryNameNode(2nn):每隔一段时间对NameNode元数据备份。

2.YARN组成概述

1)ResourceManager(RM)主要作用如下
(1)处理客户端请求
(2)监控NodeManager
(3)启动或监控ApplicationMaster
(4)资源的分配和调度

2)NodeManager(NM)主要作用如下
(1)管理单个节点上的资源
(2)处理来自ResourceManager的命令
(3)处理来自Application的命令

3)ApplicationMaster(AM)作用如下
(1)负责数据的划分
(2)为应用程序申请资源并分配给内存的任务
(3)任务的监控与容错

4)Container
Container是YARN中的资源抽象,它封装了某个节点上的多维度资源,如内存、CPU、磁盘、网络等。

3.MapReduce组成概述

MapReduce将计算过程分为两个阶段:Map和Reduce
1)Map阶段并行处理输入数据
2)Reduce阶段对Map结果进行汇总


总结

本章节是对Hadoop相关概念以及组成有了一个大概的简介,知道了Hadoop是什么,三大发行版本,优势基于组成。

Hadoop相关概念相关推荐

  1. Hadoop学习总结(1)——大数据以及Hadoop相关概念介绍

    一.大数据的基本概念 1.1.什么是大数据 大数据指的就是要处理的数据是TB级别以上的数据.大数据是以TB级别起步的.在计算机当中,存放到硬盘上面的文件都会占用一定的存储空间,例如: 文件占用的存储空 ...

  2. 大数据以及Hadoop相关概念介绍

    一.大数据的基本概念 1.1.什么是大数据 大数据指的就是要处理的数据是TB级别以上的数据.大数据是以TB级别起步的.在计算机当中,存放到硬盘上面的文件都会占用一定的存储空间,例如: 文件占用的存储空 ...

  3. java 大数据以及Hadoop相关概念介绍

    一.大数据的基本概念 1.1.什么是大数据 大数据指的就是要处理的数据是TB级别以上的数据.大数据是以TB级别起步的.在计算机当中,存放到硬盘上面的文件都会占用一定的存储空间,例如: 文件占用的存储空 ...

  4. 大数据介绍项目流程_大数据介绍

    大数据介绍项目流程 About Big Data 关于大数据 什么是大数据?(What is Big Data?) In modern world, there are many big proble ...

  5. 自学大数据入门全套学习资料(视频+课程大纲+笔记)

    目录: 大数据课程导论 分布式技术 Apache Hadoop概述 Hadoop集群搭建 Hadoop初体验 Hadoop HDFS基准测试 学习目标 理解大数据相关概念.特点.应用场景 掌握大数据业 ...

  6. Spark+hadoop+mllib及相关概念与操作笔记

    Spark+hadoop+mllib及相关概念与操作笔记 作者: lw 版本: 0.1 时间: 2016-07-18 1.调研相关注意事项 a) 理解调研 调研的意义在于了解当前情况,挖掘潜在的问题, ...

  7. 图解Hadoop hdfs的基本工作机制及相关概念

  8. Hive之 hive-1.2.1 + hadoop 2.7.4 集群安装

    一. 相关概念 Hive Metastore有三种配置方式,分别是: Embedded Metastore Database (Derby) 内嵌模式 Local Metastore Server 本 ...

  9. (1)Hadoop 的第一个程序 WordCount 理解

    Hadoop 的第一个程序 WordCount 理解 map and Reduce 相关概念 Map 将数据拆分成一个个键值对, reduce 负责将一个个键值对进行归集, 最后统计出结果 machi ...

  10. Hadoop详解(十):Hadoop 作业调度机制

    Hadoop 作为一个分布式计算平台,从集群计算的角度分析,Hadoop可以将底层的计算资源整合后统一分配到集群中的计算节点,从而达到分布式和并行计算的目的,最终完成任务的高效执行.在调度机制中涉及的 ...

最新文章

  1. linux新用户登陆密码,如何强制Linux用户在第一次登录时更改初始密码?
  2. Microstation研发
  3. Java设计模式——桥模式
  4. myeclipse导入maven工程
  5. HTML-ViewParse的Controller层插件开发小结
  6. [导入]关于OllyDbg 2.0的消息..
  7. Python爬虫利器四PhantomJS的用法
  8. linux c c 常用的日志库,mslog: 一款超轻量级的C日志库,无需依赖额外的库,测试或移植过的系统有Linux(ubuntu,centos),Windows以及部分嵌入式设备;...
  9. 使用iconv-lite解决node当中不支持GBK编码的问题
  10. CSDN西安分站俱乐部聚会归来记
  11. 下拉框系统甄选火星推荐_微博下拉框技术选择5火星
  12. 企业从信息化角度解读智慧城市,难以根治城市病
  13. 【在线仿真】Arduino WS2812b环形24颗霓虹灯动态效果显示
  14. android 电容屏(一):电容屏基本原理篇
  15. “食尸鬼行动”攻击30多个国家超过130家企业 包括中国
  16. 插入排序一块说说-很合适~~~二分查找和折半
  17. 计算机or笔记本,笔记本or台式机 这几款戴尔主机性能上没得挑
  18. 初学者学习 - Unity中的热更新 - Lua和C#通信
  19. python制作动画的软件_分享7个好用的动画制作软件,学会它,人人可以成为动画大师...
  20. unity 加载c++ dll文件提示DllNotFoundException的解决办法

热门文章

  1. python3怎么将函数的用法通过help导出到文件
  2. matlab中如何使用help,MATLAB中如何使用help?怎样看matlab的help
  3. Echarts经典颜色搭配
  4. netbeans如何导入java项目_netbeans导入java项目
  5. iphonex适配游戏_Unity+iPhoneX适配方案
  6. poi操作word替换文本框里的内容
  7. helper java_Helper 类在Java和C++中的设计
  8. C++ control reaches end of non-void function [-Werror=return-type]
  9. MySQL Java的JDBC编程
  10. openbravo erp介绍(一)