Hadoop相关概念
文章目录
- 一、Hadoop是什么
- 二、Hadoop三大发行版本
- 1.Apche Hadoop
- 2.Cloudera Hadoop
- 3.Hortonworks Hadoop
- 三、Hadoop的优势
- 1.高可靠性
- 2.高扩展性
- 3.高效性
- 4.高容错性
- 四、Hadoop组成
- 1.HDFS组成概述
- 2.YARN组成概述
- 3.MapReduce组成概述
- 总结
一、Hadoop是什么
- Hadoop是一个由Apache基金会所开发的分布式系统基础架构。
- 主要解决:海量数据的存储和海量数据的分析计算问题。
- 广义上来说:Hadoop通常是指一个更广泛的概念–Hadoop生态圈。
二、Hadoop三大发行版本
Hadoop三大发行版本:Apache、Cloudera、Hortonworks
- Apche版本最原始(最基础)的版本,对于入门学习最好。
- Cloudera内部集成了很多大数据框架,对应产品CDH。
- Hortonworks文档较好,对应产品HDP。
1.Apche Hadoop
官网地址:http://hadoop.apache.org/releases.html
下载地址:https://archive.apache.org/dist/hadoop/common/
2.Cloudera Hadoop
官网地址:https://www.cloudera.com/downloads/cdh/5-10-0.html
下载地址:http://archive-primary.cloudera.com/cdh5/cdh/5/
(1)2008年成立的Cloudera是最早将Hadoop商用的公司,为合作伙伴提供Hadoop的商用解决方案,主要是包括支持、咨询服务、培训。
(2)2009年Hadoop的创始人Doug Cutting也加盟Cloudera公司。Cloudera产品主要为CDH,Cloudera Manager,Cloudera Support
(3)CDH是Cloudera的Hadoop发行版,完全开源,比Apache Hadoop在兼容性,安全性,稳定性上有所增强。Cloudera的标价为每年每个节点10000美元。
(4)Cloudera Manager是集群的软件分发及管理监控平台,可以在几个小时内部署好一个Hadoop集群,并对集群的节点及服务进行实时监控。
3.Hortonworks Hadoop
官网地址:https://hortonworks.com/products/data-center/hdp/
下载地址:https://hortonworks.com/downloads/#data-platform
(1)2011年成立的Hortonworks是雅虎与硅谷风投公司Benchmark Capital合资组建。
(2)公司成立之初就吸纳了大约25名至30名专门研究Hadoop的雅虎工程师,上述工程师均在2005年开始协助雅虎开发Hadoop,贡献了Hadoop80%的代码。
(3)Hortonworks的主打产品是Hortonworks Data Platform(HDP),也同样是100%开源的产品,HDP除常见的项目外还包括了Ambari,一款开源的安装和管理系统。
(4)Hortonworks目前已经被Cloudera公司收购。
三、Hadoop的优势
1.高可靠性
Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失。
2.高扩展性
在集群分配任务数据,可方便的扩展数以千计的节点。
3.高效性
在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度。
4.高容错性
能够自动将失败的任务重新分配。
四、Hadoop组成
在Hadoop 1.X时代,Hdoop中的MapReduce同时处理业务逻辑运算和资源的调度,耦合性较大。
在Hadoop 2.X时代开始,增加了yarn,yarn只负责资源的调度,MapReduce只负责运算。
1.HDFS组成概述
1)NameNode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间、副本数、文件权限),以及每个文件的块列表和块所在的DataNode等。
2)DataNode(dn):在本地文件系统存储文件块数据,以及块数据的校验和。
3)SecondaryNameNode(2nn):每隔一段时间对NameNode元数据备份。
2.YARN组成概述
1)ResourceManager(RM)主要作用如下
(1)处理客户端请求
(2)监控NodeManager
(3)启动或监控ApplicationMaster
(4)资源的分配和调度
2)NodeManager(NM)主要作用如下
(1)管理单个节点上的资源
(2)处理来自ResourceManager的命令
(3)处理来自Application的命令
3)ApplicationMaster(AM)作用如下
(1)负责数据的划分
(2)为应用程序申请资源并分配给内存的任务
(3)任务的监控与容错
4)Container
Container是YARN中的资源抽象,它封装了某个节点上的多维度资源,如内存、CPU、磁盘、网络等。
3.MapReduce组成概述
MapReduce将计算过程分为两个阶段:Map和Reduce
1)Map阶段并行处理输入数据
2)Reduce阶段对Map结果进行汇总
总结
本章节是对Hadoop相关概念以及组成有了一个大概的简介,知道了Hadoop是什么,三大发行版本,优势基于组成。
Hadoop相关概念相关推荐
- Hadoop学习总结(1)——大数据以及Hadoop相关概念介绍
一.大数据的基本概念 1.1.什么是大数据 大数据指的就是要处理的数据是TB级别以上的数据.大数据是以TB级别起步的.在计算机当中,存放到硬盘上面的文件都会占用一定的存储空间,例如: 文件占用的存储空 ...
- 大数据以及Hadoop相关概念介绍
一.大数据的基本概念 1.1.什么是大数据 大数据指的就是要处理的数据是TB级别以上的数据.大数据是以TB级别起步的.在计算机当中,存放到硬盘上面的文件都会占用一定的存储空间,例如: 文件占用的存储空 ...
- java 大数据以及Hadoop相关概念介绍
一.大数据的基本概念 1.1.什么是大数据 大数据指的就是要处理的数据是TB级别以上的数据.大数据是以TB级别起步的.在计算机当中,存放到硬盘上面的文件都会占用一定的存储空间,例如: 文件占用的存储空 ...
- 大数据介绍项目流程_大数据介绍
大数据介绍项目流程 About Big Data 关于大数据 什么是大数据?(What is Big Data?) In modern world, there are many big proble ...
- 自学大数据入门全套学习资料(视频+课程大纲+笔记)
目录: 大数据课程导论 分布式技术 Apache Hadoop概述 Hadoop集群搭建 Hadoop初体验 Hadoop HDFS基准测试 学习目标 理解大数据相关概念.特点.应用场景 掌握大数据业 ...
- Spark+hadoop+mllib及相关概念与操作笔记
Spark+hadoop+mllib及相关概念与操作笔记 作者: lw 版本: 0.1 时间: 2016-07-18 1.调研相关注意事项 a) 理解调研 调研的意义在于了解当前情况,挖掘潜在的问题, ...
- 图解Hadoop hdfs的基本工作机制及相关概念
- Hive之 hive-1.2.1 + hadoop 2.7.4 集群安装
一. 相关概念 Hive Metastore有三种配置方式,分别是: Embedded Metastore Database (Derby) 内嵌模式 Local Metastore Server 本 ...
- (1)Hadoop 的第一个程序 WordCount 理解
Hadoop 的第一个程序 WordCount 理解 map and Reduce 相关概念 Map 将数据拆分成一个个键值对, reduce 负责将一个个键值对进行归集, 最后统计出结果 machi ...
- Hadoop详解(十):Hadoop 作业调度机制
Hadoop 作为一个分布式计算平台,从集群计算的角度分析,Hadoop可以将底层的计算资源整合后统一分配到集群中的计算节点,从而达到分布式和并行计算的目的,最终完成任务的高效执行.在调度机制中涉及的 ...
最新文章
- linux新用户登陆密码,如何强制Linux用户在第一次登录时更改初始密码?
- Microstation研发
- Java设计模式——桥模式
- myeclipse导入maven工程
- HTML-ViewParse的Controller层插件开发小结
- [导入]关于OllyDbg 2.0的消息..
- Python爬虫利器四PhantomJS的用法
- linux c c 常用的日志库,mslog: 一款超轻量级的C日志库,无需依赖额外的库,测试或移植过的系统有Linux(ubuntu,centos),Windows以及部分嵌入式设备;...
- 使用iconv-lite解决node当中不支持GBK编码的问题
- CSDN西安分站俱乐部聚会归来记
- 下拉框系统甄选火星推荐_微博下拉框技术选择5火星
- 企业从信息化角度解读智慧城市,难以根治城市病
- 【在线仿真】Arduino WS2812b环形24颗霓虹灯动态效果显示
- android 电容屏(一):电容屏基本原理篇
- “食尸鬼行动”攻击30多个国家超过130家企业 包括中国
- 插入排序一块说说-很合适~~~二分查找和折半
- 计算机or笔记本,笔记本or台式机 这几款戴尔主机性能上没得挑
- 初学者学习 - Unity中的热更新 - Lua和C#通信
- python制作动画的软件_分享7个好用的动画制作软件,学会它,人人可以成为动画大师...
- unity 加载c++ dll文件提示DllNotFoundException的解决办法
热门文章
- python3怎么将函数的用法通过help导出到文件
- matlab中如何使用help,MATLAB中如何使用help?怎样看matlab的help
- Echarts经典颜色搭配
- netbeans如何导入java项目_netbeans导入java项目
- iphonex适配游戏_Unity+iPhoneX适配方案
- poi操作word替换文本框里的内容
- helper java_Helper 类在Java和C++中的设计
- C++ control reaches end of non-void function [-Werror=return-type]
- MySQL Java的JDBC编程
- openbravo erp介绍(一)