Hadoop 01_基础知识
1.1 Hadoop是什么
1)Hadoop是一个由Apache基金会所开发的分布式系统基础架构
集群:若干机器共同完成任务
分布式:应用的拆分,独立部署和运行
集群不一定是分布式,分布式一定是集群
2)主要解决,海量数据的存储和海量数据的分析计算问题。
3)广义上来说,HADOOP通常是指一个更广泛的概念——HADOOP生态圈
1.2 Hadoop的优势(分布式基础架构)
技术选型
1)高可靠性:因为Hadoop假设计算元素和存储会出现故障,因为它维护多个工作数据副本,在出现故障时可以对失败的节点重新分布处理。
2)高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点。
3)高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度。
4)高容错性:自动保存多份副本数据,并且能够自动将失败的任务重新分配。
1.3 Hadoop组成
1)Hadoop HDFS:(hadoop distribute file system )一个高可靠、高吞吐量的分布式文件系统。
2)Hadoop MapReduce:一个分布式的离线并行计算框架。
3)Hadoop YARN:作业调度与集群资源管理的框架。
4)Hadoop Common:支持其他模块的工具模块(Configuration、RPC、序列化机制、日志操作)。
1.3.1 HDFS架构概述
- NameNode和DataNode指代计算机节点
- NameNode和DataNode指代进程名称
HDFS架构概述
1) NameNode (m) :存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间、副本数、
文件权限),以及每个文件的块列表和块所在的DataNode等。
2) DataNode(dn): 在本地文件系统存储文件块数据,以及块数据的校验和。
3) Secondary NameNode(2nn);用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据的快照。
Secondary Namenode是辅助NameNode更好的完成工作的
1.3.2 YARN架构概述
ResourceManager和NodeManager既是节点名称也是进程名称,典型的组从结构M/S, ResourceManager是老大,NodeManager是小弟
1) ResourceManager(rm):处理客户端请求、启动/监控ApplicationMaster、监控NodeManager、资源分配与调度;
2)NodeManager(nm):单个节点上的资源管理、处理来自ResourceManager的命令、处理来自ApplicationMaster的命令;
3)ApplicationMaster:数据切分、为应用程序申请资源,并分配给内部任务、任务监控与容错。
4)Container:对任务运行环境的抽象,封装了CPU、内存等多维资源以及环境变量、启动命令等任务运行相关的信息。
1.3.3 MapReduce架构概述
MapReduce将计算过程分为两个阶段:Map(映射)和Reduce(归约)
Map阶段就是“分”的阶段
Reduce阶段就是“合”的阶段
1)Map阶段并行处理输入数据
2)Reduce阶段对Map结果进行汇总
Hadoop 01_基础知识相关推荐
- Hadoop框架--基础知识
如果有天堂,天堂应该是图书馆的模样. –博尔赫斯 (不那么冷就更好了) 主要内容:Hadoop.hive.HBASE.zookeeper.MySQL.sqoop.kafka(有时间补).日志 一.什么 ...
- Hadoop之Hadoop基础知识面试复习
Hadoop之Hadoop基础知识常问面试题 列举几个hadoop生态圈的组件并做简要描述. Zookeeper:是一个开源的分布式应用程序协调服务,基于zookeeper可以实现同步服务,配置维护, ...
- Hadoop之Hadoop基础知识
Hadoop之Hadoop基础知识复习 目录 Hadoop是什么 Hadoop的优势 Hadoop组成 大数据技术生态体系 1. Hadoop是什么 1)Hadoop是一个由Apache基金会所开发的 ...
- Hadoop权威指南 _04_第I部分Hadoop基础知识_第2章关于MapReduce
第I部分Hadoop基础知识 第2章关于MapReduce MapReduce是一种可用于数据处理的编程模型.该模型比较简单,但要想写出有用的程序却不太容易.Hadoop 可以运行各种语言版本的Map ...
- Hadoop权威指南 _03_第I部分Hadoop基础知识_第1章初识Hadoop.
第I部分Hadoop基础知识 第1章初识Hadoop. 比较喜欢这句极其形象的比喻. "在古时候,人们用牛来拉重物.当一头牛拉不动根圆木时,人们从来没有考虑过要想方设法培育出一种更强壮的牛. ...
- Hadoop学习笔记—15.HBase框架学习(基础知识篇)
Hadoop学习笔记-15.HBase框架学习(基础知识篇) HBase是Apache Hadoop的数据库,能够对大型数据提供随机.实时的读写访问.HBase的目标是存储并处理大型的数据.HBase ...
- 学习hadoop需要具备基础知识
学习hadoop需要具备基础知识 首先整体上了解Hadoop,包括hadoop是什么,能够做什么,使用场景等,不需要考虑细节问题.在有了整体上的了解后,就开始准备系统地学习hadoop.建议:勿一味学 ...
- 大数据入门第一课 Hadoop基础知识与电商网站日志数据分析
大数据入门第一课 Hadoop基础知识与电商网站日志数据分析 本课程从Hadoop核心技术入手,以电商项目为依托,带领你从0基础开始上手,逐步掌握大数据核心技术(如:HDFS.YARN.MapRedu ...
- 基于Hadoop的数据仓库Hive 基础知识
转载自:namelessml 原文链接:[完]基于Hadoop的数据仓库Hive 基础知识 Hive是基于Hadoop的数据仓库工具,可对存储在HDFS上的文件中的数据集进行数据整理.特殊查询和分析处 ...
最新文章
- 通配符?子字符串匹配主字符串次数_突破LeetCode,拿BAT大厂offer之《正则表达式匹配》(动态规划)...
- 解决Jira和Confluence访问打开越来越缓慢问题
- 调制优缺点_钓鱼,何时用搓饵、何时用拉饵?及对应的优缺点分析
- C指针原理(14)-C指针基础
- 源码编译安装mysql
- 互斥锁属性PTHREAD_MUTEX_RECURSIVE
- 论文浅尝 | 利用边缘标签的网络嵌入强化方法
- 【数字图像处理】一种求图像边缘的方法
- asp.net建立文件夹
- 单调栈和单调队列的应用即总结
- 三菱fx3u中文手册_3个月高效掌握三菱PLC!四个阶段经验大总结~
- 本两个Build工作总结
- github进不去_app.gitbook.com进不去,一直卡着怎么回事
- Visio 2019 专业版 下载地址
- JDE学习report和from总结
- ubuntu 20.04安装RTL8821CE无线网卡驱动
- 哔哩哔哩下载视频,教程,下载b站视频来就对了,下载b站 视频电脑 pc端
- 计算机考研院校排名2015,2015年计算机考研学校排名
- mac 破解安装 navicat
- 转:Redis监控技巧
热门文章
- 牛客 - 牛牛的mex(主席树/思维)
- CodeForces - 1323C Unusual Competitions(贪心)
- HDU - 5187 zhx's contest(快速幂+快速加+组合数学)
- CodeForces - 363D Renting Bikes(二分+贪心)
- (转)KMP算法原理讲解及模板C实现
- python中for循环和while循环的区别_python中while循环和for循环的定义和详细的使用方法...
- 2020已去,2021未来
- 大数据 就业 缺口_大数据人才缺口大!乌兰察布从政策激励等方面吸引人才
- JSP中的forward指令
- MFC Radio Button 使用 分组 RadioButton 用法