1.1 Hadoop是什么

1)Hadoop是一个由Apache基金会所开发的分布式系统基础架构

集群:若干机器共同完成任务

分布式:应用的拆分,独立部署和运行

集群不一定是分布式,分布式一定是集群

2)主要解决,海量数据的存储和海量数据的分析计算问题。

3)广义上来说,HADOOP通常是指一个更广泛的概念——HADOOP生态圈

1.2 Hadoop的优势(分布式基础架构)

技术选型

1)高可靠性:因为Hadoop假设计算元素和存储会出现故障,因为它维护多个工作数据副本,在出现故障时可以对失败的节点重新分布处理。

2)高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点。

3)高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度。

4)高容错性:自动保存多份副本数据,并且能够自动将失败的任务重新分配。

1.3 Hadoop组成

1)Hadoop HDFS:(hadoop distribute file system )一个高可靠、高吞吐量的分布式文件系统。

2)Hadoop MapReduce:一个分布式的离线并行计算框架。

3)Hadoop YARN:作业调度与集群资源管理的框架。

4)Hadoop Common:支持其他模块的工具模块(Configuration、RPC、序列化机制、日志操作)。

1.3.1 HDFS架构概述

  1. NameNode和DataNode指代计算机节点
  2. NameNode和DataNode指代进程名称

HDFS架构概述

1) NameNode (m) :存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间、副本数、

文件权限),以及每个文件的块列表和块所在的DataNode等。

2) DataNode(dn): 在本地文件系统存储文件块数据,以及块数据的校验和。

3) Secondary NameNode(2nn);用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据的快照。

Secondary Namenode是辅助NameNode更好的完成工作的

1.3.2 YARN架构概述

ResourceManager和NodeManager既是节点名称也是进程名称,典型的组从结构M/S, ResourceManager是老大,NodeManager是小弟

1) ResourceManager(rm):处理客户端请求、启动/监控ApplicationMaster、监控NodeManager、资源分配与调度;

2)NodeManager(nm):单个节点上的资源管理、处理来自ResourceManager的命令、处理来自ApplicationMaster的命令;

3)ApplicationMaster:数据切分、为应用程序申请资源,并分配给内部任务、任务监控与容错。

4)Container:对任务运行环境的抽象,封装了CPU、内存等多维资源以及环境变量、启动命令等任务运行相关的信息。

1.3.3 MapReduce架构概述

MapReduce将计算过程分为两个阶段:Map(映射)和Reduce(归约)

Map阶段就是“分”的阶段

Reduce阶段就是“合”的阶段

1)Map阶段并行处理输入数据

2)Reduce阶段对Map结果进行汇总

Hadoop 01_基础知识相关推荐

  1. Hadoop框架--基础知识

    如果有天堂,天堂应该是图书馆的模样. –博尔赫斯 (不那么冷就更好了) 主要内容:Hadoop.hive.HBASE.zookeeper.MySQL.sqoop.kafka(有时间补).日志 一.什么 ...

  2. Hadoop之Hadoop基础知识面试复习

    Hadoop之Hadoop基础知识常问面试题 列举几个hadoop生态圈的组件并做简要描述. Zookeeper:是一个开源的分布式应用程序协调服务,基于zookeeper可以实现同步服务,配置维护, ...

  3. Hadoop之Hadoop基础知识

    Hadoop之Hadoop基础知识复习 目录 Hadoop是什么 Hadoop的优势 Hadoop组成 大数据技术生态体系 1. Hadoop是什么 1)Hadoop是一个由Apache基金会所开发的 ...

  4. Hadoop权威指南 _04_第I部分Hadoop基础知识_第2章关于MapReduce

    第I部分Hadoop基础知识 第2章关于MapReduce MapReduce是一种可用于数据处理的编程模型.该模型比较简单,但要想写出有用的程序却不太容易.Hadoop 可以运行各种语言版本的Map ...

  5. Hadoop权威指南 _03_第I部分Hadoop基础知识_第1章初识Hadoop.

    第I部分Hadoop基础知识 第1章初识Hadoop. 比较喜欢这句极其形象的比喻. "在古时候,人们用牛来拉重物.当一头牛拉不动根圆木时,人们从来没有考虑过要想方设法培育出一种更强壮的牛. ...

  6. Hadoop学习笔记—15.HBase框架学习(基础知识篇)

    Hadoop学习笔记-15.HBase框架学习(基础知识篇) HBase是Apache Hadoop的数据库,能够对大型数据提供随机.实时的读写访问.HBase的目标是存储并处理大型的数据.HBase ...

  7. 学习hadoop需要具备基础知识

    学习hadoop需要具备基础知识 首先整体上了解Hadoop,包括hadoop是什么,能够做什么,使用场景等,不需要考虑细节问题.在有了整体上的了解后,就开始准备系统地学习hadoop.建议:勿一味学 ...

  8. 大数据入门第一课 Hadoop基础知识与电商网站日志数据分析

    大数据入门第一课 Hadoop基础知识与电商网站日志数据分析 本课程从Hadoop核心技术入手,以电商项目为依托,带领你从0基础开始上手,逐步掌握大数据核心技术(如:HDFS.YARN.MapRedu ...

  9. 基于Hadoop的数据仓库Hive 基础知识

    转载自:namelessml 原文链接:[完]基于Hadoop的数据仓库Hive 基础知识 Hive是基于Hadoop的数据仓库工具,可对存储在HDFS上的文件中的数据集进行数据整理.特殊查询和分析处 ...

最新文章

  1. 通配符?子字符串匹配主字符串次数_突破LeetCode,拿BAT大厂offer之《正则表达式匹配》(动态规划)...
  2. 解决Jira和Confluence访问打开越来越缓慢问题
  3. 调制优缺点_钓鱼,何时用搓饵、何时用拉饵?及对应的优缺点分析
  4. C指针原理(14)-C指针基础
  5. 源码编译安装mysql
  6. 互斥锁属性PTHREAD_MUTEX_RECURSIVE
  7. 论文浅尝 | 利用边缘标签的网络嵌入强化方法
  8. 【数字图像处理】一种求图像边缘的方法
  9. asp.net建立文件夹
  10. 单调栈和单调队列的应用即总结
  11. 三菱fx3u中文手册_3个月高效掌握三菱PLC!四个阶段经验大总结~
  12. 本两个Build工作总结
  13. github进不去_app.gitbook.com进不去,一直卡着怎么回事
  14. Visio 2019 专业版 下载地址
  15. JDE学习report和from总结
  16. ubuntu 20.04安装RTL8821CE无线网卡驱动
  17. 哔哩哔哩下载视频,教程,下载b站视频来就对了,下载b站 视频电脑 pc端
  18. 计算机考研院校排名2015,2015年计算机考研学校排名
  19. mac 破解安装 navicat
  20. 转:Redis监控技巧

热门文章

  1. 牛客 - 牛牛的mex(主席树/思维)
  2. CodeForces - 1323C Unusual Competitions(贪心)
  3. HDU - 5187 zhx's contest(快速幂+快速加+组合数学)
  4. CodeForces - 363D Renting Bikes(二分+贪心)
  5. (转)KMP算法原理讲解及模板C实现
  6. python中for循环和while循环的区别_python中while循环和for循环的定义和详细的使用方法...
  7. 2020已去,2021未来
  8. 大数据 就业 缺口_大数据人才缺口大!乌兰察布从政策激励等方面吸引人才
  9. JSP中的forward指令
  10. MFC Radio Button 使用 分组 RadioButton 用法