1.hadoop量大,数目多。

存储:分布式,集群的概念,管理(主节点、从节点),HDFS。

分析:分布式、并行、离线计算框架,管理(主节点、从节点),MapReduce。

来源:GFS->HDFS,MapReduce->hadoop MapReduce,BigTable->HBase(hadoop的数据库,分布式的大数据存储和可扩展).

HDFS+MR思想:尽量移动计算到数据端,而不是移动数据到计算端。

HDFS默认存储是三份,解决硬件和网络故障问题。

HDFS思想:文件单次写入,多次读取,有文件副本

MR思想:分而治之,排序优化

hadoop1.x核心:hadoop common,HDFS,MapReduce

hadoop2.x核心:hadoop common,HDFS,MapReduce,Hadoop YARN(资源管理平台和任务调度器,相当于一个云操作系统)

hadoop生态圈1.x:HDFS(分布式文件系统),MapReduce(分布式计算),ZooKeeper(分布式协作服务),

HBase(实时分布式数据库),Hive(数据仓库),Pig(数据流出来),Mahout(数据挖掘库),

              Sqoop(数据库ETL工具,和关系数据库导入导出),Flume(日志工具),Ambari(安装部署配置和管理工具) hadoop生态圈2.x:比1.x多了一个YARN,它主要作用包括资源的管理和任务的调度。(NameNode是2个或多个)

HDFS(分布式文件系统)

1.NameNode:属于管理层,管理数据存储,SecondaryNameNode辅助NameNode,

2.DataNodes:属于应用层,用户进行数据存储,被NameNode进行管理,定期向NameNode进行汇报,执行NameNode分发的任务。

MapReduce(并行计算框架)

1.jobTracker:属于管理层,管理集群资源和对任务进行资源调度,监控人去执行

2.TaskTracker:属于应用层,执行jobTracher分发的任务,并向jobTracher汇报工作情况。

以上5个是Apache hadoop守护进程

NameNode主节点记录存储文件的元素据,主要有4块(文件名,目录结构,属性,文件块列表所属dataNode)。

SecondaryNameNode:监控HDFS状态的复制后台程序,每隔一段时间获取元素据快照。(主要记录后期修改后文件的信息

DataNode:本地文件系统存储文件块数据和数据校验和。

jobTracker 负责接收用户提交的作业,负责启动跟踪任务执行。

TaskTracker 负责执行由jobTracker分配的任务,管理的各个任务在每个节点上的执行。

jobTracker和TaskTracker通过心跳heartbeat进行交互

转载于:https://www.cnblogs.com/yuliantao/p/5332847.html

Hadoop学习第一天相关推荐

  1. Hadoop学习第一章:Hadoop概述

    一.Hadoop的产生背景 关于Hadoop的产生背景来源于Nutch,Nutch 的设计目标是构建一个大型的全网搜索引擎,包括网页抓取.索引.查询等功能,然而随着抓取网页数据的增加,数据的搜索和储存 ...

  2. Hadoop学习笔记一 简要介绍

    Hadoop学习笔记一 简要介绍 这里先大致介绍一下Hadoop.     本文大部分内容都是从官网Hadoop上来的.其中有一篇介绍HDFS的pdf文档,里面对Hadoop介绍的比较全面了.我的这一 ...

  3. [Hadoop] Hadoop学习历程 [持续更新中…]

    1. Hadoop FS Shell Hadoop之所以可以实现分布式计算,主要的原因之一是因为其背后的分布式文件系统(HDFS).所以,对于Hadoop的文件操作需要有一套全新的shell指令来完成 ...

  4. Hadoop学习全程记录——在Eclipse中运行第一个MapReduce程序

    网友分享,拿来共享一下 这是Hadoop学习全程记录第2篇,在这篇里我将介绍一下如何在Eclipse下写第一个MapReduce程序. 新说明一下我的开发环境: 操作系统:在windows下使用wub ...

  5. Hadoop学习笔记—11.MapReduce中的排序和分组

    Hadoop学习笔记-11.MapReduce中的排序和分组 一.写在之前的 1.1 回顾Map阶段四大步骤 首先,我们回顾一下在MapReduce中,排序和分组在哪里被执行: 从上图中可以清楚地看出 ...

  6. Hadoop学习之HDFS

    Hadoop学习之HDFS 1 HDFS相关概念 1.1 设计思路 分散存储,冗余备份. 分散存储:大文件被切割成小文件,使用分而治之的思想让多个服务器对同一个文件进行联合管理: 冗余备份:每个小文件 ...

  7. Hadoop学习笔记—13.分布式集群中节点的动态添加与下架

    Hadoop学习笔记-13.分布式集群中节点的动态添加与下架 开篇:在本笔记系列的第一篇中,我们介绍了如何搭建伪分布与分布模式的Hadoop集群.现在,我们来了解一下在一个Hadoop分布式集群中,如 ...

  8. Hadoop学习笔记(四)HDFS部分下

    Hadoop学习笔记(四)HDFS部分下 一.HDFS 的数据流 1.1 HDFS的写数据流程 客户端通过 Distributed FileSystem 模块向 NameNode 请求上传文件,Nam ...

  9. 大数据之Hadoop学习——动手实战学习MapReduce编程实例

    文章目录 一.MapReduce理论基础 二.Hadoop.Spark学习路线及资源收纳 三.MapReduce编程实例 1.自定义对象序列化 需求分析 报错:Exception in thread ...

最新文章

  1. 正则表达式最常用的符号匹配
  2. 提示-bash: telnet: command not found的解决方法
  3. Hadoop yarn容量调度器capacity-scheduler.xml配置示例
  4. P3180-[HAOI2016]地图【圆方树,莫队,分块】
  5. RuoYi-Cloud 部署篇_03(windows环境 mysql版本)
  6. Yuchuan_Linux_C编程之二 GCC编译
  7. Java面向对象 网络编程 上
  8. linux 下拉式 终端,Gnome桌面的下拉式终端: Guake
  9. 【zoj1004 vector stack STL】anagrams by stack
  10. lwj_C#_集合stack栈和queue队列
  11. 15.正则表达式扩展正则字符处理
  12. 51单片机入门(3)点灯的进阶——跑马灯(通过阻塞延时实现)
  13. 查看oracle数据库防火墙设置,用三个方法设置Oracle数据库穿越防火墙
  14. 立体视觉入门指南:对级约束与Fusiello法极线校正
  15. python 经典ppt_Python讲解ppt
  16. pythonGUI(二)基本元素之二
  17. IDEA远程提交hadoop任务时出现的错误
  18. imperva-代理安装
  19. 独家丨DeepMind科学家、AlphaTensor一作解读背后的故事与实现细节
  20. 第五章人间深情,公母为山

热门文章

  1. 合肥南站,你怎么这么棒?人民日报都夸你了!
  2. 预告:大牛现身说法 TensorFlow在工程项目中的应用 | AI 研习社
  3. SCM-SVN集成服务器
  4. ConcurrentHashMap之实现细节(转)
  5. c++如何对结构体作为形参设置默认值
  6. [转]C#读写xml文件
  7. 【Linux入门基础知识】Linux 脚本编写基础
  8. Mac全量编译ijkplayer生成Android库
  9. JavaScript对象系统说明图
  10. shouldOverrideUrlLoading(拦截url加载,除资源请求的url) shouldInterceptRequest(拦截所有url请求)