Hadoop学习第一天

1.hadoop量大，数目多。

存储：分布式，集群的概念，管理(主节点、从节点)，HDFS。

分析：分布式、并行、离线计算框架，管理(主节点、从节点)，MapReduce。

来源：GFS->HDFS,MapReduce->hadoop MapReduce,BigTable->HBase(hadoop的数据库，分布式的大数据存储和可扩展).

HDFS+MR思想：尽量移动计算到数据端，而不是移动数据到计算端。

HDFS默认存储是三份，解决硬件和网络故障问题。

HDFS思想：文件单次写入，多次读取，有文件副本

MR思想：分而治之，排序优化

hadoop1.x核心：hadoop common，HDFS，MapReduce

hadoop2.x核心：hadoop common，HDFS，MapReduce，Hadoop YARN(资源管理平台和任务调度器，相当于一个云操作系统)

hadoop生态圈1.x：HDFS(分布式文件系统),MapReduce(分布式计算),ZooKeeper(分布式协作服务),

HBase(实时分布式数据库),Hive(数据仓库),Pig(数据流出来),Mahout(数据挖掘库),

　　　　　　 Sqoop(数据库ETL工具，和关系数据库导入导出),Flume(日志工具),Ambari(安装部署配置和管理工具) hadoop生态圈2.x：比1.x多了一个YARN，它主要作用包括资源的管理和任务的调度。(NameNode是2个或多个)

HDFS(分布式文件系统)

1.NameNode:属于管理层，管理数据存储，SecondaryNameNode辅助NameNode,

2.DataNodes:属于应用层，用户进行数据存储，被NameNode进行管理，定期向NameNode进行汇报，执行NameNode分发的任务。

MapReduce(并行计算框架)

1.jobTracker:属于管理层，管理集群资源和对任务进行资源调度，监控人去执行

2.TaskTracker:属于应用层，执行jobTracher分发的任务，并向jobTracher汇报工作情况。

以上5个是Apache hadoop守护进程

NameNode主节点记录存储文件的元素据，主要有4块(文件名，目录结构，属性，文件块列表所属dataNode)。

SecondaryNameNode:监控HDFS状态的复制后台程序，每隔一段时间获取元素据快照。（主要记录后期修改后文件的信息）

DataNode:本地文件系统存储文件块数据和数据校验和。

jobTracker 负责接收用户提交的作业，负责启动跟踪任务执行。

TaskTracker 负责执行由jobTracker分配的任务，管理的各个任务在每个节点上的执行。

（jobTracker和TaskTracker通过心跳heartbeat进行交互）

转载于:https://www.cnblogs.com/yuliantao/p/5332847.html

Hadoop学习第一天相关推荐

Hadoop学习第一章：Hadoop概述
一.Hadoop的产生背景关于Hadoop的产生背景来源于Nutch,Nutch 的设计目标是构建一个大型的全网搜索引擎,包括网页抓取.索引.查询等功能,然而随着抓取网页数据的增加,数据的搜索和储存 ...
Hadoop学习笔记一简要介绍
Hadoop学习笔记一简要介绍这里先大致介绍一下Hadoop. 本文大部分内容都是从官网Hadoop上来的.其中有一篇介绍HDFS的pdf文档,里面对Hadoop介绍的比较全面了.我的这一 ...
[Hadoop] Hadoop学习历程 [持续更新中…]
1. Hadoop FS Shell Hadoop之所以可以实现分布式计算,主要的原因之一是因为其背后的分布式文件系统(HDFS).所以,对于Hadoop的文件操作需要有一套全新的shell指令来完成 ...
Hadoop学习全程记录——在Eclipse中运行第一个MapReduce程序
网友分享,拿来共享一下这是Hadoop学习全程记录第2篇,在这篇里我将介绍一下如何在Eclipse下写第一个MapReduce程序. 新说明一下我的开发环境: 操作系统:在windows下使用wub ...
Hadoop学习笔记—11.MapReduce中的排序和分组
Hadoop学习笔记-11.MapReduce中的排序和分组一.写在之前的 1.1 回顾Map阶段四大步骤首先,我们回顾一下在MapReduce中,排序和分组在哪里被执行: 从上图中可以清楚地看出 ...
Hadoop学习之HDFS
Hadoop学习之HDFS 1 HDFS相关概念 1.1 设计思路分散存储,冗余备份. 分散存储:大文件被切割成小文件,使用分而治之的思想让多个服务器对同一个文件进行联合管理: 冗余备份:每个小文件 ...
Hadoop学习笔记—13.分布式集群中节点的动态添加与下架
Hadoop学习笔记-13.分布式集群中节点的动态添加与下架开篇:在本笔记系列的第一篇中,我们介绍了如何搭建伪分布与分布模式的Hadoop集群.现在,我们来了解一下在一个Hadoop分布式集群中,如 ...
Hadoop学习笔记（四）HDFS部分下
Hadoop学习笔记(四)HDFS部分下一.HDFS 的数据流 1.1 HDFS的写数据流程客户端通过 Distributed FileSystem 模块向 NameNode 请求上传文件,Nam ...
大数据之Hadoop学习——动手实战学习MapReduce编程实例
文章目录一.MapReduce理论基础二.Hadoop.Spark学习路线及资源收纳三.MapReduce编程实例 1.自定义对象序列化需求分析报错:Exception in thread ...

Hadoop学习第一天

Hadoop学习第一天相关推荐

最新文章

热门文章