Hadoop学习第一天
1.hadoop量大,数目多。
存储:分布式,集群的概念,管理(主节点、从节点),HDFS。
分析:分布式、并行、离线计算框架,管理(主节点、从节点),MapReduce。
来源:GFS->HDFS,MapReduce->hadoop MapReduce,BigTable->HBase(hadoop的数据库,分布式的大数据存储和可扩展).
HDFS+MR思想:尽量移动计算到数据端,而不是移动数据到计算端。
HDFS默认存储是三份,解决硬件和网络故障问题。
HDFS思想:文件单次写入,多次读取,有文件副本
MR思想:分而治之,排序优化
hadoop1.x核心:hadoop common,HDFS,MapReduce
hadoop2.x核心:hadoop common,HDFS,MapReduce,Hadoop YARN(资源管理平台和任务调度器,相当于一个云操作系统)
hadoop生态圈1.x:HDFS(分布式文件系统),MapReduce(分布式计算),ZooKeeper(分布式协作服务),
HBase(实时分布式数据库),Hive(数据仓库),Pig(数据流出来),Mahout(数据挖掘库),
Sqoop(数据库ETL工具,和关系数据库导入导出),Flume(日志工具),Ambari(安装部署配置和管理工具) hadoop生态圈2.x:比1.x多了一个YARN,它主要作用包括资源的管理和任务的调度。(NameNode是2个或多个)
HDFS(分布式文件系统)
1.NameNode:属于管理层,管理数据存储,SecondaryNameNode辅助NameNode,
2.DataNodes:属于应用层,用户进行数据存储,被NameNode进行管理,定期向NameNode进行汇报,执行NameNode分发的任务。
MapReduce(并行计算框架)
1.jobTracker:属于管理层,管理集群资源和对任务进行资源调度,监控人去执行
2.TaskTracker:属于应用层,执行jobTracher分发的任务,并向jobTracher汇报工作情况。
以上5个是Apache hadoop守护进程
NameNode主节点记录存储文件的元素据,主要有4块(文件名,目录结构,属性,文件块列表所属dataNode)。
SecondaryNameNode:监控HDFS状态的复制后台程序,每隔一段时间获取元素据快照。(主要记录后期修改后文件的信息)
DataNode:本地文件系统存储文件块数据和数据校验和。
jobTracker 负责接收用户提交的作业,负责启动跟踪任务执行。
TaskTracker 负责执行由jobTracker分配的任务,管理的各个任务在每个节点上的执行。
(jobTracker和TaskTracker通过心跳heartbeat进行交互)
转载于:https://www.cnblogs.com/yuliantao/p/5332847.html
Hadoop学习第一天相关推荐
- Hadoop学习第一章:Hadoop概述
一.Hadoop的产生背景 关于Hadoop的产生背景来源于Nutch,Nutch 的设计目标是构建一个大型的全网搜索引擎,包括网页抓取.索引.查询等功能,然而随着抓取网页数据的增加,数据的搜索和储存 ...
- Hadoop学习笔记一 简要介绍
Hadoop学习笔记一 简要介绍 这里先大致介绍一下Hadoop. 本文大部分内容都是从官网Hadoop上来的.其中有一篇介绍HDFS的pdf文档,里面对Hadoop介绍的比较全面了.我的这一 ...
- [Hadoop] Hadoop学习历程 [持续更新中…]
1. Hadoop FS Shell Hadoop之所以可以实现分布式计算,主要的原因之一是因为其背后的分布式文件系统(HDFS).所以,对于Hadoop的文件操作需要有一套全新的shell指令来完成 ...
- Hadoop学习全程记录——在Eclipse中运行第一个MapReduce程序
网友分享,拿来共享一下 这是Hadoop学习全程记录第2篇,在这篇里我将介绍一下如何在Eclipse下写第一个MapReduce程序. 新说明一下我的开发环境: 操作系统:在windows下使用wub ...
- Hadoop学习笔记—11.MapReduce中的排序和分组
Hadoop学习笔记-11.MapReduce中的排序和分组 一.写在之前的 1.1 回顾Map阶段四大步骤 首先,我们回顾一下在MapReduce中,排序和分组在哪里被执行: 从上图中可以清楚地看出 ...
- Hadoop学习之HDFS
Hadoop学习之HDFS 1 HDFS相关概念 1.1 设计思路 分散存储,冗余备份. 分散存储:大文件被切割成小文件,使用分而治之的思想让多个服务器对同一个文件进行联合管理: 冗余备份:每个小文件 ...
- Hadoop学习笔记—13.分布式集群中节点的动态添加与下架
Hadoop学习笔记-13.分布式集群中节点的动态添加与下架 开篇:在本笔记系列的第一篇中,我们介绍了如何搭建伪分布与分布模式的Hadoop集群.现在,我们来了解一下在一个Hadoop分布式集群中,如 ...
- Hadoop学习笔记(四)HDFS部分下
Hadoop学习笔记(四)HDFS部分下 一.HDFS 的数据流 1.1 HDFS的写数据流程 客户端通过 Distributed FileSystem 模块向 NameNode 请求上传文件,Nam ...
- 大数据之Hadoop学习——动手实战学习MapReduce编程实例
文章目录 一.MapReduce理论基础 二.Hadoop.Spark学习路线及资源收纳 三.MapReduce编程实例 1.自定义对象序列化 需求分析 报错:Exception in thread ...
最新文章
- 正则表达式最常用的符号匹配
- 提示-bash: telnet: command not found的解决方法
- Hadoop yarn容量调度器capacity-scheduler.xml配置示例
- P3180-[HAOI2016]地图【圆方树,莫队,分块】
- RuoYi-Cloud 部署篇_03(windows环境 mysql版本)
- Yuchuan_Linux_C编程之二 GCC编译
- Java面向对象 网络编程 上
- linux 下拉式 终端,Gnome桌面的下拉式终端: Guake
- 【zoj1004 vector stack STL】anagrams by stack
- lwj_C#_集合stack栈和queue队列
- 15.正则表达式扩展正则字符处理
- 51单片机入门(3)点灯的进阶——跑马灯(通过阻塞延时实现)
- 查看oracle数据库防火墙设置,用三个方法设置Oracle数据库穿越防火墙
- 立体视觉入门指南:对级约束与Fusiello法极线校正
- python 经典ppt_Python讲解ppt
- pythonGUI(二)基本元素之二
- IDEA远程提交hadoop任务时出现的错误
- imperva-代理安装
- 独家丨DeepMind科学家、AlphaTensor一作解读背后的故事与实现细节
- 第五章人间深情,公母为山
热门文章
- 合肥南站,你怎么这么棒?人民日报都夸你了!
- 预告:大牛现身说法 TensorFlow在工程项目中的应用 | AI 研习社
- SCM-SVN集成服务器
- ConcurrentHashMap之实现细节(转)
- c++如何对结构体作为形参设置默认值
- [转]C#读写xml文件
- 【Linux入门基础知识】Linux 脚本编写基础
- Mac全量编译ijkplayer生成Android库
- JavaScript对象系统说明图
- shouldOverrideUrlLoading(拦截url加载,除资源请求的url) shouldInterceptRequest(拦截所有url请求)