Mapreduce基本工作流程
MapReduce分布式计算框架
基本流程:
1,大数据经split划分成大小相等的数据块(数据块的大小一般等于HDFS一个块的大小)以及用户作业程序。
2,系统中有一个负责调度的Master节点和许多的Map工作节点,Reduce工作节点
3,用户作业程序提交给Master节点,Master节点寻找合适的Map节点,并将数据传给Map节点,并且Master也寻找合适的Reduce节点并将数据传给Reduce节点
4,Master节点启动Map节点执行程序,Map节点尽可能的读取本地或本机架上的数据块进行计算。(数据本地化是Mapreduce的核心特征)
5,每个Map节点处理读取的数据块,并做一些数据整理,并且将中间结果放在本地而非HDFS中,同时通知Master节点Map工作完成,并告知中间结果的存储位置。
6,Master节点等所有Map工作完成后,开始启动Reduce节点,Reduce节点通过Master节点掌握的中间结果的存储位置来远程读取中间结果。
7,Reduce节点将中间结果处理后将结果输出到一个文件中。
从用户作业程序角度来看:
一个作业执行过程中有一个Jobtracker和多个Tasktracker,分别对应于HDFS中的namenode和datanode。Jobclient在用户端把已配置参数打包成jar文件存储在HDFS,并把存储路径提交给Jobtracker,然后Jobtracker创建每一个Task,并且分发到Tasktracker服务中去执行。
Mapreduce基本工作流程相关推荐
- 什么是MapReduce,MapReduce的工作流程和原理是什么
一.MapReduce的概念 MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算.概念"Map(映射)"和"Reduce(归约)",和它 ...
- 【大数据入门笔记系列】第六节 分布式计算框架MapReduce的工作流程
[大数据入门笔记系列]第六节 分布式计算框架MapReduce的工作流程 前言 MapReduce分布式运算 MapReduceApplication MapTask ReduceTask split ...
- MapReduce详细工作流程解析
MapReduce工作流程 一.流程示意图 二.流程详解 1.split阶段 2.map阶段 3.Shuffle阶段 4.Reduce阶段 5.注意 三.各个阶段的工作机制 1.InputFormat ...
- Mapreduce的工作流程
一 Job的提交过程 1.1创建Job(我们可以理解为一个需要运行的MapReduce应用程序的作业) 1.2设置Job需要运行的应用程序 1.3校验Job输出路径 1.4设置Mapper类和输入ke ...
- mapreduce工作流程_我要进大厂之大数据MapReduce知识点(2)
01 我们一起学大数据 今天老刘分享的是MapReduce知识点的第二部分,在第一部分中基本把MapReduce的工作流程讲述清楚了,现在就是对MapReduce零零散散的知识点进行总结,这次的内容大 ...
- Mapreduce工作流程与简介
最近几天一直在学习关于大数据方面的相关技术,今天学习了MapReduce的工作流程,让我对数据地处理有了新的认识,接下来我分享一下关于MapReduce2.0的工作流程 Mapreduce简介 Had ...
- mapreduce工作流程
mapre的工作流程 1.文件要存储在HDFS中,每个文件被切分成多个一定大小的块也就是Block,(Hadoop1.0默认为64M,Hadoop2.0默认为128M),并且默认3个备份存储在多个的节 ...
- MapReduce简述、工作流程
MapReduce简述.工作流程 MR编程模型之执行步骤: 1.准备map处理的输入数据 2.mapper处理 3.Shuffle 4.Reduce处理 5.结果输出 (input)<k1,v1 ...
- Hadoop之MapReduce工作流程
Hadoop之MapReduce工作流程 目录 流程示意图 流程详解 注意 1. 流程示意图 MapReduce工作流程 流程示意图,如下图 2. 流程详解 上面的流程是整个mapreduce最全工作 ...
最新文章
- 显示乱七八糟图片问题之解决
- c++find函数_Excel中八大经典函数组合,帮你整理齐了
- ArcGIS AO中控制图层中要素可见状态的总结
- AIX修改系统时间 命令
- aspx页面在运行的时候会自动产生当前页面类的一个子类。
- 纯JDBC系统的开发随想
- MVC3学习:利用mvc3+ajax实现登录
- Linux (x86) Exploit 开发系列教程之十 使用 Malloc Maleficarum 的堆溢出
- 【Java从0到架构师】SpringCloud - Sleuth、Zipkin、Config
- DataMining with Sql 2005
- 想起一则急着争权的故事
- 数理统计与描述性分析
- 新西兰计算机预科学费,新西兰留学预科学费
- wps里ppt怎么换另一个的模板_现学现用极简技术|智能PPT,一个按键轻松搞定专业的制作!...
- Error500错误的解决方法(俩种解决方法)
- 【spring】spring 的事务(transaction) 四 嵌套事务PROPAGATION_NESTED
- Excel数据分列大法总结
- JDK对Http协议的Keep-Alive的支持,以JDK8为例
- 解决浏览器导出Excel文件名乱码问题
- 如何搭建一套在线网校系统?需要哪些功能?