简述MapReduce执行过程?

Map把一个函数应用于集合中的所有成员,然后返回一个基于这个处理的结果集;Reduce是把两个或更多个Map中通过多个线程、进程或独立系统并行执行处理的结果集进行分类和归纳。
MapReduce的执行过程如下:
(1)数据预处理:在任务开始前,首先调用类库,将输入文件分为多个分片。
(2)任务分配:JobTracker为集群中空闲的节点分配Map任务或者Reduce任务。设集群中有M个Map任务和R个Reduce任务(Reduce任务数通常小于Map任务数)。
(3)Map任务:Mapper 读取自己所属的文件分片,将每一条输入数据转换为<key, value>键值对,使用Map函数对每一个键值对进行处理,得到一个新的<key, value>键值对,作为中间结果缓存在当前节点。
(4)缓存文件定位:Map任务得到的中间结果被周期性地写入Mapper所在的本地硬盘中,并把文件的存储位置信息经由JobTracker传递给Reducer。
(5)Reducer 拉取文件:Reducer 通过位置信息到相应的Mapper处拉取这些文件,将同一key对应的所有取值合并,得到<key, list(value)>键值组。
(6)Reduce 任务:Reducer 将所读取到的<key, list(value)>键值组使用Reduce 函数进行计算,得到最终结果并将其输出。
(7)结束:当所有的Map任务和Reduce任务运行完毕后,系统会自动结束各个节点上的对应进程并将任务的执行情况反馈给用户。

简述MapReduce执行过程?相关推荐

  1. Hadoop学习之Mapreduce执行过程详解

    一.MapReduce执行过程 MapReduce运行时,首先通过Map读取HDFS中的数据,然后经过拆分,将每个文件中的每行数据分拆成键值对,最后输出作为Reduce的输入,大体执行流程如下图所示: ...

  2. MapReduce执行过程

    Mapper任务的执行过程: 第一阶段是把输入文件按照一定的标准分片(InputSplit),每个输入片的大小是固定的.默认情况下,输入片(InputSplit)的大小与数据块(Block)的大小是相 ...

  3. 简述计算机程序执行过程,计算机程序的执行过程

    [size=small]微型计算机中程序的执行过程 计算机采取"存储程序与程序控制"的工作方式,即事先把程序加载到计算机的存储器中,当启动运行后,计算机便会自动按照程序的要示进行工 ...

  4. Hadoop MapReduce执行过程(一)

    JobClient JobClient是提交job的客户端,当创建一个实例时,构造函数里面要做的事情是: public JobClient(JobConf conf) throws IOExcepti ...

  5. hadoop -- mapreduce执行过程

    1.运行mapreduce程序  ---run 2.本次运行将会生成呢个一个Job , 于是JobClient向JobTracker申请一个JobID 标识该Job. 3.JobClient将Job需 ...

  6. hive底层原理 sql执行过程_Hive mapreduce SQL实现原理——SQL最终分解为MR任务,而group by在MR里和单词统计MR没有区别了-阿里云开发者社区...

    转自:http://blog.csdn.net/sn_zzy/article/details/43446027 SQL转化为MapReduce的过程 了解了MapReduce实现SQL基本操作之后,我 ...

  7. WordCount的理解与MapReduce的执行过程

    WordCount的入门 WordCount是最常见.最基本的一个需求,例如进行词频统计.用户访问记录统计.如果数据量非常小的情况下,使用单机.批处理的方式就可以很快得到结果.但是如果数据量非常大,数 ...

  8. 1.简述一个Activity跳转到另一个Activity时,两个Activity生命周期方法的执行过程。2.编写一个程序,要求在第一个界面中输入两个数字,在第二个界面显示第一个界面两个数字的和。

    1.简述一个Activity跳转到另一个Activity时,两个Activity生命周期方法的执行过程. 首先,我创建了一个MainActivity和SecondActivity两个Activity. ...

  9. Hadoop详解(三)——MapReduce原理和执行过程,远程Debug,Writable序列化接口,MapReduce程序编写

    MapReduce概述 MapReduce是一种分布式计算模型,由Google提出,主要用于搜索领域,解决海量数据的计算问题. MR由两个阶段组成:Map和Reduce,用户只需要实现map()和Re ...

最新文章

  1. netcore 图片 文件大小_NetCore 3.0文件上传和大文件上传的限制详解
  2. 一起talk C栗子吧(第一百二十三回:C语言实例--显示变量和函数的地址)
  3. Onew积极开拓国际市场,为全球用户提供全方位金融服务
  4. 蓝桥杯第八届省赛JAVA真题----日期问题
  5. [转载] 在IPython中重新加载模块 importlib
  6. 解决磁盘IO紧张的一种方法
  7. [转]正确设置nginx/php-fpm/apache权限
  8. 二十五、JAVA多线程(一、理论知识)
  9. Winform获取本地IP和外网IP
  10. Mac安装jdk17和jdk18
  11. NXP RT1062 flashloader下载程序到RAM执行
  12. 敏感词检测软件-在线敏感词批量检测免费
  13. TensorFlow1.x入门(2)——变量的定义及其操作
  14. 新浪短链接生成器 最新新浪短网址短链接在线生成器推荐
  15. 永不断电的IPONE4
  16. [数分笔记]关于有限覆盖定理
  17. Jmeter之查看结果树详解
  18. mysql查附近500米商户_mysql查询附近门店
  19. python 一个简陋的web服务器
  20. 钉钉的sonar集成通知 dingding-sonar

热门文章

  1. 信息安全工程师考试大纲-科目2:信息安全应用技术
  2. 计算机系统结构专业是什么专业,中国大学计算机系统结构专业排名
  3. mybatis工作原理_万字好文!MyBatis 的工作原理,你了解过吗?
  4. selenium元素定位之 动态id, class元素定位
  5. jquery.roundabout.js图片叠加3D旋转
  6. 数据分析系统DIY1/3:CentOS7+MariaDB安装纪实
  7. notifyDataSetInvalidated()和notifyDataSetChanged()有什么区别? (转载)
  8. 英雄七十寿 无物下冷酒 横刀上闹市 直取数人头
  9. IE自动弹出窗口(JS/TrojanDownloader.Iframe.NDR 木马查杀)故障解决
  10. 查了一晚上的资料,累啊。