MapReduce基本原理

运算原理

首先以词频统计的案例,来描述一下MapReduce的运算原理与一些基本的概念。这里输入的数据是一些英文的文章,它有很多行组成,而每一行又包含很多单词,每个单词之间由空格隔开;现在需要使用MapReduce来统计每个单词的出现次数。

这里输入的案例数据比较少,只有三行,分别是 Deer Bear River 、 Car Car River 、 Deer Car Bear。

当数据被上传到HDFS的时候,会被自动拆分(以128M为标准)为Block存储,MapReduce在执行前,需要一个Splitting阶段来确定Map数量,默认情况下与Block数量保持一致,即Splitting阶段不做任何处理,直接沿用Block数量,然后直接在下一个阶段将计算任务移动到每个Block上即可。但Splitting真正存在的意义在于——自定义Map数量,如果需要更多的并发度,则还需要对存储在HDFS上的Block进行拆分,如果更少的并发,则对Block进行合并。

这里的Splitting使用默认情况,假设文件在被存储到HDFS时,被拆分了3个Block,每个Block分别存储了一行数据;那这里Splitting不做任何处理,即3个Split。

之后每一个Split数据块上便会启动一个Map任务,进入到Map阶段

【MapReduce】基本原理相关推荐

  1. 分布式离线计算—MapReduce—基本原理

    原文作者:黎先生 原文地址:MapReduce基本原理及应用 目录 一.MapReduce模型简介 1. Map和Reduce函数 2. MapReduce体系结构 3. MapReduce工作流程 ...

  2. Hadoop框架:MapReduce基本原理和入门案例

    本文源码:GitHub·点这里 || GitEE·点这里 一.MapReduce概述 1.基本概念 Hadoop核心组件之一:分布式计算的方案MapReduce,是一种编程模型,用于大规模数据集的并行 ...

  3. python - hadoop,mapreduce demo

    Hadoop,mapreduce 介绍 59888745@qq.com 大数据工程师是在Linux系统下搭建Hadoop生态系统(cloudera是最大的输出者类似于Linux的红帽), 把用户的交易 ...

  4. hadooppythonsql_python - hadoop,mapreduce demo

    Hadoop,mapreduce 介绍 59888745@qq.com 大数据工程师是在Linux系统下搭建Hadoop生态系统(cloudera是最大的输出者类似于Linux的红帽), 把用户的交易 ...

  5. MapReduce入门和优化方案

    MapReduce基本原理和高性能网络下优化: Mapreduce概述 Mapreduce式谷歌开源的一项重要技术,是一个编程模型,用来进行大数据量的计算,对于大数据量的计算通常采用的处理方式式并行计 ...

  6. (超详细)MapReduce工作原理及基础编程

    MapReduce工作原理及基础编程(代码见文章后半部分) JunLeon--go big or go home 目录 MapReduce工作原理及基础编程(代码见文章后半部分) 一.MapReduc ...

  7. 实例掌握Hadoop MapReduce

    本文旨在帮您快速了解 MapReduce 的工作机制和开发方法,解决以下几个问题: MapReduce 基本原理是什么? MapReduce 的执行过程是怎么样的? MapReduce 的核心流程细节 ...

  8. 【Hadoop】谷歌的三篇论文(GFS、MapReduce分布式计算模型 、BigTable大表)

    谷歌的三篇论文(GFS.MapReduce分布式计算模型 .BigTable大表) 0 谷歌的基本思想:三驾马车 1 第一篇论文:GFS 1.1 Google的GFS分布式文件系统的基本原理 1.2 ...

  9. Scala,Spark和IDEA学习笔记

    目录 distinct和dropDuplicates的区别联系 IDEA下载Git项目 解决A master URL must be set in your configuration错误 Intel ...

最新文章

  1. [LeetCode]题解(python):087-Scramble String
  2. windows python 访问mtp存储空间_Python 3.7 已上架 Microsoft Store,让你 轻松使用 Python...
  3. 唠唠面试常问的:面向对象六大原则
  4. python常用内置函数总结-python常用内置函数
  5. [杂记]对RSA算法的数学原理的一点思考
  6. 你真的以为你了解Java的序列化了吗
  7. 字符串处理 —— 单模式匹配
  8. 使用C#开发ActiveX控件
  9. rocketMq错误日志所在位置
  10. 2017-10-湖南套题1
  11. 一个关于finally和return的面试题
  12. vscode eslint插件对vue文件无效
  13. 中行网银安全控件 v1.0 官方版
  14. c语言智能插座多线程原理,主芯片HLW8012 - 基于WiFi智能插座的智能家居电路及原理解析—电路精选(49)...
  15. 如何批量缩小图片尺寸大小?
  16. “程序员猝死”引发的思考
  17. Cesium 源码解析 Model(二)
  18. wordpress+000webhost+dot.tk 搭建免费独立博客
  19. java 集成 pageoffice 实现 word 文档的在线编辑以及流转
  20. 商品表设计-实现侧滑栏类目Catagory和商品的多对多关系

热门文章

  1. edge浏览器什么相当于ie的中低_Win10 Edge浏览器和IE浏览器哪个好用?
  2. Onvif/RTSP安防流媒体服务-配置CDN加速互联网直播
  3. 人生下来就是一个矛盾体
  4. 【C#基础教程】第二十章、事件
  5. 运用瀑布模型完成PL/SQL程序设计
  6. 计算机技术在注射模中的应用,CAD/CAM技术在注射模具设计,制造中的应用.pdf
  7. 使用colab训练faster-rcnn pytorch版(代码来源:霹雳吧啦Wz)
  8. 【HTML5学习小结(1)】
  9. java 模拟投票代码_求投票系统(Java源代码)
  10. 入门web开发第一个项目1.0版本