MapReduce重点

程序员必须指定:

map (k, v) → <k’, v’>*

reduce (k’, v’) → <k’, v’>*

  • 所有具有相同key的value被聚集到一起

可选的操作:

partition (k’,划分数) → k’的划分

  • 往往使用key的一个简单散列函数, e.g., hash(k’) mod n
  • 为并行reduce操作划分key空间

combine (k’, v’) → <k’, v’>*

  • Mini-reducers在map后的阶段运行
  • 用作减少网络流量的优化器

执行框架处理一切

  • 调度:为map和reduce分配工人
  • “数据分布”:将过程移动到数据
  • 同步:聚集, 排序, 打乱中间数据
  • 错误处理:检测工人失败和重新启动

有限的数据和控制执行流

  • 所有算法都必须用m, r, c, p表达

存在疑问的:

  • map和reduce在哪里运行
  • mapper或reducer何时结束
  • 一个特定的mapper正在处理哪种输入
  • 一个特定的reducer正在处理哪个特定中间键值

同步工具

  • 聪明构建数据结构

    • 将部分结果联系在一起
  • 中间键的排序顺序
    • 控制reducer处理键的顺序
  • 分割器
    • 控制哪些reducer处理哪些键
  • 保持mapper和reducer的状态
    • 捕获多个键和值的依赖关系

可伸缩的Hadoop算法: 模式

  • 避免创建对象

    • 本质上昂贵的操作
    • 垃圾收集
  • 避免缓冲
    • 有限的堆大小
    • 适用于小数据集,但不可扩展!

本地的聚合的重要性

  • 理想的可扩展行:

    • 数据加倍,运行时间加倍
    • 资源加倍,运行时间减半
  • 为什么我们不能做到这一点呢?
    • 同步需要通信
    • 通信影响性能
  • 因此…避免通信!
    • 通过当地的聚合减少中间数据
    • 有效利用组合器

洗牌和排序

大数据之MapReduce并行算法简单概括相关推荐

  1. 图解大数据 | 应用Map-Reduce进行大数据统计@实操案例

    作者:韩信子@ShowMeAI 教程地址:http://www.showmeai.tech/tutorials/84 本文地址:http://www.showmeai.tech/article-det ...

  2. 大数据-hadoop MapReduce

    大数据-hadoop MapReduce 大数据-hadoop MapReduce MapReduce 思考:为什么叫MapReduce? 对应关系 实操案例 MR计算框架:计算向数据移动如何实现? ...

  3. mapreduce 丢数据_大数据之MapReduce详解

    1.什么是Map/Reduce,看下面的各种解释: (1)MapReduce是hadoop的核心组件之一,hadoop要分布式包括两部分,一是分布式文件系统hdfs,一部是分布式计算框,就是mapre ...

  4. mapreduce编程规范_大数据之MapReduce详解

    今天要讲的是MapReduce 目录 今天先总体说下MapReduce的相关知识,后续将会详细说明对应的shuffle.mr与yarn的联系.以及mr的join操作的等知识.以下内容全是个人学习后的见 ...

  5. 华为的大数据平台—MapReduce服务

    内容: 大数据相关知识,和目前主流的解决方案 MapReduce服务 如何使用 文章整理自:https://edu.huaweicloud.com/courses 大数据的开源解决方案:Hadoop ...

  6. 大数据基金业绩分化简单依赖模型行不通

    近期,大数据基金火了起来,公募基金将智能投顾业务看做未来发展的趋势.但是,无论是相关产品的表现,还是实际的投资,目前的大数据基金都还没有做好准备. 这个夏天,大数据基金的热度弥漫了市场.上海一家基金公 ...

  7. 大数据开发 | MapReduce介绍

    1.  MapReduce 介绍 1.1MapReduce的作用 假设有一个计算文件中单词个数的需求,文件比较多也比较大,在单击运行的时候机器的内存受限,磁盘受限,运算能力受限,而一旦将单机版程序扩展 ...

  8. ibatis 存储过程 结果集 map_大数据之MapReduce shuffle过程

    一.MapReduce计算模型 我们知道MapReduce计算模型主要由三个阶段构成:Map.shuffle.Reduce. Map是映射,负责数据的过滤分法,将原始数据转化为键值对:Reduce是合 ...

  9. HNU2022夏季小学期大数据并行处理MapReduce任务

    文章目录 0 说明 1 连接hadoop 1 安装 2 配置环境变量 3 连接HDFS 4 连Hadoop 5 测试 2 输入文件准备 3 建MAVEN工程 1 建工程 2 导依赖 4 任务一:数据去 ...

最新文章

  1. 三十八、判断服务是否运行及定位问题
  2. python os模块详细用法
  3. mac系统,鼠标移动太慢
  4. 热更新机制的实现_记 Arthas 实现一次 CPU 排查与代码热更新
  5. C#4.0的十种语法糖
  6. RHCS双机集群调测
  7. 利用maven的resources、filter和profile实现不同环境使用不同配置文件
  8. 基于串级pid控制系统的两轴无人机云台设计
  9. 【老鸟进阶】deepfacelab错误人脸图片快速处理
  10. 锤子手机(smartisan t1)如何查看mac地址
  11. 女朋友让我深夜十二点催她睡觉,我有Python我就不干
  12. Docker镜像安装宋体
  13. Java导入导出功能
  14. Elasticsearch(7.0.0) percolate termQuery 不好使 (type:text default analyzer)
  15. flutter 多版本管理利器fvm的详细使用介绍
  16. 宏定义有无参数宏定义和带参数宏定义两种
  17. 三国群英传M玩亚服好还是台服好?服务器选择推荐
  18. MySQL InnoDB配置统计信息
  19. 工作需要仪式感,不然TA是没有温度的
  20. root密码破解方法

热门文章

  1. 蒂森电梯服务器显示0034,蒂森MC2电梯故障代码.pdf
  2. 各类好玩免费API推荐,强烈建议收藏
  3. [经验]Ubuntu远程桌面连接Windows
  4. CS5212AN设计Display to Vga 高清转接器产品|Display to Vga 高清1080P转接线产品
  5. python学习笔记8(元组、字符串)
  6. 用 Python 替代Excel 表格,轻而易举实现办公自动化
  7. 单例模式,自定义cell加长版,对控件的圆润度设置还有另一种跳界面方式(很多界面)
  8. for循环执行顺序详解(避坑)
  9. 企业实施SRM系统应该避开哪些误区?
  10. html5中的div和section,article,aside的用法