戳蓝字“CSDN云计算”关注我们哦!

作者:安静的技术控

来源:CSDN

原文:

https://blog.csdn.net/a2011480169/article/details/52924955

版权声明:本文为博主原创文章,转载请附上博文链接!

现在大数据是越来越火了,而我自己研究这方面也很长时间了,今天就根据我自己的经验教会大家学会如何使用MapReduce,下文中将MapReduce简写为MR。


本篇博客将结合实际案例来具体说明MR的每一个知识点。


1、本篇博客核心内容

2、MR的基本概念

3、MR中map函数和reduce函数如何编写

4、MR程序的基本编写流程(MR的基本执行过程)

下面将用一个具体的电信业务说明MR最基本的编写过程:
实验所用数据:

具体字段描述:

业务要求:统计同一个用户的上行总流量和,下行总流量和以及上下总流量和
例如:

代码示例:

运行结果:

5、MR程序的优化方式1---分区

具体业务描述:对于上面的电信数据,统计同一个用户的上行总流量和,下行总流量和以及上下总流量和,并且手机号(11位)的信息输出到一个文件中,非手机号(8位)的信息输出到一个文件中


代码示例

运行结果:

6、MR程序的优化方式2---自定义排序

业务描述:
对于上面业务得到的统计结果:


先按照总流量由低到高排序,在总流量相同的情况下,按照下行流量和从低到高排序:


实例代码:

运行结果:

7、MR程序的优化方式3---本地归并Combine


具体业务描述:对于上面的电信数据,统计同一个用户的上行总流量和,下行总流量和以及上下总流量和,代码中要求加入本地归并优化方式:
代码示例:

运行结果:


8、MR程序的优化方式4---自定义计数器


9、如何用MR实现某个业务的方式总结


1.微信群:

添加小编微信:color_ld,备注“进群+姓名+公司职位”即可,加入【云计算学习交流群】,和志同道合的朋友们共同打卡学习!

2.征稿:

投稿邮箱:liudan@csdn.net;微信号:color_ld。请备注投稿+姓名+公司职位。

推荐阅读

  • 云计算到底是怎么玩的?

  • 面向对象编程,再见!

  • AI女性界的“扛把子”,凭一己之力迫使NIPS改名

  • 00后也会「玩」区块链,你对「朝阳」行业焦虑啥 ?| 圣诞特辑

  • 20k~65k, 2018年最后一波热门技术岗位, 立刻投简历, 跳槽才是加薪的捷径

  • 可替代Android的6大开源移动操作系统

  • 程序员求助:被领导强行要求写Bug该怎么办?网友的回答让我笑翻

点击“阅读原文”,查看原文

喜欢就点击“好看”吧!

深入理解与应用Hadoop中的MapReduce相关推荐

  1. Hadoop中关于MapReduce的编程实例(过滤系统日志)

    框架 Apache Hadoop:分布式处理架构,结合了 MapReduce(并行处理).YARN(作业调度)和HDFS(分布式文件系统);  一.下载Hadoop相关文件 1.在Hadoop官网上下 ...

  2. hadoop中使用MapReduce编程实例

    原文链接:http://www.cnblogs.com/xia520pi/archive/2012/06/04/2534533.html 从网上搜到的一篇hadoop的编程实例,对于初学者真是帮助太大 ...

  3. 一脸懵逼学习Hadoop中的MapReduce程序中自定义分组的实现

    1:首先搞好实体类对象: write 是把每个对象序列化到输出流,readFields是把输入流字节反序列化,实现WritableComparable,Java值对象的比较:一般需要重写toStrin ...

  4. Hadoop中的MapReduce框架原理、数据清洗(ETL)、MapReduce开发总结、常见错误及解决方案

    文章目录 13.MapReduce框架原理 13.7 数据清洗(ETL) 13.7.1 需求 13.7.1.1 输入数据 13.7.1.2 期望输出数据 13.7.2 需求分析 13.7.3实现代码 ...

  5. 如何在Hadoop中控制MapReduce任务的数量

    一 如何控制Map任务数量 既然要讨论如何控制map任务数量,那么我们就得知道有哪些因素会影响map任务的数量. 我们知道,map任务的数量是由在提交job的时候,进行文件切片的时候,文件的切片数决定 ...

  6. 在Apache Hadoop(多节点群集)中运行Map-Reduce作业

    我们将在这里描述在多节点集群中的Apache Hadoop中运行MapReduce Job的过程. 要在多节点群集中设置Apache Hadoop ,可以阅读设置Apache Hadoop多节点群集 ...

  7. Hadoop 生态之 MapReduce 及 Hive 简介

    作者 | 李一帆 杏仁Java工程师.关注后端开发. 1.计算框架 Hadoop 是一个计算框架,目前大型数据计算框架常用的大致有五种: 仅批处理框架:Apache hadoop. 仅流处理框架:Ap ...

  8. 文件数据云计算学习笔记---Hadoop HDFS和MapReduce 架构浅析

    本文是一篇关于文件数据的帖子 媒介 Hadoop是一个基于Java的分布式麋集数据处理和数据分析的软件框架.Hadoop在很大程度上是受Google在2004年白皮书中论述的MapReduce技术的启 ...

  9. 从Hadoop框架与MapReduce模式中谈海量数据处理(含淘宝技术架构)

    从hadoop框架与MapReduce模式中谈海量数据处理 前言 几周前,当我最初听到,以致后来初次接触Hadoop与MapReduce这两个东西,我便稍显兴奋,觉得它们很是神秘,而神秘的东西常能勾起 ...

最新文章

  1. [转]EOS智能合约 私链激活 基本操作
  2. python语言必背代码-Python入门必须知道的11个知识点
  3. Python中元组的介绍以及常见操作
  4. 外贸常用术语_推荐必看!外贸、货代人订舱常用术语及订舱单中英对照!收藏备用...
  5. 使用Tomcat配置域名
  6. A Scala Tutorial for Java programmers之(一)Scala入门:Scala例子,以及如何与Java交互
  7. day4 数组的初始化和练习
  8. 阿里云mysql不让锁表_MySQL中InnoDB锁不住表的原因
  9. map任务和reduce任务个数如何计算
  10. 什么是 Token 令牌
  11. 使用python压缩文件夹
  12. mt4和mt5的区别
  13. Java ffmpeg视频压缩IOS播放没有声音问题解决(超级简单)
  14. 快乐星球计算机老师,《快乐星球Ⅴ》新电脑老师(下)
  15. DBMS Implementation 笔记 04: Indexing
  16. tup,list,dict,set的创建
  17. 【职场】工作上遇到的问题
  18. 点击小图查看大图的定位功能
  19. Unable to access ‘https://github.com/**/**/‘: OpenSSL SSL_read: Connection was aborted, errno 10053
  20. 页面置换算法最佳页面置换算法模拟JAVA实现

热门文章

  1. mysql二进制备份配置_mysql针对于二进制数据的备份
  2. 中文转数字 java_java将阿拉伯数字转换为中文数字
  3. 全局修改elementui message 右边弹出_ElementUI 只允许 $message 提示一次
  4. C++求复数的角度_11.初中数学:方程5x2m=4x的解,在2与10之间,怎么求m的取值范围?...
  5. 中国到底需要多少博士点?
  6. 科技强,必须应用数学强
  7. 清华大学成立人工智能学堂班,土木类、电子信息类实行全程大类培养
  8. mysql 自增 不是主键_程序员经典面试题,MySQL自增主键为什么不连续
  9. ns2相关学习——tcl脚本编写(1)
  10. linux动态库查找路径以及依赖关系梳理