文章目录

  • 一、输出文件格式及序列化文件生成
    • 1.1、输出文件格式
    • 1.2、设置输出SequenceFileOutputFormat文件格式
  • 二、输入文件格式及序列化文件读取
    • 2.1、输入数据文件类型
    • 2.2、设置输入SequenceFileInputFormat文件格式
  • 三、使用Partitioner优化程序
    • 3.1、自定义单词计数
  • 四、本地提交MapReduce程序
    • 4.1、自定义单词计数

一、输出文件格式及序列化文件生成

1.1、输出文件格式


默认输出类型是:TextOutputFormat

1.2、设置输出SequenceFileOutputFormat文件格式

流程(Mapper、Reducer、Main、打包运行)
(参考SortByCountFirst程序)

Main函数

运行Job:

打包上传后,查看:
(master:8088)

(master:50070)

(终端查看:hdfs dfs -text sortbycountfirstseq_output00/part-r-00000 | head -2


二、输入文件格式及序列化文件读取

2.1、输入数据文件类型


默认输入类型是:TextInputFormat

2.2、设置输入SequenceFileInputFormat文件格式

流程(Mapper、Reducer、Main、打包运行)
(参考SortByCountSecond程序)

Mapper函数

Main函数

结果查看:



三、使用Partitioner优化程序


只有一个reducer的话,Partitioner是没有用处的

3.1、自定义单词计数

Partitioner
(添加,可以查找HashPartitioner.java找完后修改)

Main函数

查看结果

四、本地提交MapReduce程序

4.1、自定义单词计数

Main 函数

可能出现的问题及解决方法:
1、问题:

解决:修改权限

2、问题:

任务提交仍然失败!
(日志)

解决:添加文件

学习笔记Hadoop(十五)—— MapReduce编程进阶相关推荐

  1. JavaScript学习笔记(十五)

    JavaScript学习笔记(十五) 事件 事件是DOM(文档对象模型)的一部分.事件流就是事件发生顺序,这是IE和其他浏览器在事件支持上的主要差别. 一.事件流 1.冒泡型事件 IE上的解决方案就是 ...

  2. OpenCV学习笔记(十五):图像仿射变换:warpAffine(),getRotationMatrix2D()

    OpenCV学习笔记(十五):图像仿射变换:warpAffine(),getRotationMatrix2D() 一个任意的仿射变换都能表示为乘以一个矩阵(线性变换)接着再加上一个向量(平移)的形式. ...

  3. MATLAB学习笔记(十五)

    MATLAB学习笔记(十五) 一.非线性方程求解与函数极值计算 1.1 非线性方程数值求解 1.2 函数极值的计算 1.2.1 无约束最优化问题 1.2.2 有约束最优化问题 一.非线性方程求解与函数 ...

  4. 学习笔记(十五)——镜像的知识点与注意事项

    学习笔记(十五)--镜像的知识点与注意事项 一.基础知识 1.SQL Server镜像只有两种模式:高安全模式和高性能模式.两种模式的主要区别在于在事务提交后的操作. 在高性能模式下,主体服务器不需要 ...

  5. cortex_m3_stm32嵌入式学习笔记(十五):待机唤醒实验(WK_UP外部中断)

    cortex_m3_stm32嵌入式学习笔记(十五):待机唤醒实验(WK_UP外部中断) https://blog.csdn.net/qq_16255321/article/details/43086 ...

  6. Cty的Linux学习笔记(十五——wget)

    Linux学习笔记--第十五篇 wget命令用于在终端中下载网络文件,格式为"wget  [参数]  下载地址" 参数: -b:后台下载模式 -P:下载到指定目录 -t:最大尝试次 ...

  7. 学习笔记(十五)——MySQL(查询)

    查询方法 下面的查询都是对单表的查询,所以先创建表tb1(下面的tb1均代表此表) create table tb1(id int,name varchar(10),age int,class var ...

  8. input回车触发事件_JavaScript学习笔记(十五)-- Event事件(上)

    EVENT(上) 之前我们简单的了解过一些事件,比如 onclick / onload / onscroll / ... 今天开始,我们详细的学习一些 事件 什么是事件 一个事件由什么东西组成 触发谁 ...

  9. MyBatis多参数传递之混合方式——MyBatis学习笔记之十五

    在本系列文章的<MyBatis多参数传递之Map方式示例>一文中,网友mashiguang提问如下的方法如何传递参数:public List findStudents(Map condit ...

  10. 文件数据云计算学习笔记---Hadoop HDFS和MapReduce 架构浅析

    本文是一篇关于文件数据的帖子 媒介 Hadoop是一个基于Java的分布式麋集数据处理和数据分析的软件框架.Hadoop在很大程度上是受Google在2004年白皮书中论述的MapReduce技术的启 ...

最新文章

  1. 2008.04.14狼图腾
  2. python花式编码_Python——花式打印对象的若干种方法
  3. UA PHYS515 电磁理论I 麦克斯韦方程组基础3 麦克斯韦方程的势能形式
  4. Intel Realsense D435 如何通过摄像头序列号获取指定摄像头的帧集对?
  5. OpenGL 绘制彩色三角形的实例
  6. YbtOJ#20066-[NOIP2020模拟赛B组Day4]筹备计划【线段树,树状数组】
  7. css 深度选择器 ,CSS的coped私有作用域和深度选择器
  8. linux自动输入sudo密码_用大写字母输入 Linux 命令,实现以 sudo 用户权限运行
  9. Git学习笔记:一台电脑上配置两个git账户
  10. jupyter notebook 修改默认文件夹
  11. SecureCRT背景颜色设置
  12. 计算机软件工程常用英语词汇,软件工程常用英文词汇缩写汇总(1)
  13. asp.net 获得根文件夹在服务器上物理路径,asp.net获取网站目录物理路径
  14. PyQt5最全39 表格之QTableView显示二维表数据
  15. 小学生python游戏编程2----飞机大战1
  16. 交友盲盒源码h5开发浅谈
  17. Linux系统中DHCP服务设置
  18. 【Django】Django配置文件和设计模式详解
  19. 一图更比六图强,图片滤镜--java
  20. 华为nova3游戏帧数测试软件,华为nova3最全游戏体验报告:手游玩家一定不能错过...

热门文章

  1. 开源 python_8款Python GUI开源框架,谁才是你的最爱?
  2. python 二分法实现pow_Python实现二分法和黄金分割法
  3. python gil_Python GIL(Global Interpreter Lock)
  4. 83. Leetcode 148. 排序链表 (排序)
  5. Leetcode 155. 最小栈 (每日一题 20210923)
  6. 只用位运算不用算术运算实现
  7. 文巾解题 1833. 雪糕的最大数量
  8. 文巾解题 5. 最长回文子串
  9. 深度学习核心技术精讲100篇(十二)-DCGAN(对抗生成网络)算法应用及代码实现
  10. 数据挖掘学习笔记之人工神经网络(一)