学习笔记Hadoop(十五)—— MapReduce编程进阶
文章目录
- 一、输出文件格式及序列化文件生成
- 1.1、输出文件格式
- 1.2、设置输出SequenceFileOutputFormat文件格式
- 二、输入文件格式及序列化文件读取
- 2.1、输入数据文件类型
- 2.2、设置输入SequenceFileInputFormat文件格式
- 三、使用Partitioner优化程序
- 3.1、自定义单词计数
- 四、本地提交MapReduce程序
- 4.1、自定义单词计数
一、输出文件格式及序列化文件生成
1.1、输出文件格式
默认输出类型是:TextOutputFormat
1.2、设置输出SequenceFileOutputFormat文件格式
流程(Mapper、Reducer、Main、打包运行)
(参考SortByCountFirst程序)
Main函数
运行Job:
打包上传后,查看:
(master:8088
)
(master:50070
)
(终端查看:hdfs dfs -text sortbycountfirstseq_output00/part-r-00000 | head -2
)
二、输入文件格式及序列化文件读取
2.1、输入数据文件类型
默认输入类型是:TextInputFormat
2.2、设置输入SequenceFileInputFormat文件格式
流程(Mapper、Reducer、Main、打包运行)
(参考SortByCountSecond程序)
Mapper函数
Main函数
结果查看:
三、使用Partitioner优化程序
只有一个reducer的话,Partitioner是没有用处的
3.1、自定义单词计数
Partitioner
(添加,可以查找HashPartitioner.java找完后修改)
Main函数
查看结果
四、本地提交MapReduce程序
4.1、自定义单词计数
Main 函数
可能出现的问题及解决方法:
1、问题:
解决:修改权限
2、问题:
任务提交仍然失败!
(日志)
解决:添加文件
学习笔记Hadoop(十五)—— MapReduce编程进阶相关推荐
- JavaScript学习笔记(十五)
JavaScript学习笔记(十五) 事件 事件是DOM(文档对象模型)的一部分.事件流就是事件发生顺序,这是IE和其他浏览器在事件支持上的主要差别. 一.事件流 1.冒泡型事件 IE上的解决方案就是 ...
- OpenCV学习笔记(十五):图像仿射变换:warpAffine(),getRotationMatrix2D()
OpenCV学习笔记(十五):图像仿射变换:warpAffine(),getRotationMatrix2D() 一个任意的仿射变换都能表示为乘以一个矩阵(线性变换)接着再加上一个向量(平移)的形式. ...
- MATLAB学习笔记(十五)
MATLAB学习笔记(十五) 一.非线性方程求解与函数极值计算 1.1 非线性方程数值求解 1.2 函数极值的计算 1.2.1 无约束最优化问题 1.2.2 有约束最优化问题 一.非线性方程求解与函数 ...
- 学习笔记(十五)——镜像的知识点与注意事项
学习笔记(十五)--镜像的知识点与注意事项 一.基础知识 1.SQL Server镜像只有两种模式:高安全模式和高性能模式.两种模式的主要区别在于在事务提交后的操作. 在高性能模式下,主体服务器不需要 ...
- cortex_m3_stm32嵌入式学习笔记(十五):待机唤醒实验(WK_UP外部中断)
cortex_m3_stm32嵌入式学习笔记(十五):待机唤醒实验(WK_UP外部中断) https://blog.csdn.net/qq_16255321/article/details/43086 ...
- Cty的Linux学习笔记(十五——wget)
Linux学习笔记--第十五篇 wget命令用于在终端中下载网络文件,格式为"wget [参数] 下载地址" 参数: -b:后台下载模式 -P:下载到指定目录 -t:最大尝试次 ...
- 学习笔记(十五)——MySQL(查询)
查询方法 下面的查询都是对单表的查询,所以先创建表tb1(下面的tb1均代表此表) create table tb1(id int,name varchar(10),age int,class var ...
- input回车触发事件_JavaScript学习笔记(十五)-- Event事件(上)
EVENT(上) 之前我们简单的了解过一些事件,比如 onclick / onload / onscroll / ... 今天开始,我们详细的学习一些 事件 什么是事件 一个事件由什么东西组成 触发谁 ...
- MyBatis多参数传递之混合方式——MyBatis学习笔记之十五
在本系列文章的<MyBatis多参数传递之Map方式示例>一文中,网友mashiguang提问如下的方法如何传递参数:public List findStudents(Map condit ...
- 文件数据云计算学习笔记---Hadoop HDFS和MapReduce 架构浅析
本文是一篇关于文件数据的帖子 媒介 Hadoop是一个基于Java的分布式麋集数据处理和数据分析的软件框架.Hadoop在很大程度上是受Google在2004年白皮书中论述的MapReduce技术的启 ...
最新文章
- 2008.04.14狼图腾
- python花式编码_Python——花式打印对象的若干种方法
- UA PHYS515 电磁理论I 麦克斯韦方程组基础3 麦克斯韦方程的势能形式
- Intel Realsense D435 如何通过摄像头序列号获取指定摄像头的帧集对?
- OpenGL 绘制彩色三角形的实例
- YbtOJ#20066-[NOIP2020模拟赛B组Day4]筹备计划【线段树,树状数组】
- css 深度选择器 ,CSS的coped私有作用域和深度选择器
- linux自动输入sudo密码_用大写字母输入 Linux 命令,实现以 sudo 用户权限运行
- Git学习笔记:一台电脑上配置两个git账户
- jupyter notebook 修改默认文件夹
- SecureCRT背景颜色设置
- 计算机软件工程常用英语词汇,软件工程常用英文词汇缩写汇总(1)
- asp.net 获得根文件夹在服务器上物理路径,asp.net获取网站目录物理路径
- PyQt5最全39 表格之QTableView显示二维表数据
- 小学生python游戏编程2----飞机大战1
- 交友盲盒源码h5开发浅谈
- Linux系统中DHCP服务设置
- 【Django】Django配置文件和设计模式详解
- 一图更比六图强,图片滤镜--java
- 华为nova3游戏帧数测试软件,华为nova3最全游戏体验报告:手游玩家一定不能错过...
热门文章
- 开源 python_8款Python GUI开源框架,谁才是你的最爱?
- python 二分法实现pow_Python实现二分法和黄金分割法
- python gil_Python GIL(Global Interpreter Lock)
- 83. Leetcode 148. 排序链表 (排序)
- Leetcode 155. 最小栈 (每日一题 20210923)
- 只用位运算不用算术运算实现
- 文巾解题 1833. 雪糕的最大数量
- 文巾解题 5. 最长回文子串
- 深度学习核心技术精讲100篇(十二)-DCGAN(对抗生成网络)算法应用及代码实现
- 数据挖掘学习笔记之人工神经网络(一)