2. WordCount案例实操

文章目录

WordCount案例实操
- 1. 官方WordCount源码
- 2. 常用数据序列化类型
- 3. MapReduce编程规范
- - 3.1 Mapper阶段
  - 3.2 Reducer阶段
  - 3.3 Driver阶段
- 4. 实现WordCount
- - 4.1 搭建环境
  - 4.2 WordCountMapper
  - 4.3 WordCountReduce
  - 4.4 WordCountDriver
- 5. 测试
- - 本地测试
  - 集群上测试
☆

WordCount案例实操

1. 官方WordCount源码

采用反编译工具反编译源码，发现WordCount案例有Map类、Reduce类和驱动类。且数据的类型是Hadoop自身封装的序列化类型。

2. 常用数据序列化类型

常用的数据类型对应的Hadoop数据序列化类型

Java类型	Hadoop Writable类型
`boolean`	`BooleanWritable`
`byte`	`ByteWritable`
`int`	`IntWritable`
`float`	`FloatWritable`
`long`	`LongWritable`
`double`	`DoubleWritable`
`String`	Text
`map`	`MapWritable`
`array`	`ArrayWritable`

3. MapReduce编程规范

用户编写的程序分成三个部分：Mapper、Reducer和Driver。

3.1 Mapper阶段

用户自定义的Mapper要继承自己的父类

Mapper的输入数据是KV对的形式（KV的类型可自定义）

Mapper中的业务逻辑写在map()方法中

Mapper的输出数据是KV对的形式（KV的类型可自定义）

map()方法（MapTask进程）对每一个<K,V>调用一次

3.2 Reducer阶段

用户自定义的Reducer要继承自己的父类

Reducer的输入数据类型对应Mapper的输出数据类型，也是KV

Reducer的业务逻辑写在reduce()方法中

ReduceTask进程对每一组相同k的<k,v>组调用一次reduce()方法

3.3 Driver阶段

相当于YARN集群的客户端，用于提交我们整个程序到YARN集群，提交的是封装了MapReduce程序相关运行参数的job对象。

4. 实现WordCount

在给定的文本文件中统计输出每一个单词出现的总次数

按照MapReduce编程规范，分别编写Mapper，Reducer，Driver

4.1 搭建环境

创建maven工程MapReduceWordCount

引入依赖

    <dependencies><dependency><groupId>junit</groupId><artifactId>junit</artifactId><version>4.13</version></dependency><dependency><groupId>org.apache.logging.log4j</groupId><artifactId>log4j-core</artifactId><version>2.8.2</version></dependency><dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-common</artifactId><version>2.7.2</version></dependency><dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-client</artifactId><version>2.7.2</version></dependency><dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-hdfs</artifactId><version>2.7.2</version></dependency></dependencies>

log4j.properties

log4j.rootLogger=INFO, stdout
log4j.appender.stdout=org.apache.log4j.ConsoleAppender
log4j.appender.stdout.layout=org.apache.log4j.PatternLayout
log4j.appender.stdout.layout.ConversionPattern=%d %p [%c] - %m%n
log4j.appender.logfile=org.apache.log4j.FileAppender
log4j.appender.logfile.File=target/spring.log
log4j.appender.logfile.layout=org.apache.log4j.PatternLayout
log4j.appender.logfile.layout.ConversionPattern=%d %p [%c] - %m%n

4.2 WordCountMapper

注意引包不要引错了！

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;import java.io.IOException;
/*** @Date 2020/7/7 18:17* @Version 10.21* @Author DuanChaojie* 1、LongWritable：表示worder传入KEY的数据类型，默认是一行起始偏移量* 2、Text：表示word传入VALUE的数据类型，默认是下一行的文本内容* 3、Text：表示自己map方法产生产生的结果数据类型KEY* 4、IntWritable:表示自己map方法产生的结果数据的VALUE类型*/
public class WordCountMapper extends Mapper<LongWritable,Text, Text, IntWritable> {Text k = new Text();IntWritable v = new IntWritable(1);@Overrideprotected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {// 1.获取一行String line = value.toString();// 2.切割String[] words = line.split(" ");// 3.输出for (String word : words) {k.set(word);context.write(k,v);}}
}

4.3 WordCountReduce

package com.atguigu.mapreduce;import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;import java.io.IOException;/*** @Date 2020/7/7 18:17* @Version 10.21* @Author DuanChaojie*/
public class WordCountReduce extends Reducer<Text, IntWritable, Text,IntWritable> {int sum;IntWritable v = new IntWritable();@Overrideprotected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {// 1.累加求和sum = 0;for (IntWritable value : values) {sum += value.get();}// 2.输出v.set(sum);context.write(key,v);}
}

4.4 WordCountDriver

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;import java.io.IOException;/*** @Date 2020/7/7 18:17* @Version 10.21* @Author DuanChaojie*/
public class WordCountDriver {public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {// 1,获取配置信息以及封装任务Configuration conf = new Configuration();Job job = Job.getInstance(conf);// 2,设置jar加载路径job.setJarByClass(WordCountDriver.class);// 3,设置map和reduce类job.setMapperClass(WordCountMapper.class);job.setReducerClass(WordCountReduce.class);// 4,设置map输出job.setMapOutputKeyClass(Text.class);job.setMapOutputValueClass(IntWritable.class);// 5,设置最终输出kv类型job.setOutputKeyClass(Text.class);job.setOutputValueClass(IntWritable.class);// 6,设置输入和输出路径FileInputFormat.setInputPaths(job,new Path(args[0]));FileOutputFormat.setOutputPath(job,new Path(args[1]));// 7,提交boolean result = job.waitForCompletion(true);System.exit(result ? 0:1);}
}

5. 测试

本地测试

设置参数

结果

集群上测试

用maven打jar包，需要添加的打包插件依赖

    <build><plugins><plugin><artifactId>maven-compiler-plugin</artifactId><version>2.3.2</version><configuration><source>1.8</source><target>1.8</target></configuration></plugin><plugin><artifactId>maven-assembly-plugin </artifactId><configuration><descriptorRefs><descriptorRef>jar-with-dependencies</descriptorRef></descriptorRefs><archive><manifest>
<!--为自己工程主类-->                            <mainClass>com.atguigu.mapreduce.WordCountDriver</mainClass></manifest></archive></configuration><executions><execution><id>make-assembly</id><phase>package</phase><goals><goal>single</goal></goals></execution></executions></plugin></plugins></build>

将MapReduceWordCount-1.0-SNAPSHOT.jar重命名为wc.jar之后拷贝到Hadoop集群中。

启动Hadoop集群

执行WordCount程序

hadoop jar  wc.jar com.atguigu.mapreduce.WordCountDriver /user/atguigu/input /user/atguigu/output

执行后的结果

下载后查看内容

☆

2. WordCount案例实操相关推荐

MapReduce入门（一）—— MapReduce概述 + WordCount案例实操
MapReduce入门(一)-- MapReduce概述文章目录 MapReduce入门(一)-- MapReduce概述 1.1 MapReduce 定义 1.2 MapReduce 优缺点 1. ...
大数据培训课程WordCount案例实操
WordCount案例实操 1．需求在给定的文本文件中统计输出每一个单词出现的总次数 (1)输入数据 (2)期望输出数据 atguigu 2 banzhang 1 cls 2 hadoop ...
尚硅谷大数据技术Spark教程-笔记09【SparkStreaming（概念、入门、DStream入门、案例实操、总结）】
尚硅谷大数据技术-教程-学习路线-笔记汇总表[课程资料下载] 视频地址:尚硅谷大数据Spark教程从入门到精通_哔哩哔哩_bilibili 尚硅谷大数据技术Spark教程-笔记01[SparkCore ...
Spark转换算子大全以及案例实操
1.RDD 转换算子 RDD转换算子实际上就是换了名称的RDD方法 RDD 根据数据处理方式的不同将算子整体上分为 Value 类型.双 Value 类型和 Key-Value 类型算子:Opera ...
新硬盘挂载-fdisk+mount案例实操
新硬盘挂载-fdisk+mount案例实操作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 现在很多服务器都支持热插拔了,当有新的硬盘插入到服务器上我们需要将其分区,格式化,然后挂载 ...
数据模型同学看过来|代码案例实操来袭
去年年底,央行开出反洗钱罚单,多家银行合计被罚1040万元. 当时,中国人民银行石家庄中心支行披露的反洗钱行政处罚信息公示表显示,因涉及未按照规定履行客户身份识别义务等,中行.邮储.浦发三家银行以及阳 ...
【报告分享】见实私域流量白皮书：私域流量案例实操手册.pdf
大家好,我是文文(微信:sscbg2020),今天给大家分享见实科技于2020年10月份发布的报告<见实私域流量白皮书:私域流量案例实操手册.pdf>. 本报告共73页,包含如下鞋服.餐饮 ...
自定义OutputFormat案例实操
自定义OutputFormat案例实操文章目录 1)需求 2)需求分析 3)编程实现 1.创建Mapper类 2.创建Reducer类 3.创建OutputFormat类 4.创建RecordWri ...
Azkaban配置Work Flow案例实操
Work Flow案例实操目录 Work Flow案例实操 1. Yarm语法简介 2. HelloWorld案例 3. JavaProcess案例 4. 作业依赖案例 5. 自动失败重试案例 6. ...

2. WordCount案例实操

文章目录

WordCount案例实操

1. 官方WordCount源码

2. 常用数据序列化类型

3. MapReduce编程规范

3.1 Mapper阶段

3.2 Reducer阶段

3.3 Driver阶段

4. 实现WordCount

4.1 搭建环境

4.2 WordCountMapper

4.3 WordCountReduce

4.4 WordCountDriver

5. 测试

本地测试

集群上测试

☆

2. WordCount案例实操相关推荐

最新文章

热门文章