MapReduce实现WordCount

package algorithm;import java.io.IOException;
import java.util.StringTokenizer;import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;//前两个参数是固定的后两个根据需要修改  第四个参数我改成了IntWritable  比int写的快
public class TestMapper1 extends Mapper<LongWritable, Text, Text, IntWritable> {//key是行好  value是哪一行内容//文件多少行 map调用多少次public void map(LongWritable key, Text value, Context context)throws IOException, InterruptedException {String line = value.toString();StringTokenizer st = new StringTokenizer(line);while(st.hasMoreElements()) {String word = st.nextToken();context.write(new Text(word), new IntWritable(1));//map的输出}}}

package algorithm;import java.io.IOException;import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;public class TestReduce1 extends Reducer<Text, IntWritable, Text, IntWritable> {public void reduce(Text key, Iterable<IntWritable> iterable, Context context)throws IOException, InterruptedException {// process valuesint sum = 0;for (IntWritable val : iterable) {sum += val.get();//get转为整数}context.write(key, new IntWritable(sum));}}

package algorithm;import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;public class Mapreduce1 {public static void main(String[] args) throws Exception {Configuration conf = new Configuration(); //对应于mapred-site.xmlJob job = new Job(conf,"WordCount");job.setJarByClass(Mapreduce1.class);job.setMapperClass(TestMapper1.class);job.setReducerClass(TestReduce1.class);job.setOutputKeyClass(Text.class);job.setOutputValueClass(IntWritable.class);job.setNumReduceTasks(1);//"/in"解析不了  提示文件不存在 因为把他们认为是本地文件了 因为有个 file:/FileInputFormat.addInputPath(job, new Path("hdfs://192.168.58.180:8020/in"));//输出文件不能存在   FileOutputFormat.setOutputPath(job, new Path("hdfs://192.168.58.180:8020/wordcount"));System.exit(job.waitForCompletion(true) ? 0 : 1);}
}

MapReduce实现WordCount相关推荐

MapReduce示例——WordCount（统计单词）
MapReduce示例--WordCount(统计单词) 过程分析统计单词,把数据中的单词分别统计出出现的次数过程图(图片源自网络): 实现Mapper.Reducer.Driver WordCo ...
idea下mapreduce的wordcount
idea下mapreduce的wordcount pom.xml <?xml version="1.0" encoding="UTF-8"?> ...
第一个MapReduce程序-------WordCount
本关任务词频统计是最能体现MapReduce思想的程序,结构简单,上手容易. 词频统计的大致功能是:统计单个或者多个文本文件中每个单词出现的次数,并将每个单词及其出现频率按照<k,v>键 ...
Hadoop之图解MapReduce与WordCount示例分析
Hadoop的框架最核心的设计就是:HDFS和MapReduce.HDFS为海量的数据提供了存储,MapReduce则为海量的数据提供了计算. HDFS是Google File System(GFS) ...
初学Hadoop之图解MapReduce与WordCount示例分析
Hadoop的框架最核心的设计就是:HDFS和MapReduce.HDFS为海量的数据提供了存储,MapReduce则为海量的数据提供了计算. HDFS是Google File System(GFS) ...
hadoop(9)--MapReduce入门WordCount
众所周知,hadoop的核心有hdfs,mapReduce,之前8次的分享都是在将hdfs,那么从这次开始来分享一下mapReduce MapReduce就是java程序,这一句话一出来让我这个jav ...
Hadoop系列二：Hadoop单节点伪分布部署并执行mapreduce示例wordcount
HDFS在集群上实现分布式文件系统,MapReduce在集群上实现了分布式计算和任务处理.HDFS在MapReduce任务处理过程中提供了文件操作和存储等支持,MapReduce在HDFS的基础上实现 ...
Hadoop实例之利用MapReduce实现Wordcount单词统计 (附源代码)
大致思路是将hdfs上的文本作为输入,MapReduce通过InputFormat会将文本进行切片处理,并将每行的首字母相对于文本文件的首地址的偏移量作为输入键值对的key,文本内容作为输入键值对的v ...
MapReduce执行WordCount操作
MapReduce 数字统计例子WordCount 在单机环境上运行WordCount.java程序简单配置为:/etc/hosts: Core-site.xml 在这两个配置文件下运行WordCo ...
MapReduce之WordCount案例
前言学习大数据框架通常都是从wordcount案例开始的,也是学习框架的基础,wordcount虽然简单,如果能彻底搞清楚其运行原理,对后续深入学习和掌握MapReduce非常有帮助的,本篇以一个w ...

MapReduce实现WordCount

MapReduce实现WordCount相关推荐

最新文章

热门文章