原文链接:

单词统计的是统计一个文件中单词出现的次数,比如下面的数据源

其中,最终出现的次数结果应该是下面的显示

那么在MapReduce中该如何编写代码并出现最终结果?

首先我们把文件上传到HDFS中(hdfs dfs –put …)

数据名称:data.txt,大小是size是2G

红黄绿三个块表示的是数据存放的块

然后数据data.txt进入map阶段,会以(KV对)的形式进入,K表示的是:每行首字母相对于文件头的字节偏移量,V表示的是每一行的文本。

那么我可以用图表示:蓝色的椭圆球表示一个map,红黄绿数据块在进入map阶段的时候,数据的形式为左边红色的(KV对)的形式

经过map处理,比如String.split(""),做一次处理,数据会在不同的红黄绿数据块中变为下面的KV形式

我们在配置Hadoop的时候或设置reduce的数量,假如有两个reduce

Map执行完的数据会放到对应的reduce中,如下图

这个地方有一个简单的原理就是

Job.setNumReduce(2)会设置reduce的数量

而HashPartioner类可以利用 key.hashcode % reduce的结果,将不同的map结果输入到不同的reduce中,比如a-e开头的放到一个地方,e-z开头的放到一个地方,那么

这样的数据结果就会变成

好那么我们此时可以统计了,我开始编写代码

首先我们创建一个wordCount项目,我们创建的项目是maven项目

其中pom的配置部分

我们创建类

继承Mapper(注意注释)

编写代码

同样创建WordCountReducer,编写代码,利用前面的reduce思想理解

创建WordCountDriver类编写代码

导出项目jar

我们启动Hadoop

我们上传数据和jar包

将数据上传到hdfs上

执行下面语句

bin/yarn jar /data/wordCount/wordCount.jar com.xlglvc.xx.mapredece.wordcount_client.WordCountDriver /data.txt /outputwordcount

出了点问题,时间不同步

安装ntpdate工具

yum -y install ntp ntpdate

设置系统时间与网络时间同步

ntpdate cn.pool.ntp.org

然后重新执行,此时我们新选择个目录

bin/yarn jar /data/wordCount/wordCount.jar com.xlglvc.xx.mapredece.wordcount_client.WordCountDriver /data.txt /outputwordcount1

我们去浏览器查询

我们查看最终结果

bin/hdfs dfs -text /outputwordcount1/part-r-00000

出现我们想要的结果,统计完成

java统计文本中英文单词个数split_Java实现单词统计相关推荐

  1. 用java统计英文文本的单词个数_统计文本英文单词总个数,并列出每个单词的个数...

    package test; /* * Task :统计文本英文单词总个数,并列出每个单词的个数 * * Date:2014.02.26 * *Author:璀若星辰 * */ import java. ...

  2. 用python统计字母个数_python统计字母个数 python 统计文本中字母个数

    python 统计文本中字母个数 作业文件等有人回答小编再发,之前发文件被屏蔽了明明转身就有一个温馨的港湾,却偏偏还要去追逐那无望的孤船. l = 0with open('file.txt', 'r' ...

  3. C语言|统计字符串中英文字符个数

    Q:调用函数,统计字符串中英文字符个数 A: 思想:定义一个变量count,遍历字符串,判断每个字符的ASCII码值是否为'a'到'z'和'A'到'Z'之间的字母,若在此范围之间则记录数量,count ...

  4. 统计一个含有英文单词的文本文件中的单词个数以及指定单词个数

    先列出定义的方法: 1. public int getWordNum(String fileName) 统计一个含有英文单词的文本文件的单词个数. 2. public void getWordNumF ...

  5. python统计句子中单词个数_【python统计单词数量】作文写作问答 - 归教作文网

    如何用python统计一个txt文件中某个单词出现的次数 1.首先,定义一个变量,保存要统计的英文文章. 2.接着,定义两个数组,保存文章中的单词,以及各单词的词频. 3.从文章中分割出所有的单词,保 ...

  6. python中怎么统计英文字符的个数_使用python统计英文文档中的字母占比和词频

    本文主要介绍如何使用python软件进行统计文档中各字母出现概率和数量最多单词.程序中用到的部分库文件需自行下载,可参考网址:https://www.lfd.uci.edu/~gohlke/pytho ...

  7. java统计文本中英文单词个数split_零基础入门NLP - 新闻文本分类Task2(天池入门赛)...

    本章主要内容是主要是通过pandas模块来进行数据分析.(注:文章只是对天池入门赛课件的学习) 一.学习目标 1.学习使用pandas读取赛题规律 2.分布赛题数据的分布规律 二.数据读取 使用pan ...

  8. Java编程之统计英文句子中单词个数、不同单词和重复单词个数

    一.题目 从键盘输入一个英文句子,统计该句子中的英文单词个数,并找出所有单词存放到一个数组中.同时,输出该句子中的不同单词和重复单词以及它们的个数. 二.实验代码 package fighting; ...

  9. hadoop 文本统计一个字符的个数_使用hadoop统计多个文本中每个单词数目

    程序源码 1 importjava.io.IOException;2 importjava.util.StringTokenizer;3 importorg.apache.hadoop.conf.Co ...

  10. python统计文本字数_Python 简单应用--文章字数统计

    Python是做数据处理很好的工具,这里小时牛刀,用Python完成文章的字数统计. 系统:Ubuntu16.04 Python版本:3.4 文本:<西游记>txt片段 结果:存放于res ...

最新文章

  1. 福利 | 从生物学到神经元:人工神经网络 ( ANN ) 简介
  2. 在Laravel外使用Eloquent(一)
  3. 自动化测试报告 html模板,PyTestReport 自动化测试报告框架
  4. Tensorflow中张量数据类型的转换
  5. Windows下Core Audio APIs的使用简介
  6. 使用DM框架实现一个小的计算器
  7. Gnuplot的简介与常用操作
  8. 人月神话贯彻执行_《人月神话》读后感与读书笔记
  9. 【活动】完整的Java学习路径《深入理解Java核心技术》(文末送书)
  10. tcpip详解有必要看吗_全屋净水知识|前置过滤器有必要安装吗?看完秒懂
  11. 如何快速在LinkedIn上检索并申请相关的工作?
  12. iOS -- tableView截取长图 或者 UIScrollView截取长图 (Swift代码)
  13. Kettle【实践 04】Java环境实现KJB和KTR脚本文件执行v9版本9.0.0.0-423相关依赖说明(云资源分享:依赖包+kjb+ktr+测试源码)
  14. Payment:支付宝即时到账接口接入教程
  15. ssd win7 linux找不到硬盘,我的电脑找不到固态硬盘的盘符怎么办|固态硬盘没有显示盘符解决方法-系统城...
  16. 计算机硬件品牌的调研报告,计算机硬件市场调查报告.doc
  17. 【关于Citespace和JRE(JAVA运行环境)的详细安装教程】
  18. Java的发展前景与就业趋势如何?
  19. 如何设置多元化的会员制度
  20. Skype V2 + PulseAudio 解决方案

热门文章

  1. sqlite3 命令行操作
  2. Linux 要如何查看系统架构
  3. LR 报错误: C interpreter run time error: Error -- Unresolved symbol : vuser_end解决方法
  4. 理解iOS 8中的Self Sizing Cells和Dynamic Type
  5. [OT]“蓝帽”会议
  6. hashmap的负载因子为什么是0.75而不是其他值或者1
  7. mysql 的 show profile 相关属性
  8. windows 下搭建 git 服务器 gogs
  9. 我是如何一步步解决问题 让Spring MVC返回HTML类型的视图
  10. 使用Photoshop+960 Grid System模板进行网页设计