1.在本机的/root目录下,依次创建文件夹data,文本文件word.txt.

mkdir -p /root/data
vim /root/data/word.txt

键入i,进入编辑模式,输入如下内容:

hello world
hadoop hdfs
qingjiao hadoop hongya
hdfs qingjiao
qingjiao
hadoop hongya

键入Esc,退出编辑模式,输入:wq保存退出。

终端中执行HDFS shell命令。

# 创建目录
hadoop fs -mkdir -p /wordcount/input
# 上传数据文件:
hadoop fs -put /root/data/word.txt /wordcount/input

进入$HADOOP_HOME/share/hadoop/mapreduce/目录下,使用ls指令查看文件夹内容.

cd $HADOOP_HOME/share/hadoop/mapreduce/
ll

在该文件夹下自带了很多Hadoop的MapReduce示例程序。其中,hadoop-mapreduce-examples-2.7.7.jar包中包含了计算单词个数、计算PI值等功能的程序。

1.使用hadoop-mapreduce-examples-2.7.7.jar示例包,对HDFS上的word.txt文件进行单词统计,在jar包位置执行如下命令:

hadoop jar hadoop-mapreduce-examples-2.7.7.jar wordcount /wordcount/input/word.txt /wordcount/output

指令参考:

  • hadoop jar hadoop-mapreduce-examples-2.7.7.jar :表示执行一个Hadoop的jar包程序;
  • wordcount:表示执行jar包程序中的单词统计功能;
    /wordcount/input/word.txt:表示进行单词统计的HDFS文件路径;
  • /wordcount/output:表示进行单词统计后的输出HDFS结果路径。
    1.执行完上述指令后,示例包中的MapReduce程序开始执行,效果图如下所示:

    因为MapReduce程序分为Map端和Reduce端,当Map端和Reduce端都执行到100%,并显示job completed successfully时,才代表程序执行成功。

1.因为MapReduce程序是运行在YARN之上的,所以我们同样可以通过YARN集群的Web UI界面查看运行状态,在本机的浏览器上访问http://localhost:8088或http://本机IP地址:8088。效果图如下所示:

1.在“单词统计”示例程序执行成功后,再次刷新并查看HDFS的Web UI界面,效果如下图所示:

从上图可以看出,MapReduce程序执行成功后,在HDFS上自动创建了指定的输出目录/wordcount/output,并且输出了 _SUCCESS 和 part-r-00000 结果文件。

其中,_SUCCESS文件用于表示此次任务成功执行的标识,而part-r-00000表示单词统计的结果。

1.使用HDFS Shell的相关指令查看part-r-00000的内容,具体指令如下所示:

hadoop fs -cat /wordcount/output/part-r-00000

效果图如下:

从上图可以看出,MapReduce示例程序成功统计出了/wordcount/input/word.txt文本中的单词数量,并进行了结果输出。

WordCount单词统计笔记相关推荐

  1. 运行Hadoop自带的wordcount单词统计程序

    1.使用示例程序实现单词统计 (1)wordcount程序 wordcount程序在hadoop的share目录下,如下: 1 2 3 4 5 6 7 8 9 [root@leaf mapreduce ...

  2. Hadoop实例之利用MapReduce实现Wordcount单词统计 (附源代码)

    大致思路是将hdfs上的文本作为输入,MapReduce通过InputFormat会将文本进行切片处理,并将每行的首字母相对于文本文件的首地址的偏移量作为输入键值对的key,文本内容作为输入键值对的v ...

  3. Scala集合实现WordCount单词统计代码

    运行结果:

  4. 大数据阶段划分及案例单词统计

    大数据阶段的重要课程划分 离线分析 : hadoop生态圈 HDFS, MapReduce(概念偏多), hive(底层是MapReduce), 离线业务分析80%都是使用hive实时分析 : spa ...

  5. MapReduce示例——WordCount(统计单词)

    MapReduce示例--WordCount(统计单词) 过程分析 统计单词,把数据中的单词分别统计出出现的次数 过程图(图片源自网络): 实现Mapper.Reducer.Driver WordCo ...

  6. 启动Spark Shell,在Spark Shell中编写WordCount程序,在IDEA中编写WordCount的Maven程序,spark-submit使用spark的jar来做单词统计

    1.启动Spark Shell spark-shell是Spark自带的交互式Shell程序,方便用户进行交互式编程,用户可以在该命令行下用scala编写spark程序.要注意的是要启动Spark-S ...

  7. 从单词统计问题看面试

    本文的很多内容来自网络.如有错误,欢迎指出. 问题描写叙述 首先这里对单词的界定是:以空白切割的字符序列. 单词统计的问题能够描写叙述为:在一篇正常格式的英文文档中(作为面试.这里并没有提及中文分词和 ...

  8. spark 集群单词统计_最近Kafka这么火,聊一聊Kafka:Kafka与Spark的集成

    Spark 编程模型 在Spark 中, 我们通过对分布式数据集的操作来表达计算意图 ,这些计算会自动在集群上 井行执行 这样的数据集被称为弹性分布式数据集 Resilient Distributed ...

  9. Hadoop单词统计

    1. 本地创建文本文件 [root@s166 fantj]# mkdir input [root@s166 fantj]# cd input/ [root@s166 input]# echo &quo ...

最新文章

  1. 2008-2018,5个版本互联网大脑模型的演进与对比
  2. 谈谈redis的热key问题如何解决
  3. 经典异或题:汉明距离
  4. phpunit 单元测试案例--签到任务
  5. 【倍增】【线段树】雨林跳跃(luogu 7599[APIO 2021 T2])
  6. 空格分隔输出(信息学奥赛一本通-T1026)
  7. ramda.js api 速查
  8. 2021年五月下旬推荐文章(2)
  9. Spark内存空间分配机制
  10. Mac Dock截图的小技巧
  11. ffmpeg的安装和使用教程
  12. 2015.7个人反思小结以及后续规划
  13. 三角函数之和差化积/积化和差/倍角公式(汇总)
  14. 电脑弹窗广告太多了,程序员电脑为什么没有弹窗,那是你没打开这个设置
  15. Invalid bound statement (not found)出现的原因和解决方法
  16. 去中心化云图床搭建建议:Cyberduck+4everland bucket
  17. tabar被手机虚拟键挡住_bug_ _Popwindow被魅族手机自带虚拟键挡住完美解决
  18. @Value注解获取不到配置值
  19. 时序预测 | MATLAB实现ARIMA时间序列预测(GDP预测)
  20. 精确算法、启发式算法、元启发式算法及增长方式浅析

热门文章

  1. 数据结构与算法学习笔记-树和二叉树
  2. Uni-app使用原生aar本地包云打包报错
  3. GPS定位(五)-高斯投影正反算C程序
  4. Kafka之四:Kafka与Streaming集成
  5. 小梅哥Xilinx FPGA学习笔记2——三八译码器
  6. 7-10 计算多门课的平均绩点
  7. Amazon 云服务 名词解释
  8. java获取空气质量在线监测分析平台(PM2.5真气网)数据
  9. 大数据毕业设计 LSTM时间序列预测算法 - 股票预测 天气预测 房价预测
  10. 阿里云企业邮箱发送邮件失败,在本地测试可行,在云服务器上失败