通过 Hadoop经典案例——单词统计,来演示 Hadoop集群的简单使用。

(1)打开 HDFS 的 UI,选择Utilities→Browse the file system查看分布式文件系统里的数据文件,可以看到新建的HDFS上没有任何数据文件。




(2)先在集群主节点namenode上的/export/data/目录下,执行“vi word. txt”指令新建一个 word. txt文本文件,并编写一些单词内容。

[root@namenode data]# vi word.txt





接着,在 HDFS 上创建/wordcount/input目录,并将 word. txt文件上传至该目录下,具体指令如下所示:

[root@namenode /]# hadoop fs -mkdir -p /wordcount/input


上述指令是Hadoop提供的进行亡件系统操作的HDFS Shell相关指令,此处不必深究具体使用,在下一章会进行详细说明。执行完上状指公后,再次奋看HDFS 的 UI,会发现/wordcount/input目录创建成功并上传了指定的 word.txt文件

(3)进入 Hadoop解压包中的/share/hadoop/mapreduce/目录下,使用ll指令查看文件夹内容。

[root@namenode /]# hadoop fs -put /export/data/word.txt /wordcount/input


[root@namenode /]# cd /export/servers/hadoop-2.7.3/share/hadoop/mapreduce
[root@namenode mapreduce]# ll

从上图可以看出,在该文件夹下自带了很多Hadoop 的 MapReduce示例程序。其中,hadoop-mapreduce-examples-2.7.3.jar包中包含了计算单词个数、计算Pi值等功能。
因此,这里可以直接使用hadoop-mapreduce-examples-2.7.3.jar示例包,对 HDFS上的word. txt文件进行单词统计,来进行此次案例的演示,在jar包位置执行如下指令。

[root@namenode mapreduce]# hadoop jar hadoop-mapreduce-examples-2.7.3.jar wordcount /wordcount/input /wordcount/output



上述指令中, hadoop jar hadoop-mapreduce-examples-2.7.3.jar表示执行一个 Hadoop的jar包程序;wordcount表示执行jar包程序中的单词统计功能;/wordcount/input表示进行单词统计的 HDFS文件路径;/wordcount/output表示进行单词统计后的输出HDFS 结果路径。
执行完上述指令后,示例包中的MapReduce程序开始运行,此时可以通过 YARN 集群的UI查看运行状态。

从上图可以看出,MapReduce程序执行成功后,在 HDFS 上自动创建了指定的结果目录/wordcount/output,并且输出了_SUCCESS 和 part-r-00000结果文件。其中_SUCCESS文件用于表示此次任务成功执行的标识,而part-r-00000表示单词统计的结果。

接着,就可以单击下载图中的 part-r-00000结果文件到本地操作系统,并使用文工具(EditPlus、 Nodepad++ 、记事本等)打开该文件,由下图可以看出,MapReduce示例程序成功统计出了/wordcount/input/word. txt本中的单词数量,并进行了结果输出。



从HDFS中删除文件夹命令

hadoop fs -rm -r /wordcount

Hadoop经典案例——单词统计相关推荐

  1. 大数据阶段划分及案例单词统计

    大数据阶段的重要课程划分 离线分析 : hadoop生态圈 HDFS, MapReduce(概念偏多), hive(底层是MapReduce), 离线业务分析80%都是使用hive实时分析 : spa ...

  2. hadoop集群-单词统计

    1.在用Hadoop进行单词统计前,要做好Hadoop的集群部署 输入上述命令,就能在浏览器中分别访问namenode:50070(namenode指的是你主节点的名字,这里我的主节点名字是namen ...

  3. Exchange Server 2013 日常管理经典案例:统计邮箱使用情况

    微软ExchangeServer 这个产品相信大家已经很熟悉了,包括基本的部署.功能配置.高可用解决方案等等这些资料在网上也比较容易找到,也有很多大牛们的博客上也写了很多详细的配置博文.但是我发现在一 ...

  4. Exchange Server 2013 日常管理经典案例:统计成员和组

    在之前的Exchange Server2013 日常管理经典案例中的博文中得到了大家的关注和高度的认可,对此首先表示非常感谢.后期会跟大家分析更多企业环境中的实际案例. 对于今天的这个案例我是深有感触 ...

  5. Hadoop大数据单词统计

    编写WordCount数单词程序 0x00启动hadoop集群 shell脚本编写: vim start #!/bin/bash /opt/hadoop-2.6.0-cdh5.6.0/sbin/sta ...

  6. Hadoop单词统计

    1. 本地创建文本文件 [root@s166 fantj]# mkdir input [root@s166 fantj]# cd input/ [root@s166 input]# echo &quo ...

  7. mapreduce程序本地运行,单词统计案例

    mapreduce程序本地运行单词统计案例,输入输出数据放在本地 集群模式运行:https://blog.csdn.net/weixin_43614067/article/details/108400 ...

  8. spark企业经典案例之手机app流量统计

    spark企业经典案例之手机app流量统计,本课程是基于企业真实项目案例中的一个模块为背景讲解,此业务涉及spark统计,然后通过phpweb进行读取数据,最终通过手机端展示,根据公司案例抽取出来的模 ...

  9. Hadoop入门实例——WordCount统计单词

    首先要说明的是运行Hadoop需要jdk1.6或以上版本,如果你还没有搭建好Hadoop集群,请参考我的另一篇文章: Linux环境搭建Hadoop伪分布模式 马上进入正题. 1.启动Hadoop集群 ...

最新文章

  1. R语言Logistic回归模型案例:分析吸烟、饮酒与食管癌的关系
  2. 为恶意文件“画像” 瀚思科技基于深度学习技术快速锁定未知威胁
  3. 【Linux】一步一步学Linux——builtin命令(215)
  4. linux网路编程之多线程并发服务器
  5. 京东WebService调用 求助~~~~~
  6. linux shell 获取参数 $,Linux - Shell - 参数获取
  7. mybatis mysql 模糊查询_MyBatis Oracle、MySQL、DB2、SQLServer的like模糊查询
  8. 吴恩达旗下Drive.ai商业化第一步!现在去德州能打无人驾驶出租车
  9. f2fs学习笔记 - 1. f2fs概述
  10. lbochs模拟器最新版_Bochs模拟器
  11. HUSTOJ SPJ 示例
  12. 【Windows】之电脑之间共享文件(亲测可行)
  13. uhd驱动安装(usrpB210,usrpX310等)
  14. linux x99 测试,超频测试总结 - 技嘉X99 Phoenix SLI主板评测:综合素质爆表的主板 - 超能网...
  15. IT运维管理之数据维护技术方案
  16. Excel作图-显示多层分类轴标签
  17. jdk1.8 stream() 把List <String>变成String
  18. hping3使用手册
  19. 跟我一起学-Python爬取(酷我)
  20. dpl服务器维护,巨无霸核心!超微发布X12DPL系列服务器主板

热门文章

  1. Vue实现购物车全选及价格计算
  2. 读书有益——》民间治咳偏方
  3. List逆向遍历、反向遍历--Iterator详解
  4. Autojs: 坚果云文本文件上传/下载
  5. “0基础考生考前三小时突破《申论》80分气哭学霸”——公文题(宣传类+评论类)
  6. 皕杰基础平台的登录方式
  7. RSA中的中国剩余定理(CRT)和多素数(multi-prime)
  8. LeetCode 881. 救生艇
  9. 汉澳sinox载入ntfs硬盘,移动ntfs硬盘,u盘 并读写完全成功
  10. 数据库设计之备用字段