1.在用Hadoop进行单词统计前,要做好Hadoop的集群部署

输入上述命令,就能在浏览器中分别访问namenode:50070(namenode指的是你主节点的名字,这里我的主节点名字是namenode,50070是端口号)和namenode:8088,由此查看HDFS和YARN的web界面。如图所示:

接下来我们就可以进行单词统计啦。

2.首先,打开HDFS网页端,选择Utilities->Browse the file system

3.找一篇英语文章的TXT文本文件放入/java/data目录下(在win中将需要的文件拖入data下),如图

或在集群的主节点(即hadoop文件路径)的/java/data目录下,执行 “vi english.txt”指令新建一个english.txt文本文档

4.输入hadoop fs -mkdir -p /wordcount/input

hadoop fs -put /java/data/English.txt /wordcount/input

此处第一条命令是在HDFS上新建/wordcount/input目录,第二条命令是将english.txt文件上传到该目录下

5.进入hadoop解压包的/share/hadoop/mapreduce/目录下,输入ll指令,查看文件内容,如图:

此处,hadoop-mapreduce-examples-2.7.3.jar包可以实现计算单词个数等功能。

6.在jar包位置下执行指令:

hadoop jar hadoop-mapreduce-examples-2.7.3.jar wordcount /wordcount/input /wordcount/output

其中hadoop jar hadoop-mapreduce-examples-2.7.3.jar wordcount的wordcount表示执行的单词统计功能,/wordcount/input单词统计的HDFS路径,/wordcount/output单词统计后的HDFS路径。

执行成功后,在HDFS网页端查看

由此,我们可以点击part-r-00000,下载

下载后,以记事本方式打开

以上,便是hadoop进行单词统计的相关操作。

hadoop集群-单词统计相关推荐

  1. spark 集群单词统计_最近Kafka这么火,聊一聊Kafka:Kafka与Spark的集成

    Spark 编程模型 在Spark 中, 我们通过对分布式数据集的操作来表达计算意图 ,这些计算会自动在集群上 井行执行 这样的数据集被称为弹性分布式数据集 Resilient Distributed ...

  2. HADOOP集群大数据词频统计及设计比较(完整教程)

    ###如若发现错误,或代码敲错,望能评论指正!!! 通过百度网盘分享的文件:Hadoop相关需要的软件 链接:https://pan.baidu.com/s/1XzDvyhP4_LQzAM1auQCS ...

  3. Hadoop集群搭建及MapReduce应用

    一.Hadoop集群的搭建与配置 1.节点准备 集群规划: 主机名 IP 安装的软件 运行的进程 weekend 01 192.168.1.60 jdk.hadoop NameNode.DFSZKFa ...

  4. 【Python学习系列四】Python程序通过hadoop-streaming提交到Hadoop集群执行MapReduce

    场景:将Python程序通过hadoop-streaming提交到Hadoop集群执行. 参考:http://www.michael-noll.com/tutorials/writing-an-had ...

  5. Hadoop集群(第6期)_WordCount运行详解

    1.MapReduce理论简介 1.1 MapReduce编程模型 MapReduce采用"分而治之"的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然 ...

  6. 不看就亏系列!这里有完整的 Hadoop 集群搭建教程,和最易懂的 Hadoop 概念!| 附代码...

    作者 | chen_01_c 责编 | Carol 来源 | CSDN 博客 封图 | CSDN付费下载于视觉中国 hadoop介绍 Hadoop 是 Lucene 创始人 Doug Cutting, ...

  7. jar包在Hadoop集群上测试(MapReduce)

    本片使用MapReduce--统计输出给定的文本文档每一个单词出现的总次数的案例进行,jar包在集群上测试 1.添加打包插件依赖 <build><plugins><plu ...

  8. Hadoop集群配置搭建

    环境:Centos 6.9,Hadoop 2.7.1,JDK 1.8.0_161,Maven 3.3.9 前言: 1.配置一台master服务器,两台或多台slave服务器.    2.master可 ...

  9. Hadoop集群中HDFS的API测试案例以及MapReduce的多种提交Job方式案例

    这两个案例默认是hadoop集群环境已经搭建好以及IDEA环境也已经配置好 1.HDFS客户端测试案例 1.1.pom依赖 <?xml version="1.0" encod ...

最新文章

  1. 爱奇艺拟发行5亿美元可转换优先债券
  2. java 动态数组的应用
  3. qt中label画圆代表指示灯_【Qt编程】基于QWT的曲线绘制及图例显示操作——有样点的实现功能...
  4. CentOS系统上编译、安装、配置OpenCV
  5. excel两个表格数据对比_Excel小技巧:实例教你快速对比多个表格的差异
  6. 一篇文章搞定各种售后问题,电商客服运营看过来
  7. SLAM: 图像角点检测的Fast算法(时间阈值实验)
  8. base 镜像 - 每天5分钟玩转容器技术(10)
  9. 捡到银行卡套取密码取现1万多元,犯了信用卡诈骗罪被判7个月
  10. android 打开支付宝扫码页_Chrome 85正式版发布:新增标签页分组功,网页多了也不乱...
  11. Python全栈工程师(字符串/序列)
  12. C++ 控制结构和函数(二) —— 函数I(Functions I)
  13. 2019升职加薪必备:你一定要修炼的产品思维
  14. safari only css hack,css hack将Safari和Chrome同时作为目标单独使用
  15. 你猜一个 TCP 连接上面能发多少个 HTTP 请求
  16. 解释说明CCIE考试中的RIP问题
  17. 大一大学计算机考试考什么,【大学生计算机基础考题】 计算机基础大一考试题...
  18. 泰戈尔《园丁集》选段
  19. oracle cve 漏洞,CVE安全漏洞的理解
  20. 英语在线听力翻译器_英语听力翻译app下载-英语听力翻译官方版v2.1.4-upan

热门文章

  1. 关于千牛移动端纯H5插件和QAP应用中H5页面的概念
  2. 使用vite安装vue3.0(不是脚手架)
  3. oracle自带的缓存,ORACLE缓存表与ORACLE缓存
  4. 百度云盘上传有大小限制 微信文件上传有大小限制 怎么破?
  5. 最简洁的呼吸灯实验verilog
  6. 每个计算机的ip地址要一样吗,同一ip网站-局域网中的所有电脑都是同一个IP地址吗? – 手机爱问...
  7. 高中必备学习软件_有那些免费好用的高中学习软件?
  8. java学习笔记第三部分
  9. excel 冻结多列窗口
  10. java的接口常用命名_Java命名和目录接口,Java Naming and Directory Interface,音标,读音,翻译,英文例句,英语词典...