Hadoop入门实例——WordCount统计单词
首先要说明的是运行Hadoop需要jdk1.6或以上版本,如果你还没有搭建好Hadoop集群,请参考我的另一篇文章:
Linux环境搭建Hadoop伪分布模式
马上进入正题。
1.启动Hadoop集群,使用jps查看所有结点是否启动成功;
2.进入hadoop的bin目录,查看hadoop中的例程
运行./hadoop jar /opt/hadoop/hadoop-examples-*-.jar,红框中的jar包根据你的hadoop版本而定;
3.试图运行wordcount,./hadoop jar /opt/hadoop/hadoop-examples-1.0.4.jar wordcount
显示出参数列表为:wordcount <in> <out>,所以我们要指定分布式文件的输入、输出目录;
4.创建输入目录
在bin目录下运行:./hadoop dfs -mkdir /home/hadoop/input (本地的mkdir可能不可用)
5.下载几篇英文文章(txt最好),放入刚刚创建的输入目录
我使用的是window下的虚拟机,可以用xftp将本地文件上传到Linux服务器,很方便。。
./hadoop dfs -put input/* /home/hadoop/input
(注:第一个目录是你存放文章的本地目录,*通配符,表示该目录下的所有文档,
第二个目录是你的分布式文件系统的输入目录)
查看测试文件:./hadoop dfs -ls /home/hadoop/input
6.运行,每次运行前请先删除输出目录,因为他是自动生成的;
或者每次都创建一个新的目录,否则会运行失败。
./hadoop jar ../hadoop-examples-1.0.4.jar wordcount /home/hadoop/input /home/hadoop/output
7.查看单词统计结果,默认生成的文件part-r-00000
./hadoop dfs -cat /home/hadoop/output/part-r-00000
我选择的是一篇经济学论文,这个就是部分结果了。
开心!!!
转载于:https://www.cnblogs.com/yangmang/p/6275578.html
Hadoop入门实例——WordCount统计单词相关推荐
- 用淘宝Fourinone实现Hadoop经典实例wordcount
2019独角兽企业重金招聘Python工程师标准>>> 很多人是通过wordcount入门分布式并行计算, 该demo演示了Hadoop的经典实例wordcount的实现 输入数据: ...
- hadoop 入门实例【转】
原文链接:http://www.cnblogs.com/xia520pi/archive/2012/06/04/2534533.html 1.数据去重 "数据去重"主要是为了掌握 ...
- Hadoop入门案例WordCount
wordcount可以说是hadoop的入门案例,也是基础案例 主要体现思想就是mapreduce核心思想 原始文件为hadoop.txt,内容如下: hello,java hello,java,li ...
- Hadoop入门经典:WordCount
以下程序在hadoop1.2.1上测试成功. 本例先将源代码呈现,然后详细说明执行步骤,最后对源代码及执行过程进行分析. 一.源代码 package org.jediael.hadoopdemo.wo ...
- hadoop 文本统计一个字符的个数_hadoop统计单词个数 - 卡饭网
hadoop入门之统计单词在文件中出现的个数示例 hadoop入门之统计单词在文件中出现的个数示例 Linux环境:CentOs6.4 Hadoop版本:hadoop-0.20.2 内容:统计hado ...
- hadoop基础教程(二) MapReduce 单词统计
1.这是hadoop基础系列教程,适合入门者学习. 2.MapReduce是一种分布式计算模型,解决海量数据问题,由两个阶段组成,map()和reduce().本文不讲解原理,下面实际操作利用MapR ...
- Hadoop入门基础教程 Hadoop之单词计数
单词计数是最简单也是最能体现MapReduce思想的程序之一,可以称为MapReduce版"Hello World",该程序的完整代码可以在Hadoop安装包的src/exampl ...
- linux运行wordcount,hadoop运行第一个实例wordcount
引语: 这几周事情比较多,两周没写博客了,这周总算把hadoop的实例给运行起来,然后跑了一下官方的wordcount例子(用于统计文件中单词出现的次数). 接下来是我成功运行实例的记录.运行的前提是 ...
- 单机版 hadoop 云平台(伪分布式)搭建 统计单词
1.首先需要配置java环境 CentOS安装java jdk教程 2.上传hadoop到/usr/local目录 并解压 cd /usr/local ls linux上传下载文件教程 3.配置had ...
最新文章
- 2. 把一幅图像进行平移。
- python爬虫代理池_python爬虫之ProxyPool(代理ip地址池的构建)
- 硅谷创业公司的成长道路
- Python 日志模块Loguru的使用
- express中get和post的区别
- 前端学习(1875)vue之电商管理系统电商系统之vue代码提交到码云
- redis缓存原理与实现_基于Redis实现范围查询的IP库缓存设计方案
- 【全栈React】第13天: 重复元素
- mysql 10天以前_MySQL前10天7天前
- Android ImageSwitcher 配合Picasso解决内存溢出(OOM)问题
- java实例化的4种方式
- win 10 自动删除解压的文件(关闭 Windows defender)
- 天线理论巴拉尼斯_天线学习类图书推荐 - 欧源通天线厂家
- 无法访问网址的最基本原因分析,让你永远无法访问淘宝/京东
- 浅谈Spring事件监听
- 深度搜索处理问题的关键 --- 做leetcode深度搜索类题目小结
- 题目 给定一个字符串所表示的括号序列,包含以下字符: '(', ')', '{', '}', '[' and ']', 判定是否是有效的括号序列。 样例 括号必须依照 ()顺序表示, ()[]
- 全国院线总票房破50亿!影院复工后,哪些电影最受欢迎?可视化案例
- 三星老java手机换字体_三星手机设置字体大小与更换默认字体的图文教程
- CopyOnWriteArrayList