首先要说明的是运行Hadoop需要jdk1.6或以上版本,如果你还没有搭建好Hadoop集群,请参考我的另一篇文章:

Linux环境搭建Hadoop伪分布模式

马上进入正题。

1.启动Hadoop集群,使用jps查看所有结点是否启动成功;

2.进入hadoop的bin目录,查看hadoop中的例程

运行./hadoop jar /opt/hadoop/hadoop-examples-*-.jar,红框中的jar包根据你的hadoop版本而定;

3.试图运行wordcount,./hadoop jar /opt/hadoop/hadoop-examples-1.0.4.jar wordcount

显示出参数列表为:wordcount <in> <out>,所以我们要指定分布式文件的输入、输出目录;

4.创建输入目录

在bin目录下运行:./hadoop dfs -mkdir /home/hadoop/input (本地的mkdir可能不可用)

5.下载几篇英文文章(txt最好),放入刚刚创建的输入目录

我使用的是window下的虚拟机,可以用xftp将本地文件上传到Linux服务器,很方便。。

./hadoop dfs -put input/* /home/hadoop/input

(注:第一个目录是你存放文章的本地目录,*通配符,表示该目录下的所有文档,

第二个目录是你的分布式文件系统的输入目录)

查看测试文件:./hadoop dfs -ls /home/hadoop/input

6.运行,每次运行前请先删除输出目录,因为他是自动生成的;

或者每次都创建一个新的目录,否则会运行失败。

./hadoop jar ../hadoop-examples-1.0.4.jar wordcount /home/hadoop/input /home/hadoop/output

7.查看单词统计结果,默认生成的文件part-r-00000

./hadoop dfs -cat /home/hadoop/output/part-r-00000

我选择的是一篇经济学论文,这个就是部分结果了。

开心!!!

转载于:https://www.cnblogs.com/yangmang/p/6275578.html

Hadoop入门实例——WordCount统计单词相关推荐

  1. 用淘宝Fourinone实现Hadoop经典实例wordcount

    2019独角兽企业重金招聘Python工程师标准>>> 很多人是通过wordcount入门分布式并行计算, 该demo演示了Hadoop的经典实例wordcount的实现 输入数据: ...

  2. hadoop 入门实例【转】

    原文链接:http://www.cnblogs.com/xia520pi/archive/2012/06/04/2534533.html 1.数据去重  "数据去重"主要是为了掌握 ...

  3. Hadoop入门案例WordCount

    wordcount可以说是hadoop的入门案例,也是基础案例 主要体现思想就是mapreduce核心思想 原始文件为hadoop.txt,内容如下: hello,java hello,java,li ...

  4. Hadoop入门经典:WordCount

    以下程序在hadoop1.2.1上测试成功. 本例先将源代码呈现,然后详细说明执行步骤,最后对源代码及执行过程进行分析. 一.源代码 package org.jediael.hadoopdemo.wo ...

  5. hadoop 文本统计一个字符的个数_hadoop统计单词个数 - 卡饭网

    hadoop入门之统计单词在文件中出现的个数示例 hadoop入门之统计单词在文件中出现的个数示例 Linux环境:CentOs6.4 Hadoop版本:hadoop-0.20.2 内容:统计hado ...

  6. hadoop基础教程(二) MapReduce 单词统计

    1.这是hadoop基础系列教程,适合入门者学习. 2.MapReduce是一种分布式计算模型,解决海量数据问题,由两个阶段组成,map()和reduce().本文不讲解原理,下面实际操作利用MapR ...

  7. Hadoop入门基础教程 Hadoop之单词计数

    单词计数是最简单也是最能体现MapReduce思想的程序之一,可以称为MapReduce版"Hello World",该程序的完整代码可以在Hadoop安装包的src/exampl ...

  8. linux运行wordcount,hadoop运行第一个实例wordcount

    引语: 这几周事情比较多,两周没写博客了,这周总算把hadoop的实例给运行起来,然后跑了一下官方的wordcount例子(用于统计文件中单词出现的次数). 接下来是我成功运行实例的记录.运行的前提是 ...

  9. 单机版 hadoop 云平台(伪分布式)搭建 统计单词

    1.首先需要配置java环境 CentOS安装java jdk教程 2.上传hadoop到/usr/local目录 并解压 cd /usr/local ls linux上传下载文件教程 3.配置had ...

最新文章

  1. 2. 把一幅图像进行平移。
  2. python爬虫代理池_python爬虫之ProxyPool(代理ip地址池的构建)
  3. 硅谷创业公司的成长道路
  4. Python 日志模块Loguru的使用
  5. express中get和post的区别
  6. 前端学习(1875)vue之电商管理系统电商系统之vue代码提交到码云
  7. redis缓存原理与实现_基于Redis实现范围查询的IP库缓存设计方案
  8. 【全栈React】第13天: 重复元素
  9. mysql 10天以前_MySQL前10天7天前
  10. Android ImageSwitcher 配合Picasso解决内存溢出(OOM)问题
  11. java实例化的4种方式
  12. win 10 自动删除解压的文件(关闭 Windows defender)
  13. 天线理论巴拉尼斯_天线学习类图书推荐 - 欧源通天线厂家
  14. 无法访问网址的最基本原因分析,让你永远无法访问淘宝/京东
  15. 浅谈Spring事件监听
  16. 深度搜索处理问题的关键 --- 做leetcode深度搜索类题目小结
  17. 题目 给定一个字符串所表示的括号序列,包含以下字符: '(', ')', '{', '}', '[' and ']', 判定是否是有效的括号序列。 样例 括号必须依照 ()顺序表示, ()[]
  18. 全国院线总票房破50亿!影院复工后,哪些电影最受欢迎?可视化案例
  19. 三星老java手机换字体_三星手机设置字体大小与更换默认字体的图文教程
  20. CopyOnWriteArrayList

热门文章

  1. margin-top的百分比是相对父元素的哪个值
  2. 解决安装svn后出现Unable to connect to a repository at URL以及认证失败
  3. nodejs 获取get中携带的参数值
  4. 为啥不能用uuid做MySQL的主键!?
  5. 一份微服务架构手稿图,彻底搞定微服务核心原理!
  6. 面试官问:平常你是怎么对 Java 服务进行调优的?
  7. 饿了么监控平台的架构设计与演进历程
  8. 记一次悲惨的 Excel 导出事件
  9. NanoHttpd源码分析
  10. 微信为什么不丢消息?