Hadoop自带WordCount进行词频统计

准备:

安装好的Hadoop

需要统计词频txt文件(用jieba分过词的

链接: pycharm 分词 jieba 结巴分词输出txt.

step1

启动Hadoop

cd /usr/local/hadoop

./sbin/start-all.sh

用jps命令查看是否开启成功

准备好需要统计词频的txt文件(也可以用filezilla传入Ubuntu)

链接: 如何用filezilla连接Ubuntu.

找到Hadoop文件所在位置

把需要计算词频的文件放在Hadoop文件下(记得这个文件要用jieba分好词后的文件)

step2

使用Hadoop自带的jar包用wordcount计算词频

创建一个文件夹存放需要计算词频的txt文件

bin/hdfs dfs -mkdir -p /input1

把需要计算词频的文件放到刚刚所建的文件夹中(txt文件一定要放在Hadoop文件夹下嗷)

bin/hdfs dfs -put hlm.txt /input1

查看 /input文件夹下面的文件

bin/hdfs dfs -ls /input1

使用jar包中的wordcount计算词频

jar包的位置:

share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar

计算词频代码

bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount /input/hlm.txt /out/hlmcount1

bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount /input/hlm.txt /out/hlmcount

注意每个人的Hadoop版本不同黄线上的文件名也不同

敲下回车之后

查看输出的结果

bin/hdfs dfs -cat /out/hlmcount/part-r-000001

完美结束~

文章来源: blog.csdn.net,作者:摸仙小蓝是人机,版权归原作者所有,如需转载,请联系作者。

原文链接:blog.csdn.net/weixin_43322782/article/details/110199482

hadoop使用mapreduce统计词频_Hadoop自带WordCount进行词频统计(mapreduce)相关推荐

  1. 教育统计与测量可以带计算机吗,教育统计与测量.ppt

    教育统计与测量 教育统计与测量是一门应用性的学科,学习的过程也是应用的过程,从而提高本门课程的学习效果,更好实现课程的功能. 准备的学习用具:统计功能的计算器,练习本两本 教育统计篇 第一讲 教育统计 ...

  2. 使用Hadoop自带的例子wordcount实现词频统计

    Hadoop中自带的hadoop-mapreduce-examples-2.7.6.jar含有一些事例,本文将用wordcount实现词频统计.具体步骤如下: 1. 启动Hadoop 切换到Hadoo ...

  3. Hadoop实现词频统计(按照词频降序排列以及相同词频的单词按照字母序排列)

    Hadoop实现词频统计(按照词频降序排列以及相同词频的单词按照字母序排列) 一.环境 二.实现步骤 1.数据 2.主函数 3.第一个MapReduce Map Reduce 4.第二个MapRedu ...

  4. 基于hadoop下的使用map reduce分布式系统的高考高频词汇统计

    hadoop课程设计报告 一.设计目的与要求 1.设计目的 通过hadoop课程设计可以加深.巩固对本门专业课程理论知识的掌握.通过eclipse和hadoop来编写课设报告等方面的实践训练,筑牢编程 ...

  5. wordcount单词词频统计

    单词出现的总次数 1.WordCount概述 WordCount算是大数据计算领域经典的入门案例,相当于Hello World. 虽然WordCount业务极其简单,但是希望能够通过案例感受背后Map ...

  6. Hadoop面试题 (网上收集版带答案)

    1.列出安装Hadoop流程步骤 a) 创建hadoop账号 b) 更改ip c) 安装Java 更改/etc/profile 配置环境变量 d) 修改host文件域名 e) 安装ssh 配置无密码登 ...

  7. Hadoop自带WordCount.java程序

    位置:{Hadoop_HOME}\hadoop-0.20.1\src\examples\org\apache\hadoop\examples\WordCount.java 其中{Hadoop_HOME ...

  8. 教你用java统计目录下所有文档的词频

    本文是统计目录下所有文档的词频top10,非单个文档,包含中文和英文. 直接上代码: 1 package com.huawei.wordcount; 2 3 import java.io.Buffer ...

  9. Hadoop权威指南(第3版) 修订版(带目录书签) 中文PDF--高清晰

    一.下载地址(永久有效) 百度云盘下载(公开永久):Hadoop权威指南(第3版) 修订版(带目录书签) 中文PDF高清晰 CSDN积分下载:Hadoop权威指南(第3版)+高清晰 二.数据的存储和分 ...

  10. Hadoop系列之二:大数据、大数据处理模型及MapReduce

    1.大数据(big data) 什么是大数据?wikipedia上面给出了这样的定义: In information technology, big data is a collection of d ...

最新文章

  1. TSM备份Windows数据
  2. CVPR 2021|可操控的GAN——Hijack-GAN
  3. 四川大学计算机学院 期末考试安排,四川大学《计算机组成原理》2018期末考试B卷.doc...
  4. [Centos 6.2] centos 6.2(64位)网络配置
  5. thinkPHP 模板中的语法
  6. centos安装mysql8_Docker 快速安装 Mysql
  7. sql server从一个数据库复制一张表到另外一个数据库
  8. TypeScript:函数基础
  9. CSDN排名更新又出问题了?
  10. Java 线程池实际运用案例
  11. LQR控制算法及其仿真实现
  12. 小一寸照片的尺寸规格 小一寸的照片多少像素
  13. 32bit 天堂2脚本修改资料大全【客户端+服务端】
  14. QQ自动发消息源代码
  15. php js条形码扫描,使用JavaScript根据图片获取条形码的方法
  16. 钉钉微应用调用支付宝JSAPI进行支付
  17. 金蝶k3服务器系统吗,金蝶k3能在云服务器上吗
  18. 新加坡读计算机专业,【去新加坡读计算机专业】 - 环外新加坡留学网
  19. SQL的常见函数的使用方法和举例说明
  20. vue2.0中的退出登录问题

热门文章

  1. 运用ffmpeg生成MP4文件
  2. VC对密码加密和解密函数
  3. D - Maze(深度搜索+思维转换)
  4. 图像处理中的直方图与均衡化
  5. Double 中的 NAN与INFINITY
  6. apache 禁用rc4_如何在Apache中禁用过时的TLS和SSL版本
  7. C#网络编程----(二)启动、停止和观察进程
  8. Codeforces_Round527_Div3_C题--Prefixes and Suffixes
  9. 单分支 两路分支和多分支的if结构_程序选择结构
  10. localhost 和ip 地址访问的html页面样式不一样_搭建一个弹幕查询页面(1)