在Hadoop的环境里面我们测试一个文件,对西游记这个书籍里面的所有词语,进行统计排序。hadoop包括两个核心组成:HDFS:分布式文件系统,存储海量的数据MapReduce:并行处理框架,实现任务分解和调度。

hadoop运行机制

MapReduce工作原理

首先我们准备四个文件,在自己Windows里面已经写好的,或者是从其他地方copy过来的(涉及一些参数和路径的修改)

点击下载这四个参考文件
前面两文件是实现我们的文章词组的分割处理和排序处理(Python文件),后面的一个是执行文件,最后一个是西游记里面的文章,这个里面已经利用pycharm的jieba 库做好的文字的处理,只有词组和空格,没有标点符号和其他的东西。

准备:

首先打开虚拟机,启动Hadoop


这样就启动成功了,有的时候我们很容易忽略这个,我的这台机器配置了,开机自启动,所以打开虚拟机就会自己启动,但是如果没有的话我们就需要利用下面的代码

start-all.sh

之后等待启动OK,再去查看即可

实验过程

思路:

1.首先把文件上传到我们的虚拟机home目录,然后对其中三个文件权限进行修改。
2.修改run.sh 里面的参数,Hadoop文件路径,Python文件路径。
3.上传我们文件到hdfs本地

实验过程:

1.首先我们在home目录里面新建一个test1的文件夹,然后把这四个文件拖到我们新建的这个文件夹里面。然后我们去修改其中2个Python文件的内容,一个sh的文件路径即可

whw@whw-hadoop:~/test1$ chmod 777 mapper.py
whw@whw-hadoop:~/test1$ chmod 777 reduce.py
whw@whw-hadoop:~/test1$ ll
总用量 1420
drwxr-xr-x  2 whw whw    4096 9月  25 23:44 ./
drwxr-xr-x 21 whw whw    4096 9月  28 22:02 ../
-rwxrwxrwx  1 whw whw     546 9月  25 23:44 mapper.py*
-rwxrwxrwx  1 whw whw    1038 9月  25 23:44 reduce.py*
-rwxrw-rw-  1 whw whw     275 9月  25 23:42 run.sh*
-rwxrw-rw-  1 whw whw 1431328 9月  24 21:45 xyj_stopwords.txt*
whw@whw-hadoop:~/test1$ 

2.然后我们再去本地的hdfs里面创建一个test1的文件

whw@whw-hadoop:~$ hdfs dfs -mkdir /test1
mkdir: `/test1': File exists
whw@whw-hadoop:~$

我这里的文件已经存在了,可以通过这个命令去验证一下

hdfs dfs -ls /test1

然后把我们已经处理好一部分的西游记文件上传到hdfs 本地文件

hdfs dfs -copyFromLocal /home/whw/test1/xyj_stopwords.txt /test1/

注意copyFromLocal的大小写,然后就是我们的这个文件路径,我们直接点击该文件的属性,复制路径和文件名即可,再去终端粘贴,最后一步就是把这个文件放在那里,我们放在本地的test1的文件夹下面,注意后面加了一个/,如果不加这个,就会给这个文件重命名了。

查看

hdfs dfs -ls /test1/
hdfs dfs -cat /test1/xyj_stopwords.txt


3.修改run.sh


首先找到Hadoop的文件路径

sudo find / -name hadoop-stream*


修改完毕

注意由于我之前测试过一次,所以输出文件已经重复了如果去执行文件的时候,发现以下页面,我们只需要把之前的那个run.sh 里面的那个输出的result改成results即可!!



现在我们执行,但是必须在test终端打开

./run.sh

我们可以在闲暇之余,我们可以看看执行的过程,我们在我们的浏览器里面输入,回车即可

127.0.0.1:0880

也可以查看我们Hadoop的配置以及其他参数


结果查看

hdfs dfs -ls /st1/results
hdfs dfs -cat /test1/results/文件名

这里的文件名是我们输入第一条命令的时候会出现一个part文件,把这个文件名名字复制粘贴过来即可

最后注意关闭我们的Hadoop机器

stop-all.sh

每文一语

世界很大,总是会有很巧合的遇见!

在Hadoop环境里面统计西游记文章的词组(hdfs实验)相关推荐

  1. Hadoop hive sqoop zookeeper hbase生产环境日志统计应用案例(hadoop篇)

    Hadoop集群安装部署与配置(2015-01-15) 1.集群环境说明 主机列表 说明: 下文中蓝色部分为实际的执行命令:红色部分是重要的配置信息:"##"后为注释 a. 由于h ...

  2. mac下hadoop环境的搭建以及碰到的坑点

    提示:这里有Exit code: 127 Stack trace: ExitCodeException exitCode=127: 错误的解决的方法,在文章最后面 一.首先要配置好java环境 下载地 ...

  3. mac下hadoop环境的搭建

    提示:这里有Exit code: 127 Stack trace: ExitCodeException exitCode=127: 错误的解决的方法,在文章最后面 一.首先要配置好java环境  下载 ...

  4. GitChat·大数据 | 史上最详细的Hadoop环境搭建

    GitChat 作者:鸣宇淳 原文: 史上最详细的Hadoop环境搭建 关注公众号:GitChat 技术杂谈,一本正经的讲技术 [不要错过文末彩蛋] 前言 Hadoop在大数据技术体系中的地位至关重要 ...

  5. 离线分析:Flume+Kafka+HBase+Hadoop通话数据统计

    文章目录 项目背景 项目架构 系统环境 系统配置 框架安装 JDK Hadoop Zookeeper Kafka Flume HBase 项目实现 项目结构 表设计 HBase Mysql 功能编写 ...

  6. 转 史上最详细的Hadoop环境搭建

    转载的文章,请告知侵删.本人只是做个记录,一面以后找不到. 前言 Hadoop在大数据技术体系中的地位至关重要,Hadoop是大数据技术的基础,对Hadoop基础知识的掌握的扎实程度,会决定在大数据技 ...

  7. Windows下配置单机Hadoop环境

    Windows下配置单机Hadoop环境 文章目录 Windows下配置单机Hadoop环境 下载Hadoop 下载配置文件 配置环境变量 初始化HDFS 启动Hadoop 关闭Hadoop 常见错误 ...

  8. Hadoop环境搭建教学(二)完全分布式集群搭建;

    Hadoop环境搭建教学(一)运行环境,集群规划介绍: 文章目录 安装三台 CentOS 7系统 一.X-Shell的准备工作 二.基本工具安装 三.关闭防火墙 四.修改Host文件 五.3.4.4 ...

  9. Hadoop环境搭建教学(一)运行环境,集群规划介绍;

    文章目录 前言 一.Hadoop的三种运行环境 二.集群规划 三.需要的基本软件安装 下期见 前言 Hadoop的运行环境可以是在Windows上,也可以在linux上,但在Windows上运行效率很 ...

最新文章

  1. leetcode-155 最小栈
  2. C# 学习笔记(19)操作SQL Server下
  3. ZOJ 1648 线段相交
  4. boost::hana::none_of用法的测试程序
  5. SVN版本管理工具使用中常见的代码提交冲突问题的解决方法
  6. python定义空数组_在numpy数组中设置空值
  7. 5.1.4 SELECT+RIGHT JOIN读取数据
  8. Opencv2.X以上Mat类型与IplImage*的转换
  9. Android TV开发总结【焦点】
  10. PID调节参数的作用
  11. wps的ppt怎么存html,如何将网页快速转换为WPS与WORD文档 ppt怎么转换成word文档
  12. 2020-08-16:数据任务是怎么优化的?(数据倾斜,参数相关调节)
  13. 库克退休前的最后一战:不是苹果汽车!
  14. openCV错误解决方案:无法启动此程序,因为计算机中丢失opencv_world310.dll
  15. Redis和Memcached的区别(数据类型、内存管理、数据持久化、集群管理)
  16. 媒:克里米亚被俄军控制 48小时内决定走势
  17. phpcms教程:文章点击量随机增加的方法
  18. 魔域无法连接服务器或正在维护,史上最全魔域无法登录或登录超时原因与解决办法...
  19. windows粘贴板失效,不能复制粘贴解决
  20. java代码隐藏面消除算法_计算机图形学—— 隐藏线和隐藏面的消除(消隐算法)...

热门文章

  1. 7-3 优美的括号序列
  2. openshift单机版安装
  3. 家用服务器的终极主页Dashy
  4. Windows取证实验
  5. 冯诺依曼结构为什么对计算机届影响巨大
  6. CSS * *:before, *:after
  7. 熬了几个通宵,终于把初中到大学的数学知识梳理完了(学习算法必备数学知识)
  8. 浏览器低延时无插件播放监控摄像头视频-接入LiveNVR支持HTTP-FLV分发
  9. JavaScript——event.which弃用
  10. Maven Nexus3 私服搭建、配置、项目发布(docker方式)