配置完hadoop后调用HDFS的API进行统计英语单词数量
前提:hadoop已经配置完成并且已经成功启动。
1.首先在windows系统中创建一个文本文件,并在其中添加含有英语单词的文本保存。
2.将刚刚创建的文本文件上传到hadoop中,这里有两种办法:
(1)第一种是用WinSCP软件登陆后直接将文本文件拉到虚拟机系统中
(2)第二种是用eclipse配置完hadoop环境的map/reduce项目将文件上传进去
3.上一步的操作是将EnglishWord.txt文件上传到/home目录中,我们需要把它复制到我们hdfs的目录中。
(1)在自己的hdfs目录下创建input目录
(2)用ls查看是否创建成功
(3)用put将刚刚在/home目录中的文件复制到/input目录下
4.调用API
(1)进入到安装hadoop目录的share/hadoop/mapreduce中,用ls可以看到其中包含的API,箭头指向的就是我们要用到的
(2)在该目录下 用下图命令调用API,其中wordcount是指单词数量,/input是要统计单词数量的目录,它会自动调用其中的文件,/output是输出的目录,这里需要注意的是,输出的目录是不能已经存在的。
(3)执行完后可以查看一下hdfs目录,发现其中已经多出了/output目录
(4)继续查看/output目录,其中的part-r-00000就算存放单词统计结果的
(5)扫描它,就可以看到对我们上传的EnglishWord.txt的单词统计结果了。
配置完hadoop后调用HDFS的API进行统计英语单词数量相关推荐
- Hadoop编程调用HDFS
主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项 ...
- java程序员的大数据之路(4):编程调用HDFS
背景 之前的文章中和大家分享了我用maven构建Hadoop项目的过程,有一个遗留的问题就是,Hadoop运行时,如果输出文件已经存在,那么运行会报错.在上一篇文章中,我也写了FileUtil来解决问 ...
- 高可用,完全分布式Hadoop集群HDFS和MapReduce安装配置指南
原文:http://my.oschina.net/wstone/blog/365010#OSC_h3_13 (WJW)高可用,完全分布式Hadoop集群HDFS和MapReduce安装配置指南 [X] ...
- java hadoop api_Hadoop 系列HDFS的Java API( Java API介绍)
HDFS的Java API Java API介绍 将详细介绍HDFS Java API,一下节再演示更多应用. Java API 官网 如上图所示,Java API页面分为了三部分,左上角是包(Pac ...
- 0353-如何使用curl命令调用CM的API动态配置Yarn资源池
温馨提示:如果使用电脑查看图片不清晰,可以使用手机打开文章单击文中的图片放大查看高清原图. Fayson的github: https://github.com/fayson/cdhproject 提示 ...
- 2021年大数据Hadoop(十二):HDFS的API操作
2021大数据领域优质创作博客,带你从入门到精通,该博客每天更新,逐渐完善大数据各个知识体系的文章,帮助大家更高效学习. 有对大数据感兴趣的可以关注微信公众号:三帮大数据 目录 HDFS的API操作 ...
- 利用Fiddler模拟通过Dynamics 365的OAuth 2 Client Credentials认证后调用Web API
微软动态CRM专家罗勇 ,回复337或者20190521可方便获取本文,同时可以在第一间得到我发布的最新博文信息,follow me. 配置Dynamics 365 & PowerApps 支 ...
- 安装完office后 在组件服务里DCOM配置中找不到
安装完Office后,因为需要调用Office组件,找不到,经研究得此结论 这个主要是64位系统的问题,excel是32位的组件,所以在正常的系统组件服务里是看不到的 可以通过在运行里面输入 come ...
- 安装完Hadoop之后,命令行输入hadoop或hdfs却找不到命令的解决方法
安装完Hadoop之后,命令行输入hadoop或hdfs却找不到命令的解决方法 参考文章: (1)安装完Hadoop之后,命令行输入hadoop或hdfs却找不到命令的解决方法 (2)https:// ...
最新文章
- linux 下使用crontab 定时打包日志并删除已被打包的日志
- 利用Android NDK编译lapack
- 什么是分布式系统的CAP理论?
- 在集设浏览学习高水准海报设计,会带给你不一样的灵感!
- 2021年下半年 全国计算机技术与软件专业技术资格考试 浙江省合格人员数据分布
- UltraEdit键盘快捷键
- 基于BP神经网络识别手写字体MINST字符集
- 梦幻西游qq表情包YR
- 阿里巴巴的商品主图视频要怎么保存比较快
- QTreeView实现圆角样式
- 两个强制屏幕旋转的方法
- CTF题记——取证小集合
- 人工智能管家机器人应当具备哪些功能?拥有家电控制能力是优势
- 通俗易懂解释raid0和raid5_raid0和raid5区别是什么?
- xcode6.3 ineligible devices解决方法
- mysqlin查询的java写法_[转载]常用的shell脚本
- Android中运行免安装app,适用于免安装应用的 CTS
- OpenSSL生成.key、.crt、.pfx证书(Windows下)
- vue+element在IE中遇到的问题
- 分峰截幅c语言算法,光纤布拉格光栅传感解调中的寻峰算法.docx