在linux上一行代码不用写实现自动采集+hadoop分词

将下面的shell脚本保存成到xxx.sh,然后执行即可

cd /opt/hadoop

mkdir spider
wget -O spider/test.html "http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/HDFSHighAvailabilityWithQJM.html"  
hadoop fs -mkdir /spider
hadoop fs -put spider/test.html /spider

hadoop jar share/hadoop/mapreduce/wordcount.jar wordcount.wordcount /spider/test.html /fenci2

执行结果如下:

转载于:https://www.cnblogs.com/bdccloudy/p/7665264.html

在linux上一行代码不用写实现自动采集+hadoop分词相关推荐

  1. 一行代码不用写,就可以训练、测试、使用模型,这个star量1.5k的项目帮你做到...

    机器之心报道 机器之心编辑部 igel 是 GitHub 上的一个热门工具,基于 scikit-learn 构建,支持 sklearn 的所有机器学习功能,如回归.分类和聚类.用户无需编写一行代码即可 ...

  2. 一行代码不用写,就可以训练、测试、使用模型,这个 star 量 1.5k 的项目帮你做到...

    公众号关注 "小詹学Python" 设为"星标",第一时间知晓最新干货~ 转自 | 机器之心 igel 是 GitHub 上的一个热门工具,基于 scikit- ...

  3. Linux上监控tomcat down掉后自动重启tomcat

    Linux上监控tomcat down掉后自动重启tomcat 解决思路 Linux上监控tomcat down掉后自动重启tomcat 第一步编辑:monitor.sh文件(文件内容看下文) 第二步 ...

  4. python怎么返回上一行代码_一行Python代码能做出哪些神器的事情

    原标题:一行Python代码能做出哪些神器的事情 (1)一行代码启动一个Web服务 python -m SimpleHTTPServer 8080 # python2 python3 -m http. ...

  5. 关于一行代码没写完换行\符号的注意

    通常我们在C\C++中一行代码写的很长需要换到下一行继续写,在行末加个'\'回车到下一行继续写, 如: printf("\nT%04dCH%02d%01d%04X%08X%04d%d%04d ...

  6. python怎么返回上一行代码_Python实现判断一行代码是否为注释的方法

    目前的编辑器大都可以自动检测某一行代码是否为代码行或注释行,但并不太提供代码行/注释行行数的统计,对于大量代码文件的代码行/注释行统计,就更少见一些.本篇文章试用一段Python脚本来实现这一目标,并 ...

  7. linux上mkfs代码,Linux mkfs使用

    mkfs命令是 makefilesystem的缩写,用来在特定的分区建立Linux文件系统 常见的文件系统有 FAT 在Win 9X下,FAT16支持的分区最大为2GB.我们知道计算机将信息保存在硬盘 ...

  8. 一行代码没写,凭啥被尊为“第一位程序员”?

    作者 | Aholiab 出品 | 程序人生 (ID:coder _life) 阿达·拉芙莱斯,一个 IT 圈里人人都听过的名字.被称为「程序员的开山鼻祖」,但也存在着旷日持久的争议. 探索关于 Ad ...

  9. GitHub上提交代码之写给小白

    目录 1.创建github repository(仓库) 1.1.登录github 1.2.创建repository(仓库) 2.安装git客户端 2.1.下载git客户端 2.2.安装客户端 2.3 ...

最新文章

  1. centos7下的glusterfs的安装与使用
  2. matlab的knn均值滤波,中值滤波与均值滤波介绍.ppt
  3. x265中checkMerge2Nx2N_rd0_4()分析(版本2.8)
  4. java中滚动字幕做法_四种滚动字幕的方法
  5. python界面实现点餐系统_餐厅点餐系统详细设计与系统实现
  6. python文本自动伪原创_现在有哪些好用的伪原创工具?
  7. c++复习篇(三)--函数调用堆栈
  8. python实现微信群友统计器
  9. 虚拟机无法在更新服务器,今win10更新导致VMware workstation pro无法打开的解决方法...
  10. filezilla源码安装教程(含错误信息解决方案)
  11. 远程桌面看不到任务栏怎么办?
  12. 基于UA-DETRAC车辆数据集在windows10系统下yolov3模型训练
  13. python re正则提取ip地址_python 正则表达式匹配IP地址
  14. use tools:overrideLibrary=xxx.xxx.xxxr to force usage 问题分析。
  15. android开源项目 Google code
  16. mysql练习-学生信息管理系统
  17. 我本将心向明月,奈何明月照沟渠_百度百科
  18. 利用阿里云大数据产品建设数据中台?
  19. d3服务器不稳定,d3服务器
  20. 电脑板绘绘画:零基础的我们又该如何“入门”

热门文章

  1. DSP之GPIO(转)
  2. 【Qt】进程间通信之QSharedMemory示例
  3. 【Linux】一步一步学Linux——dpkg-preconfigure命令(275)
  4. 【Linux】一步一步学Linux——Centos7.5安装图解(08)
  5. 【Linux系统编程应用】 Linux输入子系统(二)
  6. mvc动态添加html控件,jquery – MVC3 Html.DisplayFor – 可以让这个控件生成一个ID吗?...
  7. php 累,php 记录进行累结果
  8. Rumor CodeForces - 893C
  9. 用hutool进行RSA编码及解码
  10. win7建立wifi热点