hadoop2.3.0 Windows (nutch)爬虫使用
百度云盘下载(解压安装):链接:https://pan.baidu.com/s/1dFTpMhj 密码:jp1g
百度云盘下载(源码):链接:https://pan.baidu.com/s/1ht81j7Y 密码:5yaa
官网下载:http://archive.apache.org/dist/hadoop/core/hadoop-2.3.0/
安装需要配置HADOOP_HOME
如果运行nutch出现
InjectorJob: starting at 2018-01-22 16:29:38
InjectorJob: Injecting urlDir: urls
InjectorJob: Using class org.apache.gora.mongodb.store.MongoStore as the Gora storage class.
InjectorJob: java.lang.NullPointerException
at java.lang.ProcessBuilder.start(Unknown Source)
at org.apache.hadoop.util.Shell.runCommand(Shell.java:482)
at org.apache.hadoop.util.Shell.run(Shell.java:455)
at org.apache.hadoop.util.Shell$ShellCommandExecutor.execute(Shell.java:702)
at org.apache.hadoop.util.Shell.execCommand(Shell.java:791)
at org.apache.hadoop.util.Shell.execCommand(Shell.java:774)
at org.apache.hadoop.fs.RawLocalFileSystem.setPermission(RawLocalFileSystem.java:646)
at org.apache.hadoop.fs.RawLocalFileSystem.mkdirs(RawLocalFileSystem.java:434)
at org.apache.hadoop.fs.FilterFileSystem.mkdirs(FilterFileSystem.java:281)
at org.apache.hadoop.mapreduce.JobSubmissionFiles.getStagingDir(JobSubmissionFiles.java:125)
at org.apache.hadoop.mapreduce.JobSubmitter.submitJobInternal(JobSubmitter.java:348)
at org.apache.hadoop.mapreduce.Job$10.run(Job.java:1285)
at org.apache.hadoop.mapreduce.Job$10.run(Job.java:1282)
at java.security.AccessController.doPrivileged(Native Method)
at javax.security.auth.Subject.doAs(Unknown Source)
at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1614)
at org.apache.hadoop.mapreduce.Job.submit(Job.java:1282)
at org.apache.hadoop.mapreduce.Job.waitForCompletion(Job.java:1303)
at org.apache.nutch.util.NutchJob.waitForCompletion(NutchJob.java:115)
at org.apache.nutch.crawl.InjectorJob.run(InjectorJob.java:231)
at org.apache.nutch.crawl.InjectorJob.inject(InjectorJob.java:252)
at org.apache.nutch.crawl.InjectorJob.run(InjectorJob.java:276)
at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:70)
at org.apache.nutch.dispatch.JobManager.run(JobManager.java:22)
at org.apache.nutch.dispatch.JobManager.main(JobManager.java:50)
下载以下文件:
(不要问我为什么加这些文件)
下载地址:链接:https://pan.baidu.com/s/1i6UJLNB 密码:7d9j
将下载的文件加入到hadoop\bin路径下
如果还是出错,那么就是路径出错了,nutch内部引用hadoop不对,请尝试将hadoop-2.3.0改成hadoop-2.3
hadoop2.3.0 Windows (nutch)爬虫使用相关推荐
- windows下搭建hadoop-2.6.0本地idea开发环境
概述 本文记录windows下hadoop本地开发环境的搭建: OS:windows hadoop执行模式:独立模式 安装包结构: Hadoop-2.6.0-Windows.zip- cygwinIn ...
- Nutch爬虫引擎使用分析
Nutch2.X主要执行流程: 1)InjectorJob: 从文件中得到一批种子网页,把它们放到抓取数据库中去 2)GeneratorJob:从抓取数据库中产生要抓取的页面放到抓取队列中去 3)Fe ...
- Nutch爬虫环境搭建
1 前言 1 2 环境介绍 2 3 准备工作 3 4 Solr安装 8 5 Hbase安装 14 6 Hadoop安装 17 7 Nutch安装 19 8 Solr使用 19 9 Nutch使用 19 ...
- eclipse中hadoop2.3.0环境部署及在eclipse中直接提交mapreduce任务
转自:http://my.oschina.net/mkh/blog/340112 1 eclipse中hadoop环境部署概览 eclipse中部署hadoop包括两大部分:hdfs环境部署和mapr ...
- Eclipse中部署hadoop2.3.0
1 eclipse中hadoop环境部署概览 eclipse 中部署hadoop包括两大部分:hdfs环境部署和mapreduce任务执行环境部署.一般hdfs环境部署比较简单,部署后就 可以在ecl ...
- hadoop2.6.0+eclipse配置
[0]安装前的声明 0.1) 所用节点2个 master : 192.168.119.105 hadoop5 slave : 192.168.119.101 hadoop1 (先用一个slave,跑成 ...
- nutch爬虫原来是这样操作的!
一.nutch简介 nutch是大名鼎鼎的Doug Cutting发起的爬虫项目,nutch孵化了现在大数据处理框架Hadoop.在nutch V 0.8.0 版本之前,Hadoop是nutch的一部 ...
- 【Python】从0开始写爬虫——豆瓣电影
1. 最近略忙..java在搞soap,之前是用工具自动生成代码的.最近可能会写一个soap的java调用 2. 这个豆瓣电影的爬虫.扒信息的部分暂时先做到这了.扒到的信息如下 from scrapy ...
- win7 eclipse调用虚拟机ubuntu部署的hadoop2.2.0伪分布(1)
所用软件下载网址:链接:http://pan.baidu.com/s/1bn4IIQF密码:ramg win7环境下jdk下载路径(/jdk/jdk-7u71-windows-i586.exe) ec ...
最新文章
- 解析激光雷达中时序融合的研究现状和发展方向
- 【开发环境】安装 Visual Studio Ultimate 2013 开发环境 ( 下载软件 | 安装软件 | 运行软件 )
- 20210101 Barbalat引理
- HTML+CSS做支付表单
- Java 数组及多维数组
- iOS 获取设备唯一标示符的方法[链接文章]
- 微信小程序 +第三方 直播-IM在线聊天
- WEBFORM--第一讲
- JavaScript高级教程——(19)构造函数、原型、原型链、继承
- python自动交易 缠论_缠论自动交易系统实现了
- 关闭IDEA双击shift全局搜索
- 新更新....llq原创考试第二题
- 冯·米塞斯迭代法(Von Mises iteration)
- python高德地图api调用实例_Python玩转高德地图API(二)
- 开始起飞-golang编码技巧分享--Dave Cheney博客读后整理
- Higgs全球区块链投融资交流会(香港站)成功举办,路演项目备受瞩目
- 联想拯救者Y9000P 2022 配置
- principal java_CAS 单点登录服务端 如何获取到principal
- 怎样阅读论文(台湾彭明辉)ZT
- 数据中心云工作流任务的能效调度算法研究(1)