hadoop2.3.0 Windows （nutch）爬虫使用

百度云盘下载（解压安装）：链接：https://pan.baidu.com/s/1dFTpMhj 密码：jp1g

百度云盘下载（源码）：链接：https://pan.baidu.com/s/1ht81j7Y 密码：5yaa

官网下载：http://archive.apache.org/dist/hadoop/core/hadoop-2.3.0/

安装需要配置HADOOP_HOME

如果运行nutch出现

InjectorJob: starting at 2018-01-22 16:29:38
InjectorJob: Injecting urlDir: urls
InjectorJob: Using class org.apache.gora.mongodb.store.MongoStore as the Gora storage class.
InjectorJob: java.lang.NullPointerException
at java.lang.ProcessBuilder.start(Unknown Source)
at org.apache.hadoop.util.Shell.runCommand(Shell.java:482)
at org.apache.hadoop.util.Shell.run(Shell.java:455)
at org.apache.hadoop.util.Shell$ShellCommandExecutor.execute(Shell.java:702)
at org.apache.hadoop.util.Shell.execCommand(Shell.java:791)
at org.apache.hadoop.util.Shell.execCommand(Shell.java:774)
at org.apache.hadoop.fs.RawLocalFileSystem.setPermission(RawLocalFileSystem.java:646)
at org.apache.hadoop.fs.RawLocalFileSystem.mkdirs(RawLocalFileSystem.java:434)
at org.apache.hadoop.fs.FilterFileSystem.mkdirs(FilterFileSystem.java:281)
at org.apache.hadoop.mapreduce.JobSubmissionFiles.getStagingDir(JobSubmissionFiles.java:125)
at org.apache.hadoop.mapreduce.JobSubmitter.submitJobInternal(JobSubmitter.java:348)
at org.apache.hadoop.mapreduce.Job$10.run(Job.java:1285)
at org.apache.hadoop.mapreduce.Job$10.run(Job.java:1282)
at java.security.AccessController.doPrivileged(Native Method)
at javax.security.auth.Subject.doAs(Unknown Source)
at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1614)
at org.apache.hadoop.mapreduce.Job.submit(Job.java:1282)
at org.apache.hadoop.mapreduce.Job.waitForCompletion(Job.java:1303)
at org.apache.nutch.util.NutchJob.waitForCompletion(NutchJob.java:115)
at org.apache.nutch.crawl.InjectorJob.run(InjectorJob.java:231)
at org.apache.nutch.crawl.InjectorJob.inject(InjectorJob.java:252)
at org.apache.nutch.crawl.InjectorJob.run(InjectorJob.java:276)
at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:70)
at org.apache.nutch.dispatch.JobManager.run(JobManager.java:22)
at org.apache.nutch.dispatch.JobManager.main(JobManager.java:50)

下载以下文件：

（不要问我为什么加这些文件）

下载地址：链接：https://pan.baidu.com/s/1i6UJLNB 密码：7d9j

将下载的文件加入到hadoop\bin路径下

如果还是出错，那么就是路径出错了，nutch内部引用hadoop不对，请尝试将hadoop-2.3.0改成hadoop-2.3

hadoop2.3.0 Windows （nutch）爬虫使用相关推荐

windows下搭建hadoop-2.6.0本地idea开发环境
概述本文记录windows下hadoop本地开发环境的搭建: OS:windows hadoop执行模式:独立模式安装包结构: Hadoop-2.6.0-Windows.zip- cygwinIn ...
Nutch爬虫引擎使用分析
Nutch2.X主要执行流程: 1)InjectorJob: 从文件中得到一批种子网页,把它们放到抓取数据库中去 2)GeneratorJob:从抓取数据库中产生要抓取的页面放到抓取队列中去 3)Fe ...
Nutch爬虫环境搭建
1 前言 1 2 环境介绍 2 3 准备工作 3 4 Solr安装 8 5 Hbase安装 14 6 Hadoop安装 17 7 Nutch安装 19 8 Solr使用 19 9 Nutch使用 19 ...
eclipse中hadoop2.3.0环境部署及在eclipse中直接提交mapreduce任务
转自:http://my.oschina.net/mkh/blog/340112 1 eclipse中hadoop环境部署概览 eclipse中部署hadoop包括两大部分:hdfs环境部署和mapr ...
Eclipse中部署hadoop2.3.0
1 eclipse中hadoop环境部署概览 eclipse 中部署hadoop包括两大部分:hdfs环境部署和mapreduce任务执行环境部署.一般hdfs环境部署比较简单,部署后就可以在ecl ...
hadoop2.6.0+eclipse配置
[0]安装前的声明 0.1) 所用节点2个 master : 192.168.119.105 hadoop5 slave : 192.168.119.101 hadoop1 (先用一个slave,跑成 ...
nutch爬虫原来是这样操作的！
一.nutch简介 nutch是大名鼎鼎的Doug Cutting发起的爬虫项目,nutch孵化了现在大数据处理框架Hadoop.在nutch V 0.8.0 版本之前,Hadoop是nutch的一部 ...
【Python】从0开始写爬虫——豆瓣电影
1. 最近略忙..java在搞soap,之前是用工具自动生成代码的.最近可能会写一个soap的java调用 2. 这个豆瓣电影的爬虫.扒信息的部分暂时先做到这了.扒到的信息如下 from scrapy ...
win7 eclipse调用虚拟机ubuntu部署的hadoop2.2.0伪分布（1）
所用软件下载网址:链接:http://pan.baidu.com/s/1bn4IIQF密码:ramg win7环境下jdk下载路径(/jdk/jdk-7u71-windows-i586.exe) ec ...

hadoop2.3.0 Windows （nutch）爬虫使用

hadoop2.3.0 Windows （nutch）爬虫使用相关推荐

最新文章

热门文章