百度云盘下载(解压安装):链接:https://pan.baidu.com/s/1dFTpMhj 密码:jp1g

百度云盘下载(源码):链接:https://pan.baidu.com/s/1ht81j7Y 密码:5yaa

官网下载:http://archive.apache.org/dist/hadoop/core/hadoop-2.3.0/

安装需要配置HADOOP_HOME

如果运行nutch出现

InjectorJob: starting at 2018-01-22 16:29:38
InjectorJob: Injecting urlDir: urls
InjectorJob: Using class org.apache.gora.mongodb.store.MongoStore as the Gora storage class.
InjectorJob: java.lang.NullPointerException
at java.lang.ProcessBuilder.start(Unknown Source)
at org.apache.hadoop.util.Shell.runCommand(Shell.java:482)
at org.apache.hadoop.util.Shell.run(Shell.java:455)
at org.apache.hadoop.util.Shell$ShellCommandExecutor.execute(Shell.java:702)
at org.apache.hadoop.util.Shell.execCommand(Shell.java:791)
at org.apache.hadoop.util.Shell.execCommand(Shell.java:774)
at org.apache.hadoop.fs.RawLocalFileSystem.setPermission(RawLocalFileSystem.java:646)
at org.apache.hadoop.fs.RawLocalFileSystem.mkdirs(RawLocalFileSystem.java:434)
at org.apache.hadoop.fs.FilterFileSystem.mkdirs(FilterFileSystem.java:281)
at org.apache.hadoop.mapreduce.JobSubmissionFiles.getStagingDir(JobSubmissionFiles.java:125)
at org.apache.hadoop.mapreduce.JobSubmitter.submitJobInternal(JobSubmitter.java:348)
at org.apache.hadoop.mapreduce.Job$10.run(Job.java:1285)
at org.apache.hadoop.mapreduce.Job$10.run(Job.java:1282)
at java.security.AccessController.doPrivileged(Native Method)
at javax.security.auth.Subject.doAs(Unknown Source)
at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1614)
at org.apache.hadoop.mapreduce.Job.submit(Job.java:1282)
at org.apache.hadoop.mapreduce.Job.waitForCompletion(Job.java:1303)
at org.apache.nutch.util.NutchJob.waitForCompletion(NutchJob.java:115)
at org.apache.nutch.crawl.InjectorJob.run(InjectorJob.java:231)
at org.apache.nutch.crawl.InjectorJob.inject(InjectorJob.java:252)
at org.apache.nutch.crawl.InjectorJob.run(InjectorJob.java:276)
at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:70)
at org.apache.nutch.dispatch.JobManager.run(JobManager.java:22)
at org.apache.nutch.dispatch.JobManager.main(JobManager.java:50)

下载以下文件:

(不要问我为什么加这些文件)

下载地址:链接:https://pan.baidu.com/s/1i6UJLNB 密码:7d9j

将下载的文件加入到hadoop\bin路径下

如果还是出错,那么就是路径出错了,nutch内部引用hadoop不对,请尝试将hadoop-2.3.0改成hadoop-2.3

hadoop2.3.0 Windows (nutch)爬虫使用相关推荐

  1. windows下搭建hadoop-2.6.0本地idea开发环境

    概述 本文记录windows下hadoop本地开发环境的搭建: OS:windows hadoop执行模式:独立模式 安装包结构: Hadoop-2.6.0-Windows.zip- cygwinIn ...

  2. Nutch爬虫引擎使用分析

    Nutch2.X主要执行流程: 1)InjectorJob: 从文件中得到一批种子网页,把它们放到抓取数据库中去 2)GeneratorJob:从抓取数据库中产生要抓取的页面放到抓取队列中去 3)Fe ...

  3. Nutch爬虫环境搭建

    1 前言 1 2 环境介绍 2 3 准备工作 3 4 Solr安装 8 5 Hbase安装 14 6 Hadoop安装 17 7 Nutch安装 19 8 Solr使用 19 9 Nutch使用 19 ...

  4. eclipse中hadoop2.3.0环境部署及在eclipse中直接提交mapreduce任务

    转自:http://my.oschina.net/mkh/blog/340112 1 eclipse中hadoop环境部署概览 eclipse中部署hadoop包括两大部分:hdfs环境部署和mapr ...

  5. Eclipse中部署hadoop2.3.0

    1 eclipse中hadoop环境部署概览 eclipse 中部署hadoop包括两大部分:hdfs环境部署和mapreduce任务执行环境部署.一般hdfs环境部署比较简单,部署后就 可以在ecl ...

  6. hadoop2.6.0+eclipse配置

    [0]安装前的声明 0.1) 所用节点2个 master : 192.168.119.105 hadoop5 slave : 192.168.119.101 hadoop1 (先用一个slave,跑成 ...

  7. nutch爬虫原来是这样操作的!

    一.nutch简介 nutch是大名鼎鼎的Doug Cutting发起的爬虫项目,nutch孵化了现在大数据处理框架Hadoop.在nutch V 0.8.0 版本之前,Hadoop是nutch的一部 ...

  8. 【Python】从0开始写爬虫——豆瓣电影

    1. 最近略忙..java在搞soap,之前是用工具自动生成代码的.最近可能会写一个soap的java调用 2. 这个豆瓣电影的爬虫.扒信息的部分暂时先做到这了.扒到的信息如下 from scrapy ...

  9. win7 eclipse调用虚拟机ubuntu部署的hadoop2.2.0伪分布(1)

    所用软件下载网址:链接:http://pan.baidu.com/s/1bn4IIQF密码:ramg win7环境下jdk下载路径(/jdk/jdk-7u71-windows-i586.exe) ec ...

最新文章

  1. 解析激光雷达中时序融合的研究现状和发展方向
  2. 【开发环境】安装 Visual Studio Ultimate 2013 开发环境 ( 下载软件 | 安装软件 | 运行软件 )
  3. 20210101 Barbalat引理
  4. HTML+CSS做支付表单
  5. Java 数组及多维数组
  6. iOS 获取设备唯一标示符的方法[链接文章]
  7. 微信小程序 +第三方 直播-IM在线聊天
  8. WEBFORM--第一讲
  9. JavaScript高级教程——(19)构造函数、原型、原型链、继承
  10. python自动交易 缠论_缠论自动交易系统实现了
  11. 关闭IDEA双击shift全局搜索
  12. 新更新....llq原创考试第二题
  13. 冯·米塞斯迭代法(Von Mises iteration)
  14. python高德地图api调用实例_Python玩转高德地图API(二)
  15. 开始起飞-golang编码技巧分享--Dave Cheney博客读后整理
  16. Higgs全球区块链投融资交流会(香港站)成功举办,路演项目备受瞩目
  17. 联想拯救者Y9000P 2022 配置
  18. principal java_CAS 单点登录服务端 如何获取到principal
  19. 怎样阅读论文(台湾彭明辉)ZT
  20. 数据中心云工作流任务的能效调度算法研究(1)

热门文章

  1. 使用逻辑回归预测用户是否会购买SUV
  2. 【程序人生】2020 年度总结
  3. protobuf详细介绍和使用
  4. VirtualBox管理工具Vboxmanage
  5. calibre(电子书管理)软件的使用
  6. 电解电容的ESR到底是多少呢?
  7. 嵌入式设备的JTAG,Angle,和ICE三种调试笔记
  8. 第一章 matlab 学习入门之matlab基础
  9. Word目录制作,添加目录自动跳转
  10. reviewer中文_专家审稿意见回复范文如何回复中文审稿人意见结尾如何写