Nutch安装
一、需求部份
a) Nutch是Java开发的所以需要下载Java JDK
下载地址http://java.sun.com/javase/downloads/index.jsp
b) Nutch的演示搜索页面是Jsp的需要Tomcat做服务器
下载地址:http://jakarta.apache.org/tomcat/
c) Nutch的脚本都是用Linux的Shell写的,所以在Windows平台需要一个Shell解释程序。Cygwin是一个在Windows下的模拟Linux系统程序。(注Linux下不需要下载此程序)
下载地址:http://www.cygwin.com/
d) Nutch下载地址:http://lucene.apache.org/nutch/
e) 建议安装UltraEdit文字编辑器。

二、安装步骤
a)Java JDK安装
安装目录不要出现中文,安装完成后设置环境变量,win7下设置环境变量和XP不同,在系统变量或者用户变量都行。
变量名JAVA_HOME
变量值 D:\Java\jdk(此处根据安装目录决定)
变量名 PATH
变量值 %JAVA_HOME%\bin;%Path%(“%变量名%”表示前面已有的变量)
变量名 CLASSPATH
变量值 .;%JAVA_HOME%\lib;%CATALINA_HOME%\lib(前面的“.”不能省,后面这是tomcat的需要)
变量安装完成后,在运行里输入“cmd”打开命令行,分别输入“java”,”javac”,”java –version”若显示具体信息而没有报错,则安装成功,如下图

b)tomcat安装
Tomcat解压缩在没有中文的目录下,设置环境变量
变量名 CATALINA_HOME
变量值 D:\bishe\apache-tomcat-7.0.6(具体的安装路径)
变量CLASSPATH的编辑前面已经完成,就不再需要。
运行CMD 进入此目录下运行catalina.bat run
Tomcat的运行和停止的文件分别是startup.bat和shutdown.bat。

c)Cygwin安装
运行安装程序后出现如下图:
之后一直选择下一步就好了,root directory为安装路径,local package directory为安装文件所在路径(也是setup.exe所在路径)。完成后在桌面会出现,此为cygwin目录下的cygwin.bat的快捷方式。

d)natch安装
下载完成后解压在没有中文的路径下。设置环境变量
变量名 NUTCH_JAVA_HOME
变量值 %JAVA_HOME%
运行cygwin,输入命令cd /cygdrive/d/bishe/nutch-1.2,再输入bin/nutch如图则nutch安装成功。

三、配置步骤
a)在nutch目录下建立urls目录,在目录中建立txt文件,文件名任意,用来设置搜索站点的起始位置,如:http://www.ustc.edu.cn/。
b)修改网址过滤规则conf/crawl-urlfilter.txt文件,把里面的MY.DOMAIN.NAME修改为你的抓取的URL。eg:
+^http://([a-z0-9]*.)*ustc.edu.cn/这里设置为只抓取以edu.cn结尾的URL。

c) 修改conf/nutch-site.xml代理信息,在和之间添加如下文件:

http.agent.name
ubuntuer(此处ubuntu是一个自定义的值,有说是可以为空,
有说是要设置一个单词,我是设置了一个词)

http.agent.description
ubuntuer

http.agent.url

http.agent.email
iptabler@gmail.com

d)执行nutch抓取url数据
在Cygwin命令行窗口中输入:cd /cygdrive/d/nutch-1.2
再输入bin/nutch crawl urls –dir crawl –depth 3 –threads 4 –topN 30 >& crawl.log
注意在,命令行窗口中输入命令的空格!!命令说明:
crawl 是nutch检索数据命令,后面跟上要检索的URL文件。urls就是a)部份创建的文件
-dir是检索后的结果存放目录参数,后面跟上结果存放地址。如果我们存放到nutch目录下的crawl目录,注意此目录当前是不存在的。检索完后nutch会创建出来。-threads 抓取时的线程数参数
-depth 抓取时的深度参数
-topN 抓取时每页的最大抓取链接
最后把执行信息写入crawl.log日志文件中,方便查找错误。
e)配置tomcat
把nutch-1.2.war复制到Tomcat下的webapps里,启动Tomcat,会自动deploy。再关闭Tomcat,到webapps\nutch-1.2目录下的WEB-INF\classes里的nutch-site.xml里,增加搜索的目录:

searcher.dir
D:\bishe\nutch-1.2\crawl(此处为检索存放的地址)

为了支持中文,在tomcat\conf的server.xml里的 里面,增加URIEncoding=“UTF-8” useBodyEncodingForURI="true"配置,最后如:
,每一项都用空格隔开。重启Tomcat,可以通过http://localhost:8080/nutch-1.2访问到Nutch了。
四、搜索结果

至此Nutch的安装基本完成。

Windows下安装Nutch相关推荐

  1. 基于svnserve的SVN服务器(windows下安装与配置)

    基于svnserve的SVN服务器(windows下安装与配置) 关键字: svn 安装SVNserve 从http://subversion.tigris.org/servlets/ProjectD ...

  2. Windows下安装Z3的Python3版

    文章目录 Windows下安装Z3的Python3版 pip 安装(不推荐,很慢) 使用微软官方构建好的DLL(推荐,快速) Windows下安装Z3的Python3版 GitHub官方仓库地址:Z3 ...

  3. 在windows下安装concurrentlua

    concurrentlua的makefile只提供了unix下的版本,如果直接按make里面得拷贝路径安排文件 在windows下是无法凑效的.这里我把我在windows下安装concurrentlu ...

  4. linux/windows下安装scala

    为什么80%的码农都做不了架构师?>>>    一.linux下安装scala 1.保证jdk安装成功,版本在1.5或者更改版本,java和javac均可用. 2.官网下载scala ...

  5. windows下安装cygwin及配置

    windows下安装cygwin及配置 对于使用Windows操作系统作为开发平台同时又喜欢类unix环境的朋友(Windows不是最方便的开发环境),这里是在Cygwin环境下安装Rails的步骤 ...

  6. Redis第一集:Windows下安装Redis和测试

    Redis第一集:Windows下安装Redis和测试 一.资源 Windows下的Redis的下载地址 点击这里即可下载,如果进不去GitHub的话,可以上网搜一下怎么进GitHub,搭个梯子(●ˇ ...

  7. 如何在windows下安装cygwin

    如何在windows下安装cygwin 转载于:https://www.cnblogs.com/zhujiabin/p/5747580.html

  8. 在windows下安装python包管理器pip及使用

      从来没有在Windows下用过pip,今天试了下,原来pip也可以在Windows下安装,使用也和Linux下一样简单. 先从下面的地址下载pip源码: http://pypi.python.or ...

  9. 《Nmap渗透测试指南》—第1章1.2节Windows下安装Nmap

    本节书摘来自异步社区<Nmap渗透测试指南>一书中的第1章1.2节Windows下安装Nmap,作者 商广明,更多章节内容可以访问云栖社区"异步社区"公众号查看. 1. ...

  10. windows下安装RabbitMQ

    windows下安装RabbitMQ 下载Erlang,官方下载中心 erlang下载,http://www.erlang.org/ 本机是win10 64位操作系统,下载64位.exe安装包 安装包 ...

最新文章

  1. FSWD_3_JavaScriptAdvance
  2. python数据结构推荐书-「算法与数据结构」从入门到进阶吐血整理推荐书单
  3. mysql的联合索引_mysql联合索引
  4. ios textview间距_iOS 设置TextView控件内容行间距
  5. 新手使用vue-router传参时注意事项
  6. LeetCode(集合)队列和栈的相互实现 golang
  7. [css] 如何修改美化radio、checkbox的默认样式?
  8. Golang 连接池的几种实现案例
  9. Android攻略之入门
  10. 很好的一篇讲解sql优化的文章
  11. 身份证城市代号python_身份证号码的地区代码分别是什么?
  12. 我的世界基java版刷怪机制_我的世界为什么自己的刷怪塔效率低下原因分析
  13. k8s-liveness和readness详解
  14. iCloud开发入门
  15. SVN_处理文件误删恢复
  16. 微信小程序:小程序内用户帐号登录规范调整和优化建议
  17. 加班奖励 python_“加班做了2天的方案,同事用Python半个小时就搞定了?”
  18. 一流国企与外企的待遇比较
  19. Spring【Bean的作用域与生命周期】
  20. 练习三:利用条件语句实现计数分频时序电路

热门文章

  1. 这两种方法能使PDF不能被复制和修改
  2. Java基本数据类型之char
  3. 自制solidworks图框步骤_solidworks工程图模板制作教程(上) - CAD自学网
  4. 动手学习深度学习——基本简介
  5. 黑苹果长期维护机型整理清单
  6. 【黑苹果 Hackintosh】Delll成就5468(Vostro 5468)黑苹果
  7. 3dmax如何拆分模型_3dmax怎么拆分模型画贴图
  8. matlab 滤波器设计 coe_巴特沃斯滤波器
  9. 2019APMCM亚太数学建模题目
  10. Python三种设计模式