前言:作者(守望者MS)在实际搭建并开发Nutch的过程中参阅很多中文资料,但内容并不详尽且有错误,于是在此记录个人实战过程,纠正一些文章错误,以详细的过程展现一次简单的二次开发流程,为初学者降低门槛。但不能保证完全没有错误,如有发现希望大家指正。

目录:

1.Nutch1.2二次开发详细攻略(一)【图文】------Windows平台下Cygwin环境的搭建

2.Nutch1.2二次开发详细攻略(二)【图文】------Windows平台下Nutch1.2的搭建

3.Nutch1.2二次开发详细攻略(三)【图文】------Nutch1.2二次开发(关于界面修改)

4.Nutch1.2二次开发详细攻略(四)【图文】------Nutch1.2二次开发(关于中文分词)

本文出自 “守望者MS” 博客,谢绝转载!

一、开发环境介绍(以我个人为例):

个人开发端:windows Server 2003 + Cygwin + Eclipse3.2

二、具体步骤:

<1>.下载nutch1.2(http://labs.renren.com/apache-mirror//nutch/)

下载完成后解压到指定的文件夹。

在 开始测试Nutch是否搭建成功之前,请先确保本机安装了JDK,并且设置了正确的JAVA_HOME环境变量,注意:环境变量的设置中一定要将JDK的 安装根目录设置为JAVA_HOME,然后再设置CLASSPATH,PATH,即:%JAVA_HOME%/bin,%JAVA_HOME%/lib, 千万不要设置为绝对目录,否则在执行Nutch命令时会出现错误

,点击查看详情

<2>.开始配置Nutch:

第一:修改nutch目录下的conf子目录下的两个文件:

在nutch-site.xml的configuration下增加一个http.agent.name节点(如不修改则不能抓取)

<configuration>

<property>

<name>http.agent.name</name>

<value>HD nutch agent</value>

</property>

<property>

<name>http.agent.version</name>

<value>1.2</value>

</property>

</configuration>

在crawl-urlfilter.txt中将如下语句改成需要的形式:

# accept hosts in MY.DOMAIN.NAME

+^http://([a-z0-9]*\.)*com.cn/
+^http://([a-z0-9]*\.)*cn/
+^http://([a-z0-9]*\.)*com/

注:“+”号前不要有空格

第二:执行抓取操作

(1).在Nutch根目录下新建一个url.txt文件,其每一行输入你想要爬去的网站域名。

例如:

http://www.qq.com/

http://www.sina.com.cn/

注:以行为单位,每行输入一个域名,且域名格式遵从上述例子,最后要加"/"

(2).打开cygwin,执行命令行:

注:作者的Nutch放置在G:/nutch

命令行:cd g:

命令行: cd nutch

命令行: bin/crawl url.txt –dir localweb –depth 3 –threads 4

注:该命令行中的参数请自行学习参考,这里不多做解释。

此时,Nutch就开始执行抓取操作了,配置成功。

经过以上的步骤,后端的操作基本完毕,此时可以在cygwin中到nutch根目录下

执行下面命令进行简单的查询测试:

bin/nutch org.apache.nutch.searcher.NutchBean 关键字

<3>Tomcat的配置

(1).将tomcat安装目录下的\webapps下的ROOT删除;

(2).将nutch目录的nutch-1.2.war复制到tomcat\webapps下,并将其改名为ROOT.war;

如果Tomcat正在运行,那么ROOT.war会自动生成ROOT文件夹;如果没有运行,那么启动Tomcat之后,会自动生成ROOT文件夹。

(3.)打开ROOT\WEB-INF\classes下的nutch-site.xml文件,修改成如下形式:

<?xml version="1.0"?>

  <?xml-stylesheet type="text/xsl" href="nutch-conf.xsl"?>

<!-- Put site-specific property overrides in this file. -->

<nutch-conf>

   <property>

    <name>searcher.dir</name>

    <value>g:/nutch/localweb</value>

   </property>

  </nutch-conf>

其中的"<value>g:/nutch/localweb</value>"部分,应根据自己的设置进行相应修改,是nutch抓取结果存放目录。

启动Tomcat,打开浏览器在地址栏中输入:http://localhost:8080,即可看见nutch的搜索页面。

至此,Nutch的简单配置完毕,接下来说说如何在eclipse中导入并调试Nutch,

请点击查看文章

Nutch1.2二次开发详细攻略(二)【图文】------Windows平台下Nutch1.2的搭建相关推荐

  1. BigData/Cloud Computing:购买并登录Windows弹性云服务器之详细攻略(图文教程)—更优惠、更贴心!

    BigData/Cloud Computing:购买并登录Windows弹性云服务器之详细攻略(图文教程)-更优惠.更贴心! 导读:弹性云服务器(Elastic Cloud Server)是由CPU. ...

  2. VB.net:VB.net编程语言学习之基于VS软件利用VB.net语言实现对SolidWorks进行二次开发的简介、案例应用之详细攻略

    VB.net:VB.net编程语言学习之基于VS软件利用VB.net语言实现对SolidWorks进行二次开发的简介.案例应用之详细攻略 目录 调用SolidWorks功能简介 1.宏录制步骤 (1) ...

  3. IT:后端进阶技术路线图(初级→中级→高级)、后端开发工程师(技术方向分类之后台业务开发/中间件/内核/分布式架构)基础知识简介、技术路线/技术趋势指南(如何选择自己的技术方向)之详细攻略

    IT:后端进阶技术路线图(初级→中级→高级).后端开发工程师(技术方向分类之后台业务开发/中间件/内核/分布式架构)基础知识简介.技术路线/技术趋势指南(如何选择自己的技术方向)之详细攻略 目录 后端 ...

  4. Computer:少儿编程—每个人都应该学习编程,它能教你如何思考—编程入门的简介(编程语言的特点种类开发工具对比人类语言)、编程应用、编程意义之详细攻略

    Computer:少儿编程-每个人都应该学习编程,它能教你如何思考-编程入门的简介(编程语言的特点&种类&开发工具&对比人类语言).编程应用.编程意义之详细攻略 导读:乔布斯说 ...

  5. DataScience:风控场景之金融评分卡模型的构建(逻辑回归)开发(转评分卡)、使用过程(线上实现)之详细攻略

    DataScience:风控场景之金融评分卡模型的构建(逻辑回归)&开发(转评分卡).使用过程(线上实现)之详细攻略 目录 风控场景之金融评分卡模型的构建(逻辑回归)&开发(转评分卡) ...

  6. DataScience:风控场景之金融评分卡模型的简介、构建(逻辑回归)开发(转评分卡)、使用过程(线上实现)之详细攻略

    DataScience:风控场景之金融评分卡模型的简介.构建(逻辑回归)&开发(转评分卡).使用过程(线上实现)之详细攻略 目录 逻辑回归之金融评分卡模型的简介.构建.开发.使用过程 1.金融 ...

  7. BigData:大数据开发的简介、核心知识(linux基础+Java/Python编程语言+Hadoop{HDFS、HBase、Hive}+Docker)、经典场景应用之详细攻略

    BigData:大数据开发的简介.核心知识(linux基础+Java/Python编程语言+Hadoop{HDFS.HBase.Hive}+Docker).经典场景应用之详细攻略 BigData:大数 ...

  8. WeChat:微信小程序设计流程注册完善、设计开发、审核发布之详细攻略

    WeChat:微信小程序设计流程注册&完善.设计&开发.审核&发布之详细攻略 目录 微信小程序设计流程 1.注册 2.小程序信息完善 3.开发小程序 3.1.开发文档 3.2. ...

  9. Python语言学习之pandas:DataFrame二维表的简介、常用函数、常用案例之详细攻略

    Python语言学习之pandas:DataFrame二维表的简介.常用函数.常用案例之详细攻略 目录 DataFrame的简介 DataFrame的常用案例 1.写入和读取excel表格文件

  10. Python:Python多种集成开发环境(IDE,编译器)的简介、安装、入门、使用方法之详细攻略

    Python:Python多种集成开发环境(IDE,编译器)的简介.安装.入门.使用方法之详细攻略 目录 Python多种编译器的简介.安装.入门.使用方法 1.Anaconda 2.ipython ...

最新文章

  1. 2.1/2.2 系统目录结构, 2.3 ls命令, 2.4 文件类型, 2.5 alias命令
  2. Tomcat下HTTPS双向认证配置以及客户端调用案例
  3. 笔记-项目配置管理-配置项
  4. [C语言]关于指针和int型的一道题目
  5. 《C++ Primer》7.1.4节练习
  6. SpringBoot 自动装配原理
  7. oracle查询结果展示,ORACLE构造查询日期展示结果
  8. yum是什么?(linux命令)
  9. 超级简单:如何列出目录下所有文件的超链接
  10. paip.分成系统会员推广分销系统的设计
  11. 大物实验-直接测量量不确定度计算器 开发备忘录
  12. Landsat系列卫星
  13. 二级域名分发系统美化版源码+内附搭建教程
  14. 操作系统进程同步作业题
  15. 2019杭州电子科技大学计算机考研经验——97天一战上岸
  16. FATFS文件系统复制文件
  17. 企业微信回调实现(java)
  18. C语言明显优于其它高级语言
  19. 深度学习框架tensorflow学习与应用——代码笔记11(未完成)
  20. python机器学习初探

热门文章

  1. WPF捕获事件即使这个事件被标记为Handled
  2. 基于ASP.NET AJAX的WebPart开发与部署
  3. 视觉SLAM之词袋(bag of words) 模型与K-means聚类算法浅析
  4. ABAP中的枚举对象
  5. 当Kubernets遇上阿里云 -之七层负载均衡(一).
  6. SDWebImage缓存图片的机制(转)
  7. day16——oracle灾备2
  8. [禅悟人生]不自律的品性如堕落的瓷瓶
  9. Web应用开发基本技术及思想
  10. Java开发笔记(一百四十)JavaFX的选择框