前言:作者(守望者MS)在实际搭建并开发Nutch的过程中参阅很多中文资料,但内容并不详尽且有错误,于是在此记录个人实战过程,纠正一些文章错误,以详细的过程展现一次简单的二次开发流程,为初学者降低门槛。但不能保证完全没有错误,如有发现希望大家指正。

目录:

Cygwin,Nutch安装配置,检验是否正确(对网友守望者博客的修改---在此感谢守望者)1

Cygwin,Nutch安装配置,检验是否正确(对网友守望者博客的修改---在此感谢守望者)2

Cygwin,Nutch安装配置,检验是否正确(对网友守望者博客的修改---在此感谢守望者)3

Cygwin,Nutch安装配置,检验是否正确(对网友守望者博客的修改---在此感谢守望者)4

一、开发环境介绍(以我个人为例):

个人开发端:windows Server 2003 + Cygwin + Eclipse3.2

二、具体步骤:

<1>.下载nutch1.2(http://labs.renren.com/apache-mirror//nutch/)

下载完成后解压到指定的文件夹。

在开始测试Nutch是否搭建成功之前,请先确保本机安装了JDK,并且设置了正确的JAVA_HOME环境变量,注意:环境变量的设置中一定要将JDK的安装根目录设置为JAVA_HOME,然后再设置CLASSPATH,PATH,即:%JAVA_HOME%/bin,%JAVA_HOME%/lib,千万不要设置为绝对目录,否则在执行Nutch命令时会出现错误

,点击查看详情

<2>.开始配置Nutch:

第一:修改nutch目录下的conf子目录下的两个文件:

在nutch-site.xml的configuration下增加一个http.agent.name节点(如不修改则不能抓取)

<configuration>

<property>

<name>http.agent.name</name>

<value>HD nutch agent</value>

</property>

<property>

<name>http.agent.version</name>

<value>1.2</value>

</property>

</configuration>

在crawl-urlfilter.txt中将如下语句改成需要的形式:

# accept hosts in MY.DOMAIN.NAME

+^http://([a-z0-9]*\.)*com.cn/
+^http://([a-z0-9]*\.)*cn/
+^http://([a-z0-9]*\.)*com/

注:“+”号前不要有空格

第二:执行抓取操作

(1).在Nutch根目录下新建一个url.txt文件,其每一行输入你想要爬去的网站域名。

例如:

http://www.qq.com/

http://www.sina.com.cn/

注:以行为单位,每行输入一个域名,且域名格式遵从上述例子,最后要加"/"

接着修改:apache-nutch-1.2-bin.zip\nutch-1.2\conf\nutch-default.xml中内容:

<property>
  <name>http.agent.name</name>
  <value>sina</value>
  <description>HTTP 'User-Agent' request header. MUST NOT be empty -
  please set this to a single word uniquely related to your organization.

NOTE: You should also check other related properties:

http.robots.agents
    http.agent.description
    http.agent.url
    http.agent.email
    http.agent.version

and set their values appropriately.

</description>
</property>

红色标记的地方不能为空,可以随便写一个

解决方法:在cygwin中输入:export LANG="zh_CN.GBK"
,而后回车
其实就是设置下linux的环境变量

一定要写:否则出现如下错误:

Exception in thread "main" java.io.IOException: Job failed!
at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1252)
at org.apache.nutch.crawl.Injector.inject(Injector.java:217)
at org.apache.nutch.crawl.Crawl.main(Crawl.java:124)

(2).打开cygwin,执行命令行:

注:作者的Nutch放置在G:/nutch

命令行:cd g:      (其中g表示你的apache-nutch-1.2-bin的存放位置)

apache-nutch-1.2-bin重命名为:nutch

命令行: cd nutch

命令行: bin/nutch crawl url.txt –dir localweb –depth 3 –threads 4

注:该命令行中的参数请自行学习参考,这里不多做解释。

此时,Nutch就开始执行抓取操作了,配置成功。

经过以上的步骤,后端的操作基本完毕,此时可以在cygwin中到nutch根目录下

执行下面命令进行简单的查询测试:

bin/nutch org.apache.nutch.searcher.NutchBean 关键字

<3>Tomcat的配置

(1).将tomcat安装目录下的\webapps下的ROOT删除;

(2).将nutch目录的nutch-1.2.war复制到tomcat\webapps下,并将其改名为ROOT.war;

如果Tomcat正在运行,那么ROOT.war会自动生成ROOT文件夹;如果没有运行,那么启动Tomcat之后,会自动生成ROOT文件夹。

(3.)打开ROOT\WEB-INF\classes下的nutch-site.xml文件,修改成如下形式:

<?xml version="1.0"?>

  <?xml-stylesheet type="text/xsl" href="nutch-conf.xsl"?>

<!-- Put site-specific property overrides in this file. -->

<nutch-conf>

   <property>

    <name>searcher.dir</name>

    <value>g:/nutch/localweb</value>

   </property>

  </nutch-conf>

其中的"<value>g:/nutch/localweb</value>"部分,应根据自己的设置进行相应修改,是nutch抓取结果存放目录。

启动Tomcat,打开浏览器在地址栏中输入:http://localhost:8080/,即可看见nutch的搜索页面。

至此,Nutch的简单配置完毕,接下来说说如何在eclipse中导入并调试Nutch,

请点击查看文章

Cygwin,Nutch安装配置,检验是否正确(对网友守望者博客的修改---在此感谢守望者)2相关推荐

  1. Cygwin,Nutch安装配置,检验是否正确(对网友守望者博客的修改---在此感谢守望者)4

    Cygwin,Nutch安装配置,检验是否正确(对网友守望者博客的修改---在此感谢守望者)1 Cygwin,Nutch安装配置,检验是否正确(对网友守望者博客的修改---在此感谢守望者)2 Cygw ...

  2. Cygwin,Nutch安装配置,检验是否正确(对网友守望者博客的修改---在此感谢守望者)3

    前言:作者(守望者MS)在实际搭建并开发Nutch的过程中参阅很多中文资料,但内容并不详尽且有错误,于是在此记录个人实战过程,纠正一些文章错误,以详细的过程展现一次简单的二次开发流程,为初学者降低门槛 ...

  3. Cygwin,Nutch安装配置,检验是否正确(对网友守望者博客的修改---在此感谢守望者)1

    前言:作者(守望者MS)在实际搭建并开发Nutch的过程中参阅很多中文资料,但内容并不详尽且有错误,于是在此记录个人实战过程,纠正一些文章错误,以详细的过程展现一次简单的二次开发流程,为初学者降低门槛 ...

  4. wordpress启动_如何通过7个简单步骤正确地启动WordPress博客(2020)

    wordpress启动 Do you want to start a WordPress blog the right way? We know that starting a blog can be ...

  5. ubuntu安装有道云笔记_Ubuntu 安装Node 10.16 跑 Nodeppt 加Hexo博客再来个为知笔记私有云...

    几个月前偶然看到NodePPT的霸气标语 U work so hard, but 干不过 write PPTs 当时觉得挺好玩的,后来在自己的Windows笔记本上安装了,效果也确实不错,但是在Ubu ...

  6. https 加端口_Ubuntu 安装Node 10.16 跑 Nodeppt 加Hexo博客再来个为知笔记私有云

    几个月前偶然看到NodePPT的霸气标语 U work so hard, but 干不过 write PPTs 当时觉得挺好玩的,后来在自己的Windows笔记本上安装了,效果也确实不错,但是在Ubu ...

  7. 运行eclipse.exe文件安装时弹出网页 【两牛博客--知足且坚定,温柔且上进】

    运行eclipse.exe文件安装时弹出网页 [两牛博客--知足且坚定,温柔且上进] 问题描述 问题分析 解决方案 问题描述 官网下载eclipse安装文件 官网下载地址:https://www.ec ...

  8. Jenkins+Maven+Git搭建持续集成和自动化部署的配置手记 - passover【毕成功的博客】 - 51CTO技术博客...

    Jenkins+Maven+Git搭建持续集成和自动化部署的配置手记 - passover[毕成功的博客] - 51CTO技术博客

  9. CLion:The C compiler identification is unknown, CMake Error;Cygwin的安装配置方法

    错误地方:File | Settings | Build, Execution, Deployment | Toolchains. 主要是CMake安装错误,导致无法进行调试 解决办法: 一. 自己下 ...

最新文章

  1. 俄称中国航空水平依然较低 歼11没有市场优势
  2. SmartDroid论文阅读
  3. 查看一个索mysql_如何查看MySQL索引
  4. python开发能做什么-python能做什么?是什么?
  5. 深入理解JVM之前端编译器(一)
  6. Android Studio打包程序时出现transformClassesWithDexForRelease错误
  7. 自适应注意力机制在Image Caption中的应用
  8. You C.A.N.大赛 解锁7大行业智能硬件创新密码
  9. flutter 国际化_从0开始设计Flutter独立APP | 第二篇: 完整的国际化语言支持
  10. java 获取所有带指定注解的类名_SXT DAY023 反射和注解
  11. php动态交叉表,PHP Array交叉表实现代码
  12. MFC中的CRect(区域)
  13. Opencv_HIGHGUI ERROR: V4L/V4L2: VIDIOC_S_CROP解决方案
  14. 121道分布式面试题和答案
  15. AVOD阅读笔记(一):摘要+特征提取----Aggregate View Obeject Detection network
  16. LOJ 6437 [PKUSC 2018] PKUSC
  17. 怎么去掉360导航页
  18. IDLE和java超级基础基本标准
  19. Android应用程序文件结构,Android项目文件及应用程序—目录结构详解
  20. Android 通过短信(H5)跳转到App指定页面

热门文章

  1. 基于数据接口文件读取的自动轨迹绘制
  2. VTK:创建字母频率的条形图用法实战
  3. wxWidgets:wxEventFilter类用法
  4. wxWidgets:wxChoice类用法
  5. boost::reverse相关的测试程序
  6. boost::callable_traits的remove_member_reference_t的测试程序
  7. Boost:ping的测试程序
  8. VTK:可视化之DistanceToCamera
  9. VTK:Utilities之CheckVTKVersion
  10. VTK:模型之MarchingCubes