[转] eclipse中配置heritrix的图文过程----heritrix-1.14.3

JAVA   2009-10-03 21:02   阅读46   评论0  
字号: 大  中  小

关于搜索引擎书籍中国目前比较少,有过这方面了解的朋友一般都看过2007年人民邮电出版 lucene 2.0+heritrix 这本书吧。本人感觉还不错,理论知识较少点,具体步骤还比较详细。适合初学者。

简单介绍下heritrix: heritrix 是Java编写的开源爬虫。 扩展性比较好,但是配置适合的采集规则,比较复杂难理解。适合学习和研究。

此书中的heritrix在eclipse中的配置写的不够详细,我把自己成功的配置贡献给大家。

<1>首先要去官网下载最新版本的heritrix。下载地址为:

http://sourceforge.net/project/showfiles.php?group_id=73833&package_id=73980

选择文件注意为zip后缀格式的,gz格式为linux下文件。

选择这两个文件heritrix-1.14.3-src.zip   heritrix-1.14.3.zip 下载。

<2>

把下载好的文件解压。

<3>

配置过程:

1、新建Java Project工程

在Eclipse中新建一个Java Project工程(注意:一定是Java Project的工程,不是Web Project工程),工程名称为Heritrixproject。(名字可随便起)

以我的为例,对应地,工程Heritrixproject在本地磁盘目录D:\eclipse-SDK-3.2.1-win32\workspace下面。

可以在目录D:\eclipse-SDK-3.2.1-win32\workspace\Heritrixproject下面看到:两个工程属性文件.classpath和.project、两个文件目录bin和src。

删除掉两个文件目录bin和src。

2、向新建的Java Project添加Heritrix-1.14.3文件

(1) 将目录E:\Heritrix\heritrix-1.14.3-src\heritrix-1.14.3\src\java\下面的三个目录:org、com、st一起拷贝到新建工程Heritrixproject目录下面(绝对路径为D:\eclipse-SDK-3.2.1-win32\workspace\Heritrixproject)。

(2) 将目录E:\Heritrix\heritrix-1.14.3-src\heritrix-1.14.3\src\conf\下面的:三个目录(包括:modules、profiles、selftest),以及四个文件(包括:heritrix.properties、jmxremote.password.template、heritrix.cacerts、jndi.properties)一起拷贝到新建的工程Heritrixproject目录下面。

(3) 将目录E:\Heritrix\heritrix-1.14.3-src\heritrix-1.14.3\src\resources\下面的三个文件(包括:arcMetaheaderBody.xsl、README.txt,其中README.txt没有用处是显而易见的)拷贝到新建的工程Heritrixproject目录下。

(4) 将目录E:\Heritrix\heritrix-1.14.3\heritrix-1.14.3\下面的webapps目录拷贝到新建工程Heritrixproject目录下面(绝对路径为D:\eclipse-SDK-3.2.1-win32\workspace\Heritrixproject),这里,webapps目录下面有两个WAR包(即admin.war和selftest.war)。

(5)将E:\Heritrix\heritrix-1.14.3\heritrix-1.14.3\下的lib文件夹拷贝到工程下。

3、修改新建的Java Project工程的配置文件

(1) 打开目录D:\eclipse-SDK-3.2.1-win32\workspace\Heritrixproject下面的.classpath文件,可以看到共有下面6行:

<?xml version="1.0" encoding="UTF-8"?>

<classpath>

<classpathentry kind="src" path="src"/>

<classpathentry kind="con" path="org.eclipse.jdt.launching.JRE_CONTAINER"/>

<classpathentry kind="output" path="bin"/>

</classpath>

可以看到,新建Java Project工程之后,src是资源目录,所以在Eclipse开发平台上,在src下面新建的资源目录呈包结构组织。kind属性指定工程中显示的资源目录,path指定了在该path(Eclipse默认为src)下的资源目录都呈包结构组织。

将上面的内容做很大的修改,修改内容如下所示:(注意:这个地方里面的lib下的jar就是拷贝到工程下lib里面的jar。如果你用的最新版本的可能与这个jar文件不一样,这个你就要做相应的修。此时的最新版本为heritrix-1.14.3)

<?xml version="1.0" encoding="UTF-8"?>

<classpath>

<classpathentry kind="src" path=""/>

<classpathentry kind="con" path="org.eclipse.jdt.launching.JRE_CONTAINER"/>

<classpathentry kind="lib" path="lib/ant-1.6.2.jar"/>

<classpathentry kind="lib" path="lib/bsh-2.0b4.jar"/>

<classpathentry kind="lib" path="lib/commons-cli-1.0.jar"/>

<classpathentry kind="lib" path="lib/commons-codec-1.3.jar"/>

<classpathentry kind="lib" path="lib/commons-collections-3.1.jar"/>

<classpathentry kind="lib" path="lib/commons-httpclient-3.1.jar"/>

<classpathentry kind="lib" path="lib/commons-lang-2.3.jar"/>

<classpathentry kind="lib" path="lib/commons-logging-1.0.4.jar"/>

<classpathentry kind="lib" path="lib/commons-net-1.4.1.jar"/>

<classpathentry kind="lib" path="lib/commons-pool-1.3.jar"/>

<classpathentry kind="lib" path="lib/dnsjava-2.0.3.jar"/>

<classpathentry kind="lib" path="lib/fastutil-5.0.3-heritrix-subset-1.0.jar"/>

<classpathentry kind="lib" path="lib/itext-1.2.0.jar"/>

<classpathentry kind="lib" path="lib/jasper-compiler-tomcat-4.1.30.jar"/>

<classpathentry kind="lib" path="lib/jasper-runtime-tomcat-4.1.30.jar"/>

<classpathentry kind="lib" path="lib/javaswf-CVS-SNAPSHOT-1.jar"/>

<classpathentry kind="lib" path="lib/je-3.3.75.jar"/>

<classpathentry kind="lib" path="lib/jetty-4.2.23.jar"/>

<classpathentry kind="lib" path="lib/junit-3.8.2.jar"/>

<classpathentry kind="lib" path="lib/libidn-0.5.9.jar"/>

<classpathentry kind="lib" path="lib/mg4j-1.0.1.jar"/>

<classpathentry kind="lib" path="lib/poi-2.0-RC1-20031102.jar"/>

<classpathentry kind="lib" path="lib/poi-scratchpad-2.0-RC1-20031102.jar"/>

<classpathentry kind="lib" path="lib/servlet-tomcat-4.1.30.jar"/>

<classpathentry kind="output" path=""/>

</classpath>

其中:

上面的<classpathentry kind="src" path=""/>中,指定src为"",这表示,只要在该工程的根目录下面建的目录资源都呈现表结构组织;

上面的kind为lib,对应的就是我们拷贝到工程目录下面的lib,path的值就是该lib目录下面的所有的jar文件。

4.配置外部jar包,

切换到eclipse窗口下,刷新下工程。

右键单击工程,选择【Build Path】—> 【Add External Archives】在弹出的窗口中选择添加目录heritrix-1.12.1-src\heritrix-1.12.1\lib。

再次刷新下工程。没有错误提示了。

5、修改heritrix.properties属性文件

打开heritrix.properties属性文件,可以看到默认情况下,Heritrix-1.14.3的属性文件如下所示:

##############################################################################

# H E R I T R I X P R O P E R T I E S

##############################################################################

# Properties with 'heritrix.' or 'org.archive.crawler.' prefix get loaded

# into System.properties on startup so available via System.getProperties.

# Version is filled in by the maven.xml pregoal. It copies here the project

# currentVersion property.

heritrix.version = @VERSION@

# Location of the heritrix jobs directory.

heritrix.jobsdir = jobs

# Default commandline startup values.

# Below values are used if unspecified on the command line.

heritrix.cmdline.admin =

heritrix.cmdline.port = 8080

heritrix.cmdline.run = false

heritrix.cmdline.nowui = false

heritrix.cmdline.order =

heritrix.cmdline.jmxserver = false

heritrix.cmdline.jmxserver.port = 8081

上面四行红色标识的代码行,一般来说,需要修改。

第一行,heritrix.version指定了Heritrix的版本号,因为我们测试的是版本号为1.14.3,修改为:

heritrix.version = 1.14.3

第二行,heritrix.jobsdir指定了Heritrix在执行抓取任务时,抓取到的内容存放的目录,默认在工程下面的jobs目录下面。

第三行,heritrix.cmdline.admin指定了登录WebUI时使用的帐号,默认为空,可以自己随意设定,设定需要按照一定的格式(用户名:密码),我们修改为:

heritrix.cmdline.admin = admin:admin

其中,用户名和密码使用“:”分隔。

第四行,heritrix.cmdline.port指定了运行Heritrix后台程序,监听的WebUI使用的端口号,默认为8080端口,可以设置一个当前没有占用的端口号,比如我们修改为:

heritrix.cmdline.port = 9090

、启动Heritrix后台程序

回到Eclipse平台窗口,找到新建的Java Project工程Heritrixproject中,资源包org.archive.crawler下面的Java类文件Heritrix.java,右键单击Heritrix.java文件,选择【Run As】—> 【Java Application】选项,便看见Heritrix后台已经启动了,在Eclipse控制台【Console】中可以看到启动过程的详细信息,如下所示:

7、登录WebUI

现在,可以成功登录WebUI,设置抓取任务了。

在浏览器地址栏中键入地址链接 http://localhost:9090,可以看到WebUI登录界面.

至此heritrix的配置就完成了,以后就要开始抓起信息,后面我还会把heritrix的抓取配置分享给大家。

转载于:https://www.cnblogs.com/tankzhouqiang/archive/2009/11/04/1968355.html

eclipse中配置heritrix1.14.3相关推荐

  1. Maven安装与配置(最实用!!!)eclipse中配置maven

    Maven安装与配置 一.需要准备的东西 JDK Eclipse(本章主要是在eclipse中进行配置maven) Maven程序包 二.下载与安装 1. 前往maven下载最新版的Maven程序: ...

  2. eclipse中配置SVN

    eclipse中配置SVN eclipse中配置SVN 1.先安装一个Subclipse,地址:http://subclipse.tigris.org/ 2.可以通过Eclipse的Update Si ...

  3. Eclipse中配置Tomcat

    Eclipse中配置Tomcat 1.在Eclipse中[New]-[Other] 2.选择[Server]点击[Next] 3.选择须要的Tomact:然后点击[Add] 4.点击[Browse]选 ...

  4. 查看源代码Source not found及在eclipse中配置jdk的src.zip源代码

    查看源代码Source not found及在eclipse中配置jdk的src.zip源代码 https://blog.csdn.net/tuke_tuke/article/details/5154 ...

  5. eclipse中配置tomcat之后指定项目部署的目录

    2019独角兽企业重金招聘Python工程师标准>>> 在eclipse中配置tomcat之后,默认情况下部署项目是将项目部署到eclipse自带的tomcat上,除非自己手动指定, ...

  6. eclipse中配置Maven仓库

    一.解压下载好的Maven核心程序到非中文的文件夹中 二.配置Maven环境变量 1.配置maven之前必须有jdk的环境: 2.配置M2_HOME 新建M2_HOME变量: 配置path的值 3.配 ...

  7. 【图文讲解】eclipse中配置maven环境+导入maven项目

    1.检测eclipse是否有maven环境 打开import对话窗输入maven,如果下面红色方框里有东西可以跳过下一步的elipse中配置maven环境,如果方框里没有东西,按照下一步在eclips ...

  8. eclipse中配置Tomcat,并进行简单测试

    eclipse中配置tomcat 第一步打开eclipse并找到windows下的Preferences 然后再搜索框输入server 点击runtime,,, 然后点击ADD 选择对应版本然后fin ...

  9. eclipse中配置c++开发环境 Eclipse + CDT + MinGW

    转自eclipse中配置c++开发环境 Eclipse + CDT + MinGW 基本框架:Eclipse + CDT + MinGW 背景知识: CDT:CDT 是完全用 Java 实现的开放源码 ...

最新文章

  1. Mysql中对table的操作问题
  2. 关于时间差查询的一个小技巧
  3. ubyntu 链接mysql_ubuntu mysql 的安装、配置、简单使用,navicat 连接
  4. 图解python_图解Python深拷贝和浅拷贝
  5. CMOS图像传感器——TDI CIS
  6. OAuth 2.1 的进化之路
  7. ubuntu自定义分辨率
  8. 鸟哥的Linux私房菜学习笔记(三)
  9. 无偏移谷歌瓦片地址_下载谷歌高清无偏移卫星地图
  10. cc2530单片机的内核是什么_一位15年经验的老司机教你学习单片机
  11. 软件调试高级研习班庐山秀峰站(2017-06)
  12. HCIP H12-223 题库
  13. 机器自动翻译古文拼音 - 十大宋词 - 水调歌头 明月几时有 苏轼
  14. GNS3安装过程(详细)
  15. 解决nohup java -jar xxx.jar报出[1]+ Exit 1的错误:Unable to access jarfile xxx.jar和PersistenceException异常
  16. 5, excel vba 修改单元格里的数据
  17. 【数字信号】基于DTMF双音多频电话拨号仿真(电话号码归属地匹配功附matlab代码...
  18. vue 启动没有不支持ip,只能localhost
  19. npm与包之包管理配置文件
  20. 爱乐影音光盘管理大师 v3.38 免费下载

热门文章

  1. 不受支持的SQL类型1111
  2. java 文件追加 变大_用java写在doc中追加内容代码时,为什么它只能写入一次内容,后面都只是增加文件的大小,不增加内容啊?...
  3. Anaconda和conda——关于python的数据科学开发环境,数据科学必备的十大Python库
  4. 【CSP201312-4】有趣的数(数位DP)
  5. NYOJ105 - 九的余数
  6. java中位于集合框架顶层位置的是,CoreJava第二次内测有答案
  7. SSM之SpringMVC框架
  8. 计算机组成原理—DRAM的刷新
  9. 计算机组成原理—算数逻辑单元
  10. 动态规划---01背包问题--Dp(详解附代码)