在http://sourceforge.net/projects/archive-crawler/files/archive-crawler%20%28heritrix%201.x%29/1.14.4/下载heritrix, heritrix-1.14.4-src.zip 中包含原始的源代码,方便进行二次开发。本文需要用到 heritrix-1.14.4-src.zip,将其下载并解压至 heritrix-1.14.4-src 文件夹。

在 Eclipse 中的配置

首先在 Eclipse 中新建 Java 工程 MyHeritrix。然后利用下载的源代码包根据以下步骤来配置这个工程。

1. 导入类库

Heritrix 所用到的工具类库都在 heritrix-1.14.4-src\lib 目录下,需要将其导入 MyHeritrix 工程。

1)将 heritrix-1.14.4-src 下的 lib 文件夹拷贝到 MyHeritrix 项目根目录;

2)在 MyHeritrix 工程上右键单击选择“Build PathConfigure Build Path …”,然后选择 Library 选项卡,单击“Add JARs …”,如图 1 所示。

图 1. 导入类库 - 导入前

3)在弹出的“JAR Selection”对话框中选择 MyHeritrix 工程 lib 文件夹下所有的 jar 文件,然后点击 OK 按钮。如图 2 所示。

图 2. 选择类库

设置完成后如图 3 所示:

图 3. 导入类库 - 导入后

2. 拷贝源代码

1)将 heritrix-1.14.4-src\src\java 下的 com、org 和 st 三个文件夹拷贝进 MyHeritrix 工程的 src 下。这三个文件夹包含了运行 Heritrix 所必须的核心源代码;

2)将 heritrix-1.14.4-src\src\resources\org\archive\util 下的文件 tlds-alpha-by-domain.txt 拷贝到 MyHeritrix\src\org\archive\util 中。该文件是一个顶级域名列表,在 Heritrix 启动时会被读取;

3)将 heritrix-1.14.4-src\src 下 conf 文件夹拷贝至 Heritrix 工程根目录。它包含了 Heritrix 运行所需的配置文件;

4)将 heritrix-1.14.4-src\src 中的 webapps 文件夹拷贝至 Heritrix 工程根目录。该文件夹是用来提供 servlet 引擎的,包含了 Heritrix 的 web UI 文件。需要注意的是它不包含帮助文档,如果想使用帮助,可以将 heritrix-1.14.4.zip\docs 中的 articles 文件夹拷贝到 MyHeritrix\webapps\admin\docs(需新建 docs 文件夹)下。或直接用 heritrix-1.14.4.zip 的 webapps 文件夹替换 heritrix-1.14.4-src\src 中的 webapps 文件夹,缺点是这个是打包好的 .war 文件,无法修改源代码。

拷贝完毕后的 MyHeritrix 工程目录层次如图 4 所示。这里运行 Heritrix 所需的源代码等已经准备完备,下面需要修改配置文件并添加运行参数。

图 4. MyHeritrix 工程的目录层次

3. 修改配置文件

conf 文件夹是用来提供配置文件的,里面包含了一个很重要的文件:heritrix.properties。heritrix.properties 中配置了大量与 Heritrix 运行息息相关的参数,这些参数的配置决定了 Heritrix 运行时的一些默认工具类、Web UI 的启动参数,以及 Heritrix 的日志格式等。当第一次运行 Heritrix 时,只需要修改该文件,为其加入 Web UI 的用户名和密码。如图 5 所示,设置 heritrix.cmdline.admin = admin:admin,“admin:admin”分别为用户名和密码。然后设置版本参数为 1.14.4。

如果此时报错

Access restriction: The type FileURLConnection is not accessible due to restriction on required library C:\Program Files\Java\jre6\lib\rt.jar,解决方法为:
1. 右键工程选择Build Path ->configure build path...
2. 移除默认JRE System Library
3. 再点Add library,选择 "Add Library" ->worksapace default library

图 5. 设置登陆用户名和密码

4. 配置运行文件

在 MyHeritrix 工程上右键单击选择“Run AsRun Configurations”,确保 Main 选项卡中的 Project 和 Main class 选项内容正确,如图 6 所示。其中的 Name 参数可以设置为任何方便识别的名字。

图 6. 配置运行文件—设置工程和类

然后在 Classpath 页选择 UserEntries 选项,此时右边的 Advanced 按钮处于激活状态,点击它,在弹出的对话框中选择“Add Folders”,然后选择 MyHeritrix 工程下的 conf 文件夹。如图 7 所示。

图 7. 添加配置文件

至此我们的 MyHeritrix 工程已经可以运行起来了。下面我们来看看如何启动 Heritrix 并设置一个具体的抓取任务。

回页首

创建网页抓取任务

找到 org.archive.crawler 包中的 Heritrix.java 文件,它是 Heritrix 爬虫启动的入口,右键单击选择“Run AsJava Application”,如果配置正确,会在控制台输出如图 8 所示的启动信息。

图 8. 运行成功时控制台输出

在浏览器中输入 http://localhost:8080,会打开如图 9 所示的 Web UI 登录界面。

图 9. Heritrix 登录界面

输入之前设置的用户名 / 密码:admin/admin,进入到 Heritrix 的管理界面,如图 10 所示。因为我们还没有创建抓取任务,所以 Jobs 显示为 0。

图 10. Heritrix 控制台

Heritrix 使用 Web 用户界面来启动、设置爬行参数并监控爬行,简单直观,易于管理。下面我们以北京林业大学首页 (http://www.bjfu.edu.cn/) 为种子站点来创建一个抓取实例。

在 Jobs 页面创建一个新的抓取任务,如图 11 所示,可以创建四种任务类型。

图 11. 创建抓取任务

  • Based on existing job:以一个已经有的抓取任务为模板生成新的抓取任务。
  • Based on a recovery:在以前的某个任务中,可能设置过一些状态点,新的任务将从这个设置的状态点开始。
  • Based on a profile:专门为不同的任务设置了一些模板,新建的任务将按照模板来生成。
  • With defaults:这个最简单,表示按默认的配置来生成一个任务。

这里我们选择“With defaults”,然后输入任务相关信息,如图 12 所示。

图 12. 创建抓取任务“BJFU”

注意图 11 中下方的按钮,通过这些按钮可以对抓取工作进行详细的设置,这里我们只做一些必须的设置。

首先点击“Modules”按钮,在相应的页面为此次任务设置各个处理模块,一共有七项可配置的内容,这里我们只设置 Crawl Scope 和 Writers 两项,下面简要介绍各项的意义。

1)Select Crawl Scope:Crawl Scope 用于配置当前应该在什么范围内抓取网页链接。例如选择 BroadScope 则表示当前的抓取范围不受限制,选择 HostScope 则表示抓取的范围在当前的 Host 范围内。在这里我们选择 org.archive.crawler.scope.BroadScope,并单击右边的 Change 按钮保存设置状态。

2)Select URI Frontier:Frontier 是一个 URL 的处理器,它决定下一个被处理的 URL 是什么。同时,它还会将经由处理器链解析出来的 URL 加入到等待处理的队列中去。这里我们使用默认值。

3)Select Pre Processors:这个队列的处理器是用来对抓取时的一些先决条件进行判断。比如判断 robot.txt 信息等,它是整个处理器链的入口。这里我们使用默认值。

4)Select Fetchers:这个参数用于解析网络传输协议,比如解析 DNS、HTTP 或 FTP 等。这里我们使用默认值。

5)Select Extractors:主要是用于解析当前服务器返回的内容,取出页面中的 URL,等待下次继续抓取。这里我们使用默认值。

6)Select Writers:它主要用于设定将所抓取到的信息以何种形式写入磁盘。一种是采用压缩的方式(Arc),还有一种是镜像方式(Mirror)。这里我们选择简单直观的镜像方式:org.archive.crawler.writer.MirrorWriterProcessor。

7)Select Post Processors:这个参数主要用于抓取解析过程结束后的扫尾工作,比如将 Extrator 解析出来的 URL 有条件地加入到待处理的队列中去。这里我们使用默认值。

设置完毕后的效果如图 13:

图 13. 设置 Modules

设置完“Modules”后,点击“Settings”按钮,这里只需要设置 user-agent 和 from,其中:

  • “@VERSION@”字符串需要被替换成 Heritrix 的版本信息。
  • “PROJECT_URL_HERE”可以被替换成任何一个完整的 URL 地址。
  • “from”属性中不需要设置真实的 E-mail 地址,只要是格式正确的邮件地址就可以了。

对于各项参数的解释,可以点击参数前的问号查看。本次任务设置如图 14 所示。

图 14. 设置 Settings

完成上述设置后点击“Submit job”链接,然后回到 console 控制台,可以看到我们刚刚创建的任务处于 pending 状态,如图 15 所示。

图 15. 启动任务

点击“Start”启动任务,刷新一下即可看到抓取进度以及相关参数。同时可以暂停或终止抓取过程,如图 16 所示。需要注意的是,进度条的百分比数量并不是准确的,这个百分比是实际上已经处理的链接数和总共分析出的链接数的比值。随着抓取工作不断进行,这个百分比的数字也在不断变化。

图 16. 开始抓取

同时,在 MyHeritrix 工程目录下自动生成“jobs”文件夹,包含本次抓取任务。抓取下来网页以镜像方式存放,也就是将 URL 地址按“/”进行切分,进而按切分出来的层次存储。如图 17 所示。

图 17. 抓取到的网页

从图 17 也可以看出,因为我们选择了 BroadScope 的抓取范围,爬虫会抓取所有遇到的 URL,这样会造成 URL 队列无限制膨胀,无法终止,只能强行终止任务。尽管 Heritrix 也提供了一些抓取范围控制的类,但是根据实际测试经验,如果想要完全实现自己的抓取逻辑,仅仅靠 Heritrix 提供的抓取控制是不够的,只能修改扩展源代码。

Heritrix Eclipse下环境配置相关推荐

  1. eclipse下tomcat配置

    eclipse下tomcat配置整了我一两个小时,呵呵,大家不要笑话,本人对eclipse还是菜鸟! 1.用到的软件 jdk-7u40-windows-i586 EclipseJavaEEIDEfor ...

  2. Phonegap win7下环境配置流程

    2019独角兽企业重金招聘Python工程师标准>>> Phonegap  win7下环境配置流程 注意:phonegap的配置有很多种,我这个只是其中一种. 一.准备工作: 1.A ...

  3. eclipse java环境配置

    eclipse java环境配置 这次重装系统记下这些东西,方便以后 步骤大概如下: jdk,eclipse下载 jdk环境配置 eclipse安装 还是很简单的,emmmm jdk,eclipse下 ...

  4. android eclipse的环境配置

    前几天,公司让我把代码与别的公司的代码合并,我用的是android studio开发,而那个公司是用的eclipse开发,所以自己只好搭建eclipse的环境后,把修改的内容添加到eclipse工程, ...

  5. Eclipse字符集环境配置

    Eclipse字符集环境配置

  6. J2EE基础教程(1):简介和windows下环境配置

    (1)相关概念 我们以前在linux操作系统初级教程中,介绍过LAMP架构服务器技术.现在,我们来介绍J2EE. 通过J2EE开发的应用程序属于分布式多层应用程序,包括 (1)客户层:客户应用,web ...

  7. eclipse+tomcat环境配置

    在安装和配置之前,要做一下准备工作: 安装j2sdk+tomcat环境 下面主要说明如何在eclipse下安装tomcat调试环境. 所需要的文件有: eclipse-SDK-3.1M5a-win32 ...

  8. eclipse | JavaWeb环境配置+SpringMVC部署

    目录 一.前言 二.具体步骤 (一)Maven Project环境配置 1.Java环境配置 下载JDK1.8 配置Java的环境变量 2.eclipse下载 3.Tomcat的配置 下载tomcat ...

  9. YOLOX——Windows 10下环境配置

    前言 1.最近非常火的YOLOX,是旷视提出并开源新一代实时目标检测网络,具体的算法原理和性能可以转到github,想上手试试,如果是Linux话,可以按照官方文档给步骤一步步执行下去就可以了,是Wi ...

最新文章

  1. 【渝粤教育】国家开放大学2018年春季 0703-22T经济学基础 参考试题
  2. intel——5G的通信网络架构及平台
  3. vs2010中Calendar控件的一些使用
  4. vba 检查一个文件夹中的文件在另一个文件夹中是否存在(不含扩展名)
  5. 华为nova 8 Pro王者荣耀定制版曝光:内置小鲁班定制主题 电池盖镭雕小鲁班
  6. python pathlib
  7. LeetCode(897)——递增顺序查找树(JavaScript)
  8. xshell连接Linxu系统乱码
  9. 【易语言界面开发系列教程之(EX_UI使用系列教程(14)--EX组件(组合框))】
  10. 一张图看懂:左倾 右倾;左派 右派; 左翼 右翼
  11. PVE7.2 显示CPU温度和频率
  12. 海底捞激励员工的方法符合哪些激励理论的建议
  13. 2台无线路由器桥接,共享打印机
  14. Java - Js 谷歌浏览器(Chrome)调用Ie浏览器
  15. MySQL 行级锁(行锁、临键锁、间隙锁)
  16. SQL 中round(),floor(),ceiling()函数的用法和区别
  17. 轻量级模型设计与部署总结(关键字定义/架构理解/高效CNN)
  18. html页面放大缩小样式不变,网页缩小放大后错位的解决方法
  19. mac framework
  20. 2018-2019 20165226 Exp7 网络欺诈防范

热门文章

  1. qt 环境下mapx组件的鼠标跟踪
  2. 基于uniapp开发的ZEBRA(斑马) PDA使用广播扫码监听功能(文件配置+插件使用)
  3. TFS(Taobao File System)安装办法
  4. 记一次服务器被挖矿木马攻击的经历
  5. WannaMine挖矿木马手工处理-NetworkDistribution
  6. 爱可生云数据库管理平台助力车企开启创新云服务
  7. 通讯录管理系统 C语言课程设计实验报告
  8. JavaScript高级程序设计[第3版]
  9. (附源码)SSM校园一卡通管理系统JAVA计算机毕业设计项目
  10. Tp5.0完全开发手册学习(第八章 模型)