Heritrix 1.14.4的配置和初次使用
2019独角兽企业重金招聘Python工程师标准>>>
刚刚进行了Heritrix的配置,参考了网上很多资料,最后终于配置成功。写下心得:
以下有些语句直接拷贝过来的,我只是把有问题的地方,修改一下。
新建Java Project工程
在Eclipse中新建一个Java Project工程,删除掉工程中的两个文件目录bin和src(后面会自动添加)。
向新建的Java Project添加Heritrix-1.14.4文件
将目录heritrix-1.14.4-src\src\java\下面的三个目录:org,com,st一起拷贝到新建工程目录下面。
将目录heritrix-1.14.4-src\src\conf\下面的:三个目录(包括:modules、profiles、selftest),以及四个文件(heritrix.properties、jmxremote.password.template、heritrix.cacerts、jndi.properties)一起拷贝到新建的工程目录下面。
将目录heritrix-1.14.4-src\src\resources\下面的三个文件,包括:arcMetaheaderBody.xsl等拷贝到新建的工程目录下,会弹出已存在,直接覆盖。
将目录heritrix-1.14.4\下面的webapps目录拷贝到新建工程目录下这里,webapps目录下面有两个WAR包(即admin.war和selftest.war)。
刷新工程右键单击工程,将heritrix-1.14.4\下的lib文件夹拷贝到工程下。然后将文件的路径加入工程中。
修改工程里class文件中的第3行和倒数第2行为
<classpathentry kind="src" path=""/>(此处将path后面的src改为空)
<classpathentry kind="output" path=""/>(修改同上)
修改heritrix.properties属性文件
修改heritrix.version=1.14.4,heritrix.jobsdir到抓取的数据存储的位置(默认的job),heritrix.cmdline.admin(admin:admin)登录账号密码,heritrix.cmdline.port(8888)运行的端口(此处要小心,首先确定你自己的8888端口未被占用,否则换其它的端口即可)。
上述一切修改完后,会出现sun.net.www.protocol.file.FileURLConnection的错误
这是因为是sun包是受保护的包,默认为只有sun公司的软件才能使用,进入Windows–Preferences—Java—Compiler—Errors/Warnings— Deprecated and trstricted API— Forbidden reference (access rules):— change to warning,对受保护的包使用warning即可。
运行package org.archive.crawler包中Heritrix.java文件即可完成配置
在浏览器中输入http://localhost:8888/即进入页面
使用:
(1) 登陆后,在导航栏选择”Jobs”,呈现的第一项是”Create New Job”,选择第四小项”With defaults”。输入项的前两项Name和Description随意,Seeds非常重要:http://www.163.com/ 注意最后一个反斜杠必须。
(2) 选择下边的”Modules”,进入Module配置页(Heritrix的扩展功能都是通过模块概念实现的,可以实现自己的模块完成自己想要的功能)。其中第一项 “Select Crawl Scope” 使用默认的 “org.archive.crawler.deciderules.DecidingScope”。倒数第三项 “Select Writers ” 删除默认的 “org.archive.crawler.writer.ARCWriterProcessor” ,后添加”org.archive.crawler.writer.MirrorWriterProcessor”,这样执行任务的时候抓取到的页面会以镜像的方式放在本地的目录结构中,而不是生成ARC存档文件。
(3) 选择”Modules”右边的”Submodules”,在第一项内容中 “crawl-order ->scope->decide-rules->rules” 删除掉其中的 “acceptIfTranscluded” (org.archive.crawler.deciderules.TransclusionDecideRule) 的这一项抓取作用域的规则。否则当Http请求返回301或者302时Heritrix会去抓取其他域下的网页。
(4) 在第二行导航栏中选择”Settings”进入Job的配置页面,其中主要修改两项:http-headers 下的user-agent 和 from:
user-agent主要是指运行Heritrix的用户的配置,即使用者的机器配置。首先是浏览器的选择,比如IE/7.0;其中 @VERSION@是指使用Heritrix的版本号,这里应该是1.14.4;最后面的PROJECT_URL_HERE是指本机地址:http://127.0.0.1。
from 改为自己的邮箱
(5) 在第二行导航栏中选择最右边的”Submit job”
(6) 在第一行导航栏中选择第一项的”Console”,点击”Start”,抓取任务正式开始,时间长短有网络状况和所抓取网站的深度有关。
转载于:https://my.oschina.net/xtfggef/blog/59427
Heritrix 1.14.4的配置和初次使用相关推荐
- Heritrix1.14.4安装配置和使用
学习研究heritrix已经有了一段时间了,想写一些博文,一来是方便以后自己查阅,二来和广大博友们分享交流,提高认识. 本系列文章所用环境:heritrix1.14.4 + myeclipse8.5 ...
- linux+4.4+android,Ubuntu 14.04 x64配置Android 4.4 kitkat编译环境的方法
Ubuntu 14.04 x64配置Android 4.4 kitkat编译环境的方法跟Ubuntu 12.04 - 13.10 以及jellybean编译环境配置没多大区别, 顺便记录下而已: 64 ...
- 如何在 Ubuntu 14.04 里面配置 chroot 环境
如何在 Ubuntu 14.04 里面配置 chroot 环境 你可能会有很多理由想要把一个应用.一个用户或者一个环境与你的 linux 系统隔离开来.不同的操作系统有不同的实现方式,而在 linux ...
- 锐捷文件描述错误linux,Kubuntu 14.10 MentoHUST 配置libpcap 锐捷校园网登录总结
KUbuntu 14.10 mentohust 配置libpcap 锐捷校园网登录总结 首先需要说明,mentohust 和锐捷一样,都依赖 libpcap 这个函数库. 而配置libpcap 前,需 ...
- AutoSAR系列讲解(深入篇)14.3-Mcal Dio配置
AutoSAR系列讲解(深入篇)14.3-Mcal Dio配置 Mcal Dio配置 一.Dio port配置 二.Dio pin配置 Mcal Dio配置 ->返回总目录<- 一.Dio ...
- CAS5.3.14安装、配置完全教程
1.生成keystore keytool是jdk自带的工具 keytool -genkey -v -alias zxl -keyalg RSA -keystore F:\DEVELOP\cas\key ...
- linux 14.04安装方法,Ubuntu 14.04 安装配置GNOME经典界面
Ubuntu 14.04上基本完美支持GNOME经典界面,安装配置步骤如下: 1. 安装gnome-session-flashback sudo apt-get install gnome-sessi ...
- 在 Ubuntu 14.04 中配置 PXE 服务器
PXE(预启动执行环境Preboot Execution Environment)服务器允许用户从网络中启动 Linux 发行版并且可以不需要 Linux ISO 镜像就能同时在数百台 PC 中安装. ...
- Ubuntu 14.04安装配置Calamari
操作系统安装 --省略-- 配置服务器信任 --省略-- Calamari服务端部署 1. 配置ubuntu默认仓库为阿里云镜像库 deb http://mirrors.aliyun.com/ubun ...
最新文章
- 通俗易懂的sys.argv[]的用法
- ABAP-在SMARTFORMS中取消使用WORD作为编辑器
- 部署:持续集成(CI)与持续交付(CD)——《微服务设计》读书笔记
- 用递归方式实现二叉树先序、中序、后序遍历
- 错误: 句法分析器6行里不能有多字节字符_字节跳动iOS客户端面经第一期
- 《第一行代码》学习笔记11-活动Activity(9)
- Struts2中的ModelDriven机制及其运用、refreshModelBeforeResult属性解决的问题
- innodb启动失败无法重启的处理方法
- quartus打开Simulator Tool生成网表进行功能仿真
- windows设置开机默认启动用户
- oeasy教您玩转linux-010110内容回顾
- 在没有中介平台比如Paypal/支付宝前提下,如何说服客户先付款?--猜疑链带来的思考
- ChatGPT Network Error 在使用chatGPT的过程中回答到一半显示网络错误
- 原生版本 电信卡HD语音通话记录没有显示为‘外拨的4G高清语音’仅显示为‘外拨的通话’
- excel公式不自动计算_公式 | Excel根据起止日期,自动计算每月的计息天数
- 在校外,如何免费下载知网上的文献论文的方法
- 如何让电脑带双显示屏,显示不同的内容
- 以《天天炫斗》的兴衰看动作类手游运营策略
- 用计算机写作集体备课,如何开展好中职计算机应用基础备课组活动
- C程序设计书本例题 求两整数之间最大值