本文讲如何安装和使用 Heritrix 最新的 3.1.0 版
下载地址:
http://sourceforge.net/projects/archive-crawler/files/heritrix3/3.1.0/
1.在cmd下面进入Heritrix的bin目录下
输入heritrix -a admin:admin,弹出新窗口,新窗口中运行heritrix
如果不能正常启动可能是端口被占用
2.浏览中输入https://localhost:8443/
提示输入用户名 和 密码 分别是 admin admin
注:有些浏览器可能无法访问,认为是不安全的url需做特殊设置 比如IE ,本人是采用Google浏览器
得到界面如下

第一个输入框中写入任意Job名称,如sohu
第二个输入框如填写一个已存在的作业目录的路径,如果不写则默认存储在bin目录下的jobs文件夹下(不需填写)
3.点击create后,在任务列表中能看到新建的任务:

4.点击”sohu”任务:

crawler-beans.cxml是配置本次抓取任务的配置文件
5.点击edit:
修改配置文件中的内容后,点击左上角的”save change”保存本次修改
需修改以下几处
如果不能修改可以直接到目录下修改配置文件
E:\work\lucene+heritrix\heritrix-3.1.0\bin\jobs\lagou\crawler-beans.cxml
第一处:
第一个参数:operatorContactUrl 可以填写你的ip或者写成 http://localhost
第二个参数: jobName 任务名称
第三个参数:description 任务描述
metadata.operatorContactUrl=http://localhost
metadata.jobName=sohu
metadata.description=Basic crawl starting with useful defaults

第二处:

URLS HERE

https://www.lagou.com/
配置搜索种子网站的列表本案例从搜狐新闻抓取网页
第三处:

此处配置和第一处保持一致
这三个地方配置好,点击最上面的“Save changes”保存所有的配置文件,就可以运行这个抓取任务了
返回到任务控制页面让任务运行起来:

1)点击“build”编译当前的配置。
2)点击“launch”按钮运行当前任务至挂起状态,如果job已经运行,则先点击“teardown”按钮停止任务;
3)这时任务处于挂起状态(刷新以下页面,否则unpause不可点击),点击“unpause”即立即启动任务。

4)pause 暂停任务
5)terminate 终止任务
在D:\heritrix-3.1.0\bin\jobs\sohu\20161225024940\warcs目录下有一个逐步增大的文件,这就是抓取下来的网页,此文件无法查看每个网页的内容
如果要看到每个抓取的页面,可以将配置文件的warcWriter这个bean的class改为org.archive.modules.writer.MirrorWriterProcessor,这样就下载的网页是以镜像文件的形式保存在,一般存放在项目根目录下的mirror目录下

Heritrix3.1.1使用教程相关推荐

  1. java爬虫:Heritrix教程

    Heritrix3.0.0在2009年底发布,但资料甚少.我这里就先抛砖引用,以前也分析过Heritrix1.4.3,但只是源码,不系统.这里就系统的介绍Heritrix的使用,源码分析和借鉴.先介绍 ...

  2. 使用Docker搭建svn服务器教程

    使用Docker搭建svn服务器教程 svn简介 SVN是Subversion的简称,是一个开放源代码的版本控制系统,相较于RCS.CVS,它采用了分支管理系统,它的设计目标就是取代CVS.互联网上很 ...

  3. mysql修改校对集_MySQL 教程之校对集问题

    本篇文章主要给大家介绍mysql中的校对集问题,希望对需要的朋友有所帮助! 推荐参考教程:<mysql教程> 校对集问题 校对集,其实就是数据的比较方式. 校对集,共有三种,分别为:_bi ...

  4. mysql备份psb文件怎么打开_Navicat for MySQL 数据备份教程

    原标题:Navicat for MySQL 数据备份教程 一个安全和可靠的服务器与定期运行备份有密切的关系,因为错误有可能随时发生,由攻击.硬件故障.人为错误.电力中断等都会照成数据丢失.备份功能为防 ...

  5. php rabbmq教程_RabbitMQ+PHP 教程一(Hello World)

    介绍 RabbitMQ是一个消息代理器:它接受和转发消息.你可以把它当作一个邮局:当你把邮件放在信箱里时,你可以肯定邮差先生最终会把邮件送到你的收件人那里.在这个比喻中,RabbitMQ就是这里的邮箱 ...

  6. 【置顶】利用 NLP 技术做简单数据可视化分析教程(实战)

    置顶 本人决定将过去一段时间在公司以及日常生活中关于自然语言处理的相关技术积累,将在gitbook做一个简单分享,内容应该会很丰富,希望对你有所帮助,欢迎大家支持. 内容介绍如下 你是否曾经在租房时因 ...

  7. Google Colab 免费GPU服务器使用教程 挂载云端硬盘

    一.前言 二.Google Colab特征 三.开始使用 3.1在谷歌云盘上创建文件夹 3.2创建Colaboratory 3.3创建完成 四.设置GPU运行 五.运行.py文件 5.1安装必要库 5 ...

  8. 理解和实现分布式TensorFlow集群完整教程

    手把手教你搭建分布式集群,进入生产环境的TensorFlow 分布式TensorFlow简介 前一篇<分布式TensorFlow集群local server使用详解>我们介绍了分布式Ten ...

  9. 高级教程: 作出动态决策和 Bi-LSTM CRF 重点

    https://www.zhihu.com/question/35866596 条件随机场 CRF(条件随机场)与Viterbi(维特比)算法原理详解 https://blog.csdn.net/qq ...

最新文章

  1. 新年新技术:MongoDB 3.0
  2. mysql删除表命令_MySQL创建和删除表操作命令实例讲解
  3. 使用powerdesigner设计类图并生成代码
  4. 不知所措:您是否真的需要为您的API提供客户端库?
  5. C#算法设计排序篇之08-计数排序(附带动画演示程序)
  6. 色 彩 RGB 值 对 照 表
  7. 奇虎360 2017校招笔试题
  8. dede首页调用全站tag
  9. MATLAB矩阵与阵列
  10. smartgit官方下载地址
  11. OOALV中字段设置ALV中下拉列表列的实现
  12. awk,gawk,mawk,nawk的重定向笔记221107
  13. xdoj 1192: 锘爷考驾照
  14. linux磁盘空间被占满,但是找不到大文件
  15. am572x时钟配置
  16. 用python玩转数据第一周答案_用Python玩转数据_答案
  17. IT运维不再被动防御 反击黑客从这开始
  18. Windows下使用VS Code编译和构建LoRaWan开源节点代码
  19. 三未信安再度亮相美国RSA 大会
  20. IGBT选型和设计注意事项

热门文章

  1. 解决Sql server数据库不兼容问题
  2. 多元多项式除法python_python中多项式的除法
  3. 关于MAC安装包文件损坏解决办法
  4. 无人零售货柜并入行业变革版图,带来智能化提升和消费升级
  5. 『网络安全』蜜罐到蜜网入门指南(三)蜜罐内部组成分析
  6. 阻塞状态和等待状态的区别
  7. SQL-Server 零基础入门教程[上]
  8. springboot(三):连接mysql数据库
  9. 将Excel数据导入SQL数据库
  10. matlab仿真技术与应用 pdf,《MATLAB仿真技术与应用教程》.pdf