强大的网络爬虫框架--Heritrix:基于多线程的高效率的网络爬虫框架。

第一部分:介绍Heritrix的基本使用(首先需要从Heritrix的官网上下载相应的项目)

1.导入jar包 需要注意在项目根目录下添加lib文件夹,然后将相关联的jar包添加进去
2.拷贝源代码 src-java con/org/st运行Heritrix所必需的核心代码,拷贝到项目MyHeritrix目录下
    src\resources\org\archive\util util-tids-alpha-domain.txt顶级域名列表拷贝到MyHeritrix\src\org\archive\util中
    src-conf文件夹 运行Heritrix运行所需的配置文件,拷贝到MyHeritrix根目录下
    src-webapps文件夹  提供servlet引擎的,包含了Heritrix的Web UI文件,拷贝到MyHeritrix根目录下
如果想使用帮助,可以将heritrix-1.14.4.zip/docs中的articles文件夹拷贝到MyHeritrix\webapps\admin\docs(需新建docs文件夹)下。
3.修改配置文件(heritrix.properties)
heritrix.cmdline.admin = admin:admin设置用户名/密码
heritrix.version = 1.14.4设置版本参数
4.运行配置文件(配置运行的工程)
5启动MyHeritrix服务 启动入口程序:MyHeritrix.java
6.进入登录界面 http://localhost:8080
7.进入Heritrix控制台
创建抓取任务 job(http://www.bjfu.edu.cn/为入口)(Queue/ExtractLink/FileDownloader)
Modules 设置处理模块
设置Settings
启动任务 (Start-启动任务)

第二部分:拓展自己的网页抓取逻辑
1.介绍Heritrix架构和URL处力链
2拓展FrontierScheduler 重写schedule()
3.在modules文件夹中的Processor.options中添加一行“org.archive.crawler.postprocessor.FrontierSchedulerForBjfu|FrontierSchedulerForBjfu”
4.在WebUI中选择拓展的org.archive.crawler.postprocessor.FrontierSchedulerForBjfu选项

Heritrix的介绍与使用相关推荐

  1. heritrix 基本介绍

    Heritrix使用小结 1.   Heritrix 简介 Heritrix是一个专门为互联网上的网页进行存档而开发的网页检索器.它使用Java编写并且完全开源.它主要的用户界面可以通过一个web流量 ...

  2. heritrix 3.2.0 -- 环境搭建

    heritrix作为一个比较经典的开源爬虫,写这篇文章目的是因为,3.X之后的heritrix的介绍以及配置的文章比较少了. heritrix 3.x 以后使用maven 2配置jar包引用,但是总是 ...

  3. 垂直搜索引擎一》前言与需求分析

    1前言 1.1 课题研究的背景 互联网特别是移动互联网的高速发展,网上信息急剧增长,传统的搜索引擎十分适合大众搜索,但是面向特定领域的搜索时,就会有心无力.并且传统搜索引擎采集网页是饥饿扫描式爬虫,难 ...

  4. java heritrix_Heritrix 和 Nutch 比较与分析(java开源网络爬虫)

    Heritrix项目介绍 Heritrix工程始于2003年初,IA的目的是开发一个特殊的爬虫,对网上的资源进行归档,建立网络数字图书馆.在过去的6年里,IA已经建立了400TB的数据. IA期望他们 ...

  5. heritrix3 java_heritrix 3.2.0 详解 1 -- 环境搭建

    heritrix作为一个比较经典的开源爬虫,写这篇文章目的是因为,3.X之后的heritrix的介绍以及配置的文章比较少了. heritrix 3.x 以后使用maven 2配置jar包引用,但是总是 ...

  6. 【Heritrix基础教程之2】Heritrix基本内容介绍

    1.版本说明 (1)最新版本:3.3.0 (2)最新release版本:3.2.0 (3)重要历史版本:1.14.4 3.1.0及之前的版本:http://sourceforge.net/projec ...

  7. Heritrix的order.xml详细介绍

    order.xml是整个Heritrix的核心,里面的每个一个配置都关系到Heritrix的运行情况,没读源码之前我只能从有限的渠道去获知这些配置的运用.读完之后才知道Heritrix竟然有如此灵活的 ...

  8. Heritrix源码分析(二) 配置文件order.xml介绍(转)

    本博客属原创文章,欢迎转载!转载请务必注明出处:http://guoyunsky.iteye.com/blog/613412      本博客已迁移到本人独立博客: http://www.yun5u. ...

  9. Heritrix源码分析(六) Heritrix的文件结构分析

    本博客属原创文章,欢迎转载!转载请务必注明出处:http://guoyunsky.javaeye.com/blog/642618        欢迎加入Heritrix群(QQ): 109148319 ...

最新文章

  1. DIY机器人?硬件创新也是潮流
  2. Jasperreport导出pdf内容展示不完全处理
  3. 浅谈跨平台框架 Flutter 的优势与结构
  4. pythonsort函数时间复杂度_合并排序算法——时间复杂度详解和python代码实现
  5. qt调用Linux脚本范例,QT下实现对Linux Shell调用的几种方法
  6. 电脑计算器_教训!19年中级败给了电脑计算器,CPA难道要步后尘?
  7. 卸载网易邮箱大师邮件从服务器删除,如何卸载网易邮箱大师 网易邮箱大师卸载教程...
  8. pyserial查看串口
  9. 吉他调音器(1)之十二平均律
  10. 魔兽名字显示服务器,魔兽世界怀旧服服务器名称
  11. 如何构建面向IT性能的运维组织
  12. php循环读取excel每个单元格,php使用PHPexcel类读取excel文件(循环读取每个单元格的数据)...
  13. java lang arithmetic_java.lang.ArithmeticException: Rounding necessary
  14. python四级是什么水平_英语四级相当于什么水平?
  15. echart横轴文字显示省略号_Echarts X轴内容过长自动隐藏,鼠标移动上去显示全部名称方法...
  16. 实现球体碰撞,使用这个库就够了
  17. 小学生都能读懂的区块链原理和术语介绍(故事图文)-引自《从零开始自己动手写区块链》
  18. 『每周译Go』Go sync map 的内部实现
  19. 一位资深数据人对数据挖掘的深度解读
  20. 基础编程题目集 函数题部分

热门文章

  1. 一个精明主妇写的省钱过日子的好贴!
  2. java 输出素数_java 素数(按要求输出)
  3. Java毕设:基于SSM的高校运动会管理系统(spring+spring mvc+mybatis+mysql)1008
  4. openCV、C++处理影像的五种方法(Wallis、直方图、xy拉伸、翻转、旋转)
  5. MySQL 中 NULL 导致唯一键失效
  6. qt 环境下mapx组件的鼠标跟踪
  7. 安装软件提示写入失败解决方案
  8. 新化学物质持久性、生物累积性和毒性的判定及登记要求..
  9. Elastic 7.5 安装和升级指南(官方翻译)
  10. c语言课程设计 学生成绩管理系统