Heritrix项目介绍

Heritrix工程始于2003年初,IA的目的是开发一个特殊的爬虫,对网上的资源进行归档,建立网络数字图书馆。在过去的6年里,IA已经建立了400TB的数据。 IA期望他们的crawler包含以下几种:

宽带爬虫: 能够以更高的带宽去站点爬。

主题爬虫: 集中于被选择的问题。

持续爬虫: 不仅仅爬更当前的网页还负责爬日后更新的网页。

实验爬虫: 对爬虫技术进行实验,以决定该爬什么,以及对不同协议的爬虫 爬行结果进行分析的。

Heritrix工作原理

Heritrix是一个爬虫框架,可加如入一些可互换的组件。它的执行是递归进行的,主要有以下几步:

在预定的URI中选择一个。

获取URI

分析,归档结果

选择已经发现的感兴趣的URI。加入预定队列。

标记已经处理过的URI

Heritrix主要有三大部件:范围部件,边界部件,处理器链

范围部件: 主要按照规则决定将哪个URI入队。

边界部件: 跟踪哪个预定的URI将被收集,和已经被收集的URI,选择下一个 URI,剔除已经处理过的URI。

处理器链: 包含若干处理器获取URI,分析结果,将它们传回给边界部件

Heritrix的其余部件有:

WEB管理控制台: 大多数都是单机的WEB应用,内嵌JAVA HTTP 服务器。 操作者可以通过选择Crawler命令来操作控制台。

Crawler命令处理部件: 包含足够的信息创建要爬的URI。

Servercache(处理器缓存): 存放服务器的持久信息,能够被爬行部件随时查到,包括IP地址,历史记录,机器人策略。

处理器链:

预取链: 主要是做一些准备工作,例如,对处理进行延迟和重新处理,否决随后的操作。

提取链: 主要是获得资源,进行DNS转换,填写请求和响应表单

抽取链: 当提取完成时,抽取感兴趣的HTML,JavaScript,通常那里有新的也适合的URI,此时URI仅仅被发现,不会被评估

写链: 存储爬行结果,返回内容和抽取特性,过滤完存储。

提交链: 做最后的维护,例如,测试那些不在范围内的,提交给边 界部件

Heritrix 1.0.0包含以下关键特性:

用单个爬虫在多个独立的站点一直不断的进行递归的爬。

从一个提供的种子进行爬,收集站点内的精确URI,和精确主机。

主要部件都是高效的可扩展的

良好的配置,包括:

可设置输出日志,归档文件和临时文件的位置

可设置下载的最大字节,最大数量的下载文档,和最大的下载时间。

可设置工作线程数量。

可设置所利用的带宽的上界。

可在设置之后一定时间重新选择。

包含一些可设置的过滤机制,表达方式,URI路径深度选 择等等。

Heritrix的局限

单实例的爬虫,之间不能进行合作。

在有限的机器资源的情况下,却要复杂的操作。

只有官方支持,仅仅在Linux上进行了测试。

每个爬虫是单独进行工作的,没有对更新进行修订。

在硬件和系统失败时,恢复能力很差。

很少的时间用来优化性能。

爬虫信息

爬虫名称: Heritrix

爬行强度: 低

HTTP User Agent:

Mozilla/5.0 (compatible; heritrix/1.10.2 +http://www.my400800.cn /)

来访IP:171.64.75.233

对Heritrix爬虫进行控制

Heritrix被设计成严格遵循robots.txt文件的排除指示和META robots标签。

邀请Heritrix来访

如果你在在robots.txt中限制了部分爬虫,那么你可能需要在robots.txt中增加下述内容:

User-agent: Heritrix Disallow:

禁止Heritrix访问

如果你不希望Heritrix爬虫占用服务器资源,可以这样封锁它:

User-agent: Heritrix

Disallow: /

如果你仅仅不希望Heritrix爬行某些目录,则可以这样:

User-agent: Heritrix

Disallow: /somedir/

Heritrix 的架构示意图:

下面有一个heritrixProject.rar可以下来使用一些。。

运行org.archive.crawler.Heritrix 然后访问http://localhost:8080就可以了登入用户/密码为admin/admin

Heritrix和Nutch的差异:

Nutch 只获取并保存可索引的内容。Heritrix则是照单全收。力求保存页面原貌

Nutch 可以修剪内容,或者对内容格式进行转换。

Nutch 保存内容为数据库优化格式便于以后索引;刷新替换旧的内容。而Heritrix 是添加(追加)新的内容。

Nutch 从命令行运行、控制。Heritrix 有 Web 控制管理界面。

Nutch 的定制能力不够强,不过现在已经有了一定改进。Heritrix 可控制的参数更多。

Nutch 的架构示意图:

下面是Nucth的运行流程图:

其中nutch的抓取模块在编制索引保存到索引库之后就算完成。

另外一个图,可能需要在熟悉nutch之后才能看懂:

三个目录

首先理解nutch的三个数据目录:

1.crawdb ,linkdb 是web link目录,存放url 及url的互联关系,作为爬行与重新爬行的依据,页面默认30天过期。

2.segments 是主目录,存放抓回来的网页。页面内容有bytes[]的raw content 和 parsed text的形式。nutch以广度优先的原则来爬行,因此每爬完一轮会生成一个segment目录。

3.index 是lucene的索引目录,是indexs里所有index合并后的完整索引,注意索引文件只对页面内容进行索引,没有进行存储,因此查询时要去访问segments目录才能获得页面内容。

java heritrix_Heritrix 和 Nutch 比较与分析(java开源网络爬虫)相关推荐

  1. java 十六进制转十进制_JAVA知识-分析JAVA中的重点和难点

    Java中有很多内容在开发项目的过程中并不常用,但是却是很重要的部分,为了避免忘记,今天重新温习了一遍Java中的重点和难点,借此机会记录一下方便以后查找. 本文主要分为以下几个部分: 1.进制的相互 ...

  2. python网络爬虫权威指南 百度云-分析《Python网络爬虫权威指南第2版》PDF及代码...

    对那些没有学过编程的人来说,计算机编程看着就像变魔术.如果编程是魔术(magic),那么网页抓取(Web scraping)就是巫术(wizardry),也就是运用"魔术"来实现精 ...

  3. java 进程假死原因_分析java进程假死状况

    1 引言 1.1 编写目的 为了方便大家以后发现进程假死的时候能够正常的分析并且第一时间保留现场快照. 1.2编写背景 最近服务器发现tomcat的应用会偶尔出现无法访问的情况.经过一段时间的观察最近 ...

  4. java thread exit方法_实例分析Java终止线程和stop()方法

    Java终止线程实例和stop()方法源码阅读 了解线程 概念 线程 是程序中的执行线程.Java 虚拟机允许应用程序并发地运行多个执行线程. 线程特点 拥有状态,表示线程的状态,同一时刻中,JVM中 ...

  5. java jdbc(mysql)驱动源码分析,JAVA JDBC(MySQL)驱动源码分析(四)

    connect方法是java.sql.Driver接口中定义的方法,如果连接的数据库不同,那么为不同的数据库编写JDBC驱动将变得很灵活,实现Driver接口即可.连接数据库时首先得装载JDBC驱动, ...

  6. java编写的获取中国所有城市名称的网络爬虫

    package cn.com.crawler.utils;import java.io.BufferedReader; import java.io.IOException; import java. ...

  7. java线程内存溢出_Java常见问题分析(内存溢出、内存泄露、线程阻塞等)

    Java垃圾回收机制(GC) 1.1 GC机制作用 1.2 堆内存3代分布(年轻代.老年代.持久代) 1.3 GC分类 1.4 GC过程 Java应用内存问题分析 2.1 Java内存划分 2.2 J ...

  8. java毕业设计——基于java+Jsoup+HttpClient的网络爬虫技术的网络新闻分析系统设计与实现(毕业论文+程序源码)——网络新闻分析系统

    基于java+Jsoup+HttpClient的网络爬虫技术的网络新闻分析系统设计与实现(毕业论文+程序源码) 大家好,今天给大家介绍基于java+Jsoup+HttpClient的网络爬虫技术的网络 ...

  9. 揭秘Java网络爬虫程序原理

    随着互联网+时代的来临,越来越多的互联网企业层出不穷,涉及游戏.视频.新闻.社交.电商.房产.旅游等众多行业.如今互联网成为大量信息的载体,如何有效地从中提取有价值的信息并利用这些信息成为一个巨大的挑 ...

最新文章

  1. 压缩视频 html5播放,将HTML5视频呈现为Canvas正在压缩图像
  2. springboot_4 spring boot 使用servlet,filter,listener和interceptor
  3. [Asp.Net+C#]Datagrid使用技巧一(怎样灵活控制表头)
  4. 《avascript 高级程序设计(第三版)》 ---第三章 基本概念
  5. MySQL Cluster 4个数据节点压力测试--mysqlslap工具压400W写
  6. 汉诺塔 hanoi 如此简单
  7. 转载 3年工作经验 面试大厂
  8. 各个历史版本 cuda toolkit 下载链接
  9. .NET core ABP 获取远程IP地址
  10. 计算机拆机主板6个螺丝,iphone6主板拆机图解
  11. Linux打补丁遇到Hunk# succeeded at提示
  12. 推荐几个高质量图片网站,再也不怕没图装X了 1
  13. 【软件工程】软工视频(一)概论
  14. 三星手机大量死机!我反编译折腾半天后,发现竟然一个汉字引发的....
  15. java jpanel边框_JPanel设置边框
  16. 【密码学】C 语言实现 RSA 模幂运算
  17. Python有证书吗?python证书是什么级别的呢?怎么才能达到python证书的考试条件呢?
  18. 大学生简历个人优势怎么写? 有吸引力的简历制作要有重点
  19. logging日志写入文件
  20. torch.distributed.init_process_group(‘gloo’, init_method=‘file://tmp/somefile’, rank=0, world_size=1

热门文章

  1. 获取android设备唯一编号_android获取设备唯一标识完美解决方案的思考以及实现方式...
  2. win7系统64位系统怎么计算机配置,教你Ghost win7系统64位虚拟内存怎么设置最好
  3. 【机器学习】入门到实战笔记系列 | 西瓜书
  4. python 教程之如何使用python中的四分位距统计数据查找数据中的异常值
  5. Linux 命令(214)—— arpd 命令
  6. SpringBoot脚手架搭建及运用
  7. 分糖果游戏c语言程序设计,C语言实例 10个小孩分糖果
  8. 「ACM-ICPC基础算法」
  9. 浙江省c语言二级的笔试真题及答案,浙江省高等学校C语言二级----笔试部分真题2007-2010年.doc...
  10. 蹄疾步稳,勇毅笃行,小白的大学四年