heritrix源码分析（未完成。太长了！！）

Heritrix源码分析(一) 包介绍
序号包名说明

1 org.apache.commons.httpclient 封装了apache的httpclient用于Fetch网页内容

2 org.apache.commons.httpclient.cookie 封装了apache的httpclient用于Fetch网页内容,这里主要处理Cookie

3 org.apache.commons.pool.impl 封装了apache的httpclient用于Fetch网页内容,还待研究

4 org.archive.crawler Heritrix程序运行的入口包,如Heritrix运行可以直接抓取

5 org.archive.crawler.admin Heritrix的管理包,比如CrawlJob表示一个抓取任务job,CrawlJobHandler管理JOB,以及日志统计等

6 org.archive.crawler.admin.ui 服务于UI管理界面,如Job参数的设置

7 org.archive.crawler.datamodel Heritrix的数据模型包,如在Heritrix中代表一个URL的CandidateURI
8 org.archive.crawler.datamodel.credential 管理Heritrix数据模型中的凭证,如抓取某些网站需要用户名和密码

9 org.archive.crawler.deciderules Heritrix的规则包,如决定哪些URL可以抓取可以调度

10 org.archive.crawler.deciderules.recrawl 还待研究,应该是决定哪些URL需要重新抓取

11 org.archive.crawler.event 事件管理,如Heritrix的暂停、重启、停止等
12 org.archive.crawler.extractor Heritrix的造血器,通过它抽取新的URL再次进行抓取

13 org.archive.crawler.fetcher Heritrix的获取包,如获取HTTP、DNS、FTP数据

14 org.archive.crawler.filter Heritrix的过滤器,如配合Rule过滤一些不要的URL

15 org.archive.crawler.framework Heritrix的框架包,存放一些核心类,一般是父类,如Heritrix控制类CrawlController;调度器类Frontier
16 org.archive.crawler.framework.exceptions Heritrix框架异常包,通常这里的异常抛出会导致Heritrix的停止
17 org.archive.crawler.frontier Heritrix的调度器,决定抓取哪个URL
18 org.archive.crawler.io Heritrix的IO格式包,感觉取名不合理,这里只是定义一些格式,如统计数据的格式,错误日志的格式
19 org.archive.crawler.postprocessor 辅助处理器包,感觉取名也不合理,这里只是对处理URL前后进行一些处理,如URL重定向
20 org.archive.crawler.prefetch Heritrix的预处理器包,如确定一个URL是否已经解析了DNS
21 org.archive.crawler.processor 还没接触到,待研究

22 org.archive.crawler.processor.recrawl 还没接触到,待研究
23 org.archive.crawler.scope Heritrix抓取范围管理,如种子 24 org.archive.crawler.selftest 管理Heritrix的Web工程self.war
25 org.archive.crawler.settings 管理Heritrix配置文件order.xml中的各项配置
26 org.archive.crawler.settings.refinements 管理Heritrix自己对数据格式的标准,如时间格式

27 org.archive.crawler.url 还没怎么接触到,待研究
28 org.archive.crawler.url.canonicalize Heritrix的URL规范化,用于规范每一个URL
29 org.archive.crawler.util Heritrix用于抓取的工具包,如BDB操作工具,IO操作工具

30 org.archive.crawler.writer Heritrix的下载包,用于将抓取的URL内容写入硬盘

31 org.archive.extractor 还没接触到,待研究
32 org.archive.httpclient Heritrix为结合httpclient量身打造的包,让自身更好的获取网页内容
33 org.archive.io Heritrix的IO包,自己封装的一些IO操作类

34 org.archive.io.arc 针对arc格式的IO操作包

35 org.archive.io.warc 针对warc格式的IO操作包
36 org.archive.net Heritrix扩展了java.net的包,主要扩展java.net.URI类

37 org.archive.net.md5 Heritrix对URL MD5加密包,所用不多,待研究

38 org.archive.net.rsync 还没接触到,待研究

39 org.archive.net.s3 还没接触到,待研究

40 org.archive.queue 还没接触到,待研究
41 org.archive.uid Heritrix ID管理,主要针对URI

42 org.archive.util 整个Heritrix的工具类

43 org.archive.util.anvl 还没接触到,待研究

44 org.archive.util.bdbje Heritrix对BDB的封装

45 org.archive.util.fingerprint 还没接触到,待研究

46 org.archive.util.iterator Heritrix自身封装的迭代器

47 org.archive.util.ms 还没接触到,待研究
48 st.ata.util 扩展的其他包,待研究

Heritrix自己的包有48个之多,还有它导入的第三方包也有30多个,可见其复杂性...

Heritrix源码分析(二) 配置文件order.xml介绍
order.xml是整个Heritrix的核心,里面的每个一个配置都关系到Heritrix的运行情况,没读源码之前我只能从有限的渠道去获知这些配置的运用.读完之后才知道Heritrix竟然有如此灵活的运用,如可以控制抓取速度,可以优化电脑性能,可以在某一次的抓取上继续抓取.当然整个order.xml里我也没有全部掌握,只知道大部分配置的作用,希望大家指点改正以及补充,谢谢！
1. <meta></meta> 代表着该抓取JOB的元素,相当于Html的meta Xml代码

1. <meta>
2. <name>myheritrix</name> 
3. <description>my heritrix</description> 
4. <operator>Admin</operator> 
5. <organization></organization> 
6. <audience></audience> 
7. <date>20090520051654</date>

Xml代码

1. </meta>

2.<controller></controller> 跟抓取有关的所有参数,由于内容较多,并且Heritrix也已将他们分成不同模块，所以这里我也将他们拆分来说明.

Xml代码

1. <controller>
2. <string name="settings-directory">settings</string>

3. <string name="disk-path"></string>

4. <string name="logs-path">logs</string>
5. <string name="checkpoints-path">checkpoints</string>
6. <string name="state-path">state</string> 
7. <string name="scratch-path">scratch</string> 
8. <long name="max-bytes-download">0</long> 
9. <long name="max-document-download">0</long> 
10. <long name="max-time-sec">0</long> 
11. <integer name="max-toe-threads">30</integer>

12. <integer name="recorder-out-buffer-bytes">4096</integer> 
13. <integer name="recorder-in-buffer-bytes">65536</integer> 
14. <integer name="bdb-cache-percent">0</integer> 
15. <newObject name="scope" class="org.archive.crawler.deciderules.DecidingScope">

16. </newObject>
17. <map name="http-headers">

18. </map>

19. <newObject name="robots-honoring-policy" class="org.archive.crawler.datamodel.RobotsHon
oringPolicy">

20. </newObject>
21. <newObject name="frontier" class="org.archive.crawler.frontier.BdbFrontier">

24. </map>
25. <map name="pre-fetch-processors">  26. </map>
27. <map name="fetch-processors">

28. </map>
29. <map name="extract-processors">

30. </map>
31. <map name="write-processors">

32. </map>
33. <map name="post-processors">

34. </map>
35. <map name="loggers">

36. </map>
37. <newObject name="credential-store" class="org.archive.crawler.datamodel.CredentialStore">

38. </newObject>

39. </controller>
3.接下来拆分每个组件的配置文件一一进行说明，最后对Heritrix主要的配置也就是我们可以影响抓取的配置进行说明。
3.1：抓取范围<newObject name="scope" class="org.archive.crawler.deciderules.DecidingScope"> Xml代码

1. <newObject name="scope" class="org.archive.crawler.deciderules.DecidingScope">
2. <boolean name="enabled">false</boolean>

3. <string name="seedsfile">seeds.txt</string> 
4. <boolean name="reread-seeds-on-config">true</boolean> 
5. <newObject name="decide-rules" class="org.archive.crawler.deciderules.DecideRuleSequ
ence">

6. <map name="rules">
7. <newObject name="rejectByDefault" class="org.archive.crawler.deciderules.RejectDeci
deRule">

8. </newObject>
9. <newObject name="acceptIfSurtPrefixed" class="org.archive.crawler.deciderules.SurtPr
efixedDecideRule">
10. <string name="decision">ACCEPT</string> 
11. <string name="surts-source-file"></string> 
12. <boolean name="seeds-as-surt-prefixes">true</boolean> 
13. <string name="surts-dump-file"></string> 
14. <boolean name="also-check-via">false</boolean>
15. <boolean name="rebuild-on-reconfig">true</boolean>
16. </newObject>
17. <newObject name="rejectIfTooManyHops" class="org.archive.crawler.deciderules.Too
ManyHopsDecideRule">
18. <integer name="max-hops">20</integer>

19. </newObject>
20. <newObject name="acceptIfTranscluded" class="org.archive.crawler.deciderules.Trans
clusionDecideRule">
21. <integer name="max-trans-hops">3</integer>
22. <integer name="max-speculative-hops">1</integer>

23. </newObject>
24. <newObject name="rejectIfPathological" class="org.archive.crawler.deciderules.Patholo
gicalPathDecideRule">
25. <integer name="max-repetitions">2</integer>

26. </newObject>

27. <newObject name="rejectIfTooManyPathSegs" class="org.archive.crawler.deciderules.
TooManyPathSegmentsDecideRule">
28. <integer name="max-path-depth">20</integer> 29. </newObject>
30. <newObject name="acceptIfPrerequisite" class="org.archive.crawler.deciderules.Prereq
uisiteAcceptDecideRule"> 31. </newObject> 32. </map> 33. </newObject> 34. </newObject>
3.2： HTTP协议<map name="http-headers"> Xml代码

1. <map name="http-headers"> 2. <string name="user-agent">Mozilla/5.0 (compatible; heritrix/1.14.3 +http://127.0.0.1)</stri
ng>
3. <string name="from">guoyunsky@hotmail.com</string> 4. </map>
3.3：爬虫协议 <newObject name="robots-honoring-policy" class="org.archive.crawler.datamodel.RobotsHonoringPolicy"> Xml代码

1. <newObject name="robots-honoring-policy" class="org.archive.crawler.datamodel.RobotsHon
oringPolicy">
2. <string name="type">classic</string> 
3. <boolean name="masquerade">false</boolean>

4. <text name="custom-robots"></text>

5. <stringList name="user-agents">  6. </stringList> 7. </newObject>
3.4：Frontier 调度器<newObject name="frontier" class="org.archive.crawler.frontier.BdbFrontier"> Xml代码

1. <newObject name="frontier" class="org.archive.crawler.frontier.BdbFrontier">
2. <float name="delay-factor">4.0</float>
3. <integer name="max-delay-ms">20000</integer>

4. <integer name="min-delay-ms">2000</integer>

5. <integer name="respect-crawl-delay-up-to-secs">300</integer>
6. <integer name="max-retries">30</integer>
7. <long name="retry-delay-seconds">900</long>
8. <integer name="preference-embed-hops">1</integer>

9. <integer name="total-bandwidth-usage-KB-sec">0</integer>
10. <integer name="max-per-host-bandwidth-usage-KB-sec">0</integer>
11. <string name="queue-assignment-policy">org.archive.crawler.frontier.HostnameQueueAs
signmentPolicy</string>
12. <string name="force-queue-assignment"></string>

13. <boolean name="pause-at-start">false</boolean>
14. <boolean name="pause-at-finish">false</boolean>
15. <boolean name="source-tag-seeds">false</boolean>
16. <boolean name="recovery-log-enabled">true</boolean>
17. <boolean name="hold-queues">true</boolean>
18. <integer name="balance-replenish-amount">3000</integer>

19. <integer name="error-penalty-amount">100</integer>

20. <long name="queue-total-budget">-1</long>
21. <string name="cost-policy">org.archive.crawler.frontier.ZeroCostAssignmentPolicy</strin
g>

22. <long name="snooze-deactivate-ms">300000</long>
23. <integer name="target-ready-backlog">50</integer>

24. <string name="uri-included-structure">org.archive.crawler.util.BdbUriUniqFilter</string>
25. <boolean name="dump-pending-at-close">false</boolean>

26. </newObject>
3.5：URL规范化规则，主要用来规范化每个URL，用Heritrix默认的就好了，这里不做说明了，其实也是通过各种规则
3.6：预先处理链组件: <map name="pre-fetch-processors"> Xml代码

1. <map name="pre-fetch-processors"> 
2. <newObject name="Preselector" class="org.archive.crawler.prefetch.Preselector">
3. <boolean name="enabled">true</boolean>
4. <newObject name="Preselector#decide-rules" class="org.archive.crawler.deciderules.De
cideRuleSequence">

5. <map name="rules">

6. </map>

7. </newObject>
8. <boolean name="override-logger">false</boolean>
9. <boolean name="recheck-scope">true</boolean>
10. <boolean name="block-all">false</boolean>
11. <string name="block-by-regexp"></string>
12. <string name="allow-by-regexp"></string>

13. </newObject>
14. <newObject name="Preprocessor" class="org.archive.crawler.prefetch.PreconditionEnforc
er">
15. <boolean name="enabled">true</boolean>
16. <newObject name="Preprocessor#decide-rules" class="org.archive.crawler.deciderules.
DecideRuleSequence">

17. <map name="rules">

18. </map>

19. </newObject>
20. <integer name="ip-validity-duration-seconds">86400</integer>

21. <integer name="robot-validity-duration-seconds">86400</integer>
22. <boolean name="calculate-robots-only">false</boolean>

23. </newObject>

24. </map>

heritrix源码分析（未完成。太长了！！）相关推荐

Heritrix源码分析(二) 配置文件order.xml介绍（转）
本博客属原创文章,欢迎转载!转载请务必注明出处:http://guoyunsky.iteye.com/blog/613412 本博客已迁移到本人独立博客: http://www.yun5u. ...
Heritrix源码分析(六) Heritrix的文件结构分析
本博客属原创文章,欢迎转载!转载请务必注明出处:http://guoyunsky.javaeye.com/blog/642618 欢迎加入Heritrix群(QQ): 109148319 ...
MyBatis 源码分析系列文章合集
1.简介我从七月份开始阅读MyBatis源码,并在随后的40天内陆续更新了7篇文章.起初,我只是打算通过博客的形式进行分享.但在写作的过程中,发现要分析的代码太多,以至于文章篇幅特别大.在这7篇文章 ...
MyBatis 源码分析 - 映射文件解析过程
1.简介在上一篇文章中,我详细分析了 MyBatis 配置文件的解析过程.由于上一篇文章的篇幅比较大,加之映射文件解析过程也比较复杂的原因.所以我将映射文件解析过程的分析内容从上一篇文章中抽取出来, ...
axios从入门到源码分析 -http-xhr
axios从入门到源码分析 1 HTTP相关 1.1.MDN文档 https://developer.mozilla.org/zh-CN/docs/Web/HTTP/Overview 1.2. HTT ...
SRS4.0源码分析-CMake
本文采用的 SRS 版本是 4.0-b8 , 下载地址:github <SRS4.0源码分析-调试环境搭建> 讲了 SRS 在 Clion 里面的调试,本文主要讲解 srs-4.0-b8\ ...
详细讲解：RocketMQ的限时订单实战与RocketMQ的源码分析！
目录一.限时订单实战 1.1.什么是限时订单 1.2.如何实现限时订单 1.2.1.限时订单的流程 1.2.2.限时订单实现的关键 1.2.3.轮询数据库? 1.2.4.Java 本身的提供的解决方 ...
Yolov3Yolov4网络结构与源码分析
Yolov3&Yolov4网络结构与源码分析从2018年Yolov3年提出的两年后,在原作者声名放弃更新Yolo算法后,俄罗斯的Alexey大神扛起了Yolov4的大旗. 文章目录论文汇总 ...
EOS智能合约：system系统合约源码分析
链客,专为开发者而生,有问必答! 此文章来自区块链技术社区,未经允许拒绝转载. eosio.system 概览笔者使用的IDE是VScode,首先来看eosio.system的源码结构.如下图所示. ...

heritrix源码分析（未完成。太长了！！）

heritrix源码分析（未完成。太长了！！）相关推荐

最新文章

热门文章