本博客属原创文章,欢迎转载!转载请务必注明出处:http://guoyunsky.javaeye.com/blog/642618

       欢迎加入Heritrix群(QQ): 109148319 , 10447185(已满)  , Lucene/Solr群(QQ) :  11897272

每通过Heritrix运行一次抓取后,发现在该Job目录下就会有很多文件。这里说明下每个文件的作用,同时更主要介绍它的日志文件,因为我们可以通过日志文件发现Heritrix的抓取情况。首先贴个图:
 
        以上就是Heritrix完成的文件结构,现在一一说明

序号 文件名 说明
1 order.xml Heritrix运行的所有配置,一个order.xml就代表一个抓取任务
2 seeds.txt 种子文件,Heritrix从里面的URL开始抓取
3 state Heritrix采用BDB去保存URL,这个目录就是bdb目录
4 scratch 保存网页内容,每一个URL网页内容都对应一对ris和ros文件
5 logs 保存了Heritrix抓取时的日志,会这种介绍。可以从这些日志文件挖掘抓取情况
6 checkpoints 等同于数据库的checkpoint,Heritrix可以设置定时,然后定时备份其所有文件,也就是这里介绍的所有文件。同时在做这个操作的时候Heritrix暂停所有抓取.
7 seeds-report.txt 种子抓取汇报,主要针对seeds.txt里的种子URL做个说明。等下会详细说明...
8 responsecode-report.txt 抓取URL的服务器响应代码以及该代码的URL个数。等下会详细说明...
9 processors-report.txt 每个处理器的抓取报告,等下会详细说明
10 mimetype-report.txt 网页类型抓取汇报,等下会详细说明
11 frontier-report.txt 调度器处理报告,等下会详细说明
12 crawl-report.txt 抓取汇报,等下会详细说明
13 crawl-manifest.txt 里面包含了Heritrix涉及到的文件
14 hosts-report.txt 域抓取汇报,等下会详细说明

现在重点说明一下Heritrix的所有日志文件:

 1.抓取汇报文件:crawl-report.txt 
                    抓取名字:Crawl Name
                    抓取状态:Crawl Status
                    抓取用时:Duration Time
                    成功抓取的种子数:Total Seeds Crawled    
                    没有抓取的种子数:Total Seeds not Crawled 
                    共抓取的host个数:Total Hosts Crawled
                    共抓取的文档数(URL数):Total Documents Crawled
                    处理速度(文档/秒):Processed docs/sec
                    宽带速率(KB/秒):Bandwidth in Kbytes/sec
                    抓取的字节数:Total Raw Data Size in Bytes
                    共抓取的字节数:Novel Bytes: 11644599984 (11 GB)

2.调度器汇报:frontier-report.txt 
                   1)队列描述:
                             处理中队列:IN-PROCESS QUEUES
                             准备队列:READY QUEUES
                             延迟队列:SNOOZED QUEUES
                             不在活动状态队列:INACTIVE QUEUES
                             退休队列:RETIRED QUEUES
                   2)属性描述:
                              queue:队列ID,为class key
                              currentSize:当前队列包含URL个数
                              totalEnqueues:进入该队列的URL个数
                              sessionBalance:预算值
                              lastCost:上一个URL所花费成本
                              (averageCost):平均成本
                              lastDequeueTime:上一个URL出队列的时间 
                              wakeTime:醒来的时间 
                              totalSpend/totalBudget:总花费 
                              errorCount:出现错误的URL个数 
                              lastPeekUri:上一个获取的URL 
                             lastQueuedUri:上一个进入队列的URL

3.抓取host汇报(按urls个数从大到小排序):hosts-report.txt 
                  [#urls]:该host下URL个数
                  [#bytes]:该host下所抓取的字节数
                  [host]:host 
                  [#robots]:被爬虫协议拒绝的url个数
                  [#remaining]:剩下还未处理的URL个数

4.网页类型(一般为text/dns和text/html)抓取汇报:mimetype-report.txt 
                  [#urls]:该网页类型的url个数
                  [#bytes]:该网页类型一共处理的字节数
                  [mime-types]:网页类型(text/dns和text/html)

5.处理器汇报:processors-report.txt 
                 1)总体汇报:Processors report
                          Job being crawled:该JOB来源的JOB
                          Number of Processors:处理器个数,包括无效的处理器
                          NOTE:处理器说明
                 2)单个Processor汇报:
                          Processor:处理器名
                          Function:处理器功能
                          CrawlURIs handled:该处理器下处理的URL个数
                          Recovery retries:
                          Links extracted:抽取出来的URL个数

  6.Http response汇报:responsecode-report.txt 
                         [rescode]:Http response code
                                     1:请求http
                                     200:http成功相应
                                     302:暂时性重定向
                                     500:http服务器内部错误
                          [#urls]:是该code的URL个数

Heritrix源码分析(六) Heritrix的文件结构分析相关推荐

  1. heritrix源码分析(未完成。太长了!!)

    Heritrix源码分析(一) 包介绍  序号  包名                   说明 1 org.apache.commons.httpclient      封装了apache的http ...

  2. CloudCompare源码分析:读取ply文件

    CloudCompare源码分析_读取ply文件 写这些博客的原因,是因为打算好好研究一下点云的各种库的源码,其中比较知名的是PCL(point cloud library)和CC(CloudComp ...

  3. c++ 退出函数_UCOSIII源码分析之——bsp_os.c文件分析

    点击上方公众号名称关注,获得更多内容 ✎ 编 者 悟 语 对于坚持做的人来说,每一次的"如期而至",其实并不需要什么"期待",也没有什么"悬念&quo ...

  4. Django源码分析4:staticfiles静态文件处理中间件分析

    django源码分析 本文环境python3.5.2,django1.10.x系列1.在上一篇文章中已经分析过handler的处理过程,其中load_middleware就是将配置的中间件进行初始化, ...

  5. 【转】ABP源码分析六:依赖注入的实现

    ABP的依赖注入的实现有一个本质两个途径:1.本质上是依赖于Castle这个老牌依赖注入的框架.2.一种实现途径是通过实现IConventionalDependencyRegistrar的实例定义注入 ...

  6. motan源码分析六:客户端与服务器的通信层分析

    本章将分析motan的序列化和底层通信相关部分的代码. 1.在上一章中,有一个getrefers的操作,来获取所有服务器的引用,每个服务器的引用都是由DefaultRpcReferer来创建的 pub ...

  7. Heritrix源码分析(二) 配置文件order.xml介绍(转)

    本博客属原创文章,欢迎转载!转载请务必注明出处:http://guoyunsky.iteye.com/blog/613412      本博客已迁移到本人独立博客: http://www.yun5u. ...

  8. GCC源码分析(十三) — 机器描述文件

    版权声明:本文为CSDN博主「ashimida@」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明. 原文链接:https://blog.csdn.net/lidan1 ...

  9. php源码哪些文件是主程序,ThinkPHP源码分析之核心类文件的加载

    研究了下TP的加载机制,以下是我的一些总结: 1.首先由应用入口文件index.php引入TP入口文件ThinkPHP.php 2.ThinkPHP.php里主要是定义一些系统常量,URL模式定义,系 ...

最新文章

  1. boost::iterator_adaptor用法的测试程序
  2. 图像抠图Image Matting算法调研
  3. 使用Jquery提交Json格式的数据到Asp.net程序的另类做法
  4. JavaScript大杂烩4 - 理解JavaScript对象的继承机制
  5. 机智云获取树莓派传来的数据_哪些数据对云来说太冒险了?
  6. 最简单的CSocket通信流程
  7. html响应式布局平移,jQuery图片内部缩放和平移插件jquery.zoom.js
  8. 安装mujoco报错:distutils.errors.DistutilsExecError: command ‘gcc‘ failed with exit status 1
  9. Python 文件路径
  10. UA用Mode-Driven的使用笔记
  11. 计算机忘记网络,忘记密码后如何查看电脑无线网络密码
  12. 微信付款为什么无法连接服务器,前台微信付款报错:无法连接服务器,请检查网络连接?...
  13. 整合ssh时 犯的愚蠢问题
  14. 如何将文件打包到jar包里面
  15. 汉语拼音工具包相关实用方法
  16. StyleGAN3重磅发布!皮肤、毛发不再粘屏幕,还能360度旋转!英伟达最新开源
  17. [Mysql] 多表连接查询
  18. 大型仪器一般都是用计算机,问题:大型仪器一般都使用计算机进行控制,对该计算机除了在性能上能满足要求,在使用方面原则上有何要求。...
  19. CSU 1726: 你经历过绝望吗?两次!
  20. SDHC(高容量SD存储卡)

热门文章

  1. G20国家科技竞争力大盘点,中国科研创新表现突出,人工智能变道超车
  2. 人工智能的过去、现在和未来
  3. 王劲首度解析景驰:我们是跑得最快的无人驾驶公司
  4. 末日来临,你的编程语言能干嘛? | 每日趣闻
  5. 假如鲁迅是程序员......
  6. 支持大数据渲染下拉列表组件开发 SuperSelect(基于antd Select)
  7. Windows Server 2012正式版RDS系列⑤
  8. 0502-Hystrix保护应用-简介,使用,健康指标等
  9. Java生成XML文件与XML文件的写入
  10. 盘点2015跨境电商:硝烟下的机遇与变革