Heritrix源码分析(六) Heritrix的文件结构分析
本博客属原创文章,欢迎转载!转载请务必注明出处:http://guoyunsky.javaeye.com/blog/642618
欢迎加入Heritrix群(QQ): 109148319 , 10447185(已满) , Lucene/Solr群(QQ) : 11897272
每通过Heritrix运行一次抓取后,发现在该Job目录下就会有很多文件。这里说明下每个文件的作用,同时更主要介绍它的日志文件,因为我们可以通过日志文件发现Heritrix的抓取情况。首先贴个图:
以上就是Heritrix完成的文件结构,现在一一说明
序号 | 文件名 | 说明 |
1 | order.xml | Heritrix运行的所有配置,一个order.xml就代表一个抓取任务 |
2 | seeds.txt | 种子文件,Heritrix从里面的URL开始抓取 |
3 | state | Heritrix采用BDB去保存URL,这个目录就是bdb目录 |
4 | scratch | 保存网页内容,每一个URL网页内容都对应一对ris和ros文件 |
5 | logs | 保存了Heritrix抓取时的日志,会这种介绍。可以从这些日志文件挖掘抓取情况 |
6 | checkpoints | 等同于数据库的checkpoint,Heritrix可以设置定时,然后定时备份其所有文件,也就是这里介绍的所有文件。同时在做这个操作的时候Heritrix暂停所有抓取. |
7 | seeds-report.txt | 种子抓取汇报,主要针对seeds.txt里的种子URL做个说明。等下会详细说明... |
8 | responsecode-report.txt | 抓取URL的服务器响应代码以及该代码的URL个数。等下会详细说明... |
9 | processors-report.txt | 每个处理器的抓取报告,等下会详细说明 |
10 | mimetype-report.txt | 网页类型抓取汇报,等下会详细说明 |
11 | frontier-report.txt | 调度器处理报告,等下会详细说明 |
12 | crawl-report.txt | 抓取汇报,等下会详细说明 |
13 | crawl-manifest.txt | 里面包含了Heritrix涉及到的文件 |
14 | hosts-report.txt | 域抓取汇报,等下会详细说明 |
现在重点说明一下Heritrix的所有日志文件:
1.抓取汇报文件:crawl-report.txt
抓取名字:Crawl Name
抓取状态:Crawl Status
抓取用时:Duration Time
成功抓取的种子数:Total Seeds Crawled
没有抓取的种子数:Total Seeds not Crawled
共抓取的host个数:Total Hosts Crawled
共抓取的文档数(URL数):Total Documents Crawled
处理速度(文档/秒):Processed docs/sec
宽带速率(KB/秒):Bandwidth in Kbytes/sec
抓取的字节数:Total Raw Data Size in Bytes
共抓取的字节数:Novel Bytes: 11644599984 (11 GB)
2.调度器汇报:frontier-report.txt
1)队列描述:
处理中队列:IN-PROCESS QUEUES
准备队列:READY QUEUES
延迟队列:SNOOZED QUEUES
不在活动状态队列:INACTIVE QUEUES
退休队列:RETIRED QUEUES
2)属性描述:
queue:队列ID,为class key
currentSize:当前队列包含URL个数
totalEnqueues:进入该队列的URL个数
sessionBalance:预算值
lastCost:上一个URL所花费成本
(averageCost):平均成本
lastDequeueTime:上一个URL出队列的时间
wakeTime:醒来的时间
totalSpend/totalBudget:总花费
errorCount:出现错误的URL个数
lastPeekUri:上一个获取的URL
lastQueuedUri:上一个进入队列的URL
3.抓取host汇报(按urls个数从大到小排序):hosts-report.txt
[#urls]:该host下URL个数
[#bytes]:该host下所抓取的字节数
[host]:host
[#robots]:被爬虫协议拒绝的url个数
[#remaining]:剩下还未处理的URL个数
4.网页类型(一般为text/dns和text/html)抓取汇报:mimetype-report.txt
[#urls]:该网页类型的url个数
[#bytes]:该网页类型一共处理的字节数
[mime-types]:网页类型(text/dns和text/html)
5.处理器汇报:processors-report.txt
1)总体汇报:Processors report
Job being crawled:该JOB来源的JOB
Number of Processors:处理器个数,包括无效的处理器
NOTE:处理器说明
2)单个Processor汇报:
Processor:处理器名
Function:处理器功能
CrawlURIs handled:该处理器下处理的URL个数
Recovery retries:
Links extracted:抽取出来的URL个数
6.Http response汇报:responsecode-report.txt
[rescode]:Http response code
1:请求http
200:http成功相应
302:暂时性重定向
500:http服务器内部错误
[#urls]:是该code的URL个数
Heritrix源码分析(六) Heritrix的文件结构分析相关推荐
- heritrix源码分析(未完成。太长了!!)
Heritrix源码分析(一) 包介绍 序号 包名 说明 1 org.apache.commons.httpclient 封装了apache的http ...
- CloudCompare源码分析:读取ply文件
CloudCompare源码分析_读取ply文件 写这些博客的原因,是因为打算好好研究一下点云的各种库的源码,其中比较知名的是PCL(point cloud library)和CC(CloudComp ...
- c++ 退出函数_UCOSIII源码分析之——bsp_os.c文件分析
点击上方公众号名称关注,获得更多内容 ✎ 编 者 悟 语 对于坚持做的人来说,每一次的"如期而至",其实并不需要什么"期待",也没有什么"悬念&quo ...
- Django源码分析4:staticfiles静态文件处理中间件分析
django源码分析 本文环境python3.5.2,django1.10.x系列1.在上一篇文章中已经分析过handler的处理过程,其中load_middleware就是将配置的中间件进行初始化, ...
- 【转】ABP源码分析六:依赖注入的实现
ABP的依赖注入的实现有一个本质两个途径:1.本质上是依赖于Castle这个老牌依赖注入的框架.2.一种实现途径是通过实现IConventionalDependencyRegistrar的实例定义注入 ...
- motan源码分析六:客户端与服务器的通信层分析
本章将分析motan的序列化和底层通信相关部分的代码. 1.在上一章中,有一个getrefers的操作,来获取所有服务器的引用,每个服务器的引用都是由DefaultRpcReferer来创建的 pub ...
- Heritrix源码分析(二) 配置文件order.xml介绍(转)
本博客属原创文章,欢迎转载!转载请务必注明出处:http://guoyunsky.iteye.com/blog/613412 本博客已迁移到本人独立博客: http://www.yun5u. ...
- GCC源码分析(十三) — 机器描述文件
版权声明:本文为CSDN博主「ashimida@」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明. 原文链接:https://blog.csdn.net/lidan1 ...
- php源码哪些文件是主程序,ThinkPHP源码分析之核心类文件的加载
研究了下TP的加载机制,以下是我的一些总结: 1.首先由应用入口文件index.php引入TP入口文件ThinkPHP.php 2.ThinkPHP.php里主要是定义一些系统常量,URL模式定义,系 ...
最新文章
- boost::iterator_adaptor用法的测试程序
- 图像抠图Image Matting算法调研
- 使用Jquery提交Json格式的数据到Asp.net程序的另类做法
- JavaScript大杂烩4 - 理解JavaScript对象的继承机制
- 机智云获取树莓派传来的数据_哪些数据对云来说太冒险了?
- 最简单的CSocket通信流程
- html响应式布局平移,jQuery图片内部缩放和平移插件jquery.zoom.js
- 安装mujoco报错:distutils.errors.DistutilsExecError: command ‘gcc‘ failed with exit status 1
- Python 文件路径
- UA用Mode-Driven的使用笔记
- 计算机忘记网络,忘记密码后如何查看电脑无线网络密码
- 微信付款为什么无法连接服务器,前台微信付款报错:无法连接服务器,请检查网络连接?...
- 整合ssh时 犯的愚蠢问题
- 如何将文件打包到jar包里面
- 汉语拼音工具包相关实用方法
- StyleGAN3重磅发布!皮肤、毛发不再粘屏幕,还能360度旋转!英伟达最新开源
- [Mysql] 多表连接查询
- 大型仪器一般都是用计算机,问题:大型仪器一般都使用计算机进行控制,对该计算机除了在性能上能满足要求,在使用方面原则上有何要求。...
- CSU 1726: 你经历过绝望吗?两次!
- SDHC(高容量SD存储卡)
热门文章
- G20国家科技竞争力大盘点,中国科研创新表现突出,人工智能变道超车
- 人工智能的过去、现在和未来
- 王劲首度解析景驰:我们是跑得最快的无人驾驶公司
- 末日来临,你的编程语言能干嘛? | 每日趣闻
- 假如鲁迅是程序员......
- 支持大数据渲染下拉列表组件开发 SuperSelect(基于antd Select)
- Windows Server 2012正式版RDS系列⑤
- 0502-Hystrix保护应用-简介,使用,健康指标等
- Java生成XML文件与XML文件的写入
- 盘点2015跨境电商:硝烟下的机遇与变革