一、引言:

最近在忙某个商业银行的项目,需要引入外部互联网数据作为参考,作为技术选型阶段的工作,之前已经确定了中文分词工具,下一个话题就是网络爬虫的选择,目标很明确,需要下载一些财经网站的新闻信息,然后进行文本计算。记得上一次碰爬虫还是5年前,时过境迁,不知道爬虫的世界里是否有了新的崛起。比较过一些之后,初步认定Heritrix基本能够满足需要,当然肯定是需要定制的了。

二、版本选择

Heritrix当前版本3.1.0,安装后发现,启动任务时,Windows平台有BDBOpen的错误(具体原因不详),Linux环境没有测试。度娘了一把,没啥实质性收获,如果从源码去看,又太费时间。就换到了3.0.5,这个版本也有问题,就是创建Job时,总是提示文件夹有问题,可以选择手动创建下载任务。操作界面如下图所示:

三、配置任务-手动

1.jobs目录下新建文件夹sohu;

2.拷贝模板文件profile-crawler-beans.cxml到sohu目录

3.重命名profile-crawler-beans.cxml文件为crawler-beans.cxml

4.手动修改文件crawler-beans.cxml,设置目标网站和存储方式:

复制代码代码如下:

# This Properties map is specified in the Java 'property list' text format

# http://java.sun.com/javase/6/docs/api/java/util/Properties.html#load%28java.io.Reader%29

metadata.operatorContactUrl=http://localhost

metadata.jobName=sohu

metadata.description=sohujingxuan

##..more?..##

# URLS HERE

http://t.sohu.com/jingxuan

http://localhost"/>

四、停用Robots检查

改造函数,禁用Robots协议检查,目的就不说了,改造方法如下:

复制代码代码如下:

private boolean considerRobotsPreconditions(CrawlURI curi) {

// treat /robots.txt fetches specially

//++zhangzl:取消robots.txt的强制限制

return false;

//--

  }

五、后续工作

1.定向下载改造:只下载目标内容,过滤无关信息。

2.自动解析改造:下载内容自动解析到指定目录,指定格式。

heritrix3 java_Windows配置heritrix3做网络爬虫开发实例相关推荐

  1. [Python3网络爬虫开发实战] 7-动态渲染页面爬取-4-使用Selenium爬取淘宝商品

    在前一章中,我们已经成功尝试分析Ajax来抓取相关数据,但是并不是所有页面都可以通过分析Ajax来完成抓取.比如,淘宝,它的整个页面数据确实也是通过Ajax获取的,但是这些Ajax接口参数比较复杂,可 ...

  2. 《Python3网络爬虫开发实战(第二版)》内容介绍

    这是「进击的Coder」的第 505 篇分享 作者:崔庆才 大家好,本节首先来预告下即将出版的<Python3网络爬虫开发实战(第二版)>的主要内容. 由于我已经把书的总体的内容介绍写在了 ...

  3. 《Python3网络爬虫开发实战》第二波抽奖赠书活动来了!

    嗨~ 给大家重磅推荐一本书!上市两月就已经重印 4 次的 Python 爬虫书!它就是由静觅博客博主崔庆才所作的<Python3网络爬虫开发实战>!!!同时文末还有抽奖赠书活动,不容错过! ...

  4. 《Python3网络爬虫开发实战》抽奖赠书活动

    这本书之前在公众号推荐过,这次庆才找到我想再帮忙宣传一下,如果你的爬虫还是徘徊在入门与放弃路上,这本书能给你一条指引. 上市两月就已经重印 4 次的 Python 爬虫书!它就是由静觅博客博主崔庆才所 ...

  5. 《Python3网络爬虫开发实战(第二版)》上市了!!!!

    " 阅读本文大概需要 5 分钟. " 告诉大家一个好消息:我的好朋友崔庆才老师的<Python3网络爬虫开发实战(第二版)>现在正式上市了!!!! 没错,就是这本: 就 ...

  6. Python之父推荐!《Python 3网络爬虫开发实战》第二版!文末送签名版!

    很多读者会让我写爬虫方面的书籍,我也一直没写,没写的原因主要有两个,第一个就是在爬虫方面我其实不是很擅长,第二个原因就是因为在爬虫领域庆才已经做的足够好了,我写不一定能写出庆才这水平的,所以也就一直没 ...

  7. 【Python3网络爬虫开发实战】4-解析库的使用-3 使用pyquery

    在上一节中,我们介绍了Beautiful Soup的用法,它是一个非常强大的网页解析库,你是否觉得它的一些方法用起来有点不适应?有没有觉得它的CSS选择器的功能没有那么强大? 如果你对Web有所涉及, ...

  8. 【Python3网络爬虫开发实战】 1.7-App爬取相关库的安装

    [摘要] 除了Web网页,爬虫也可以抓取App的数据.App中的页面要加载出来,首先需要获取数据,而这些数据一般是通过请求服务器的接口来获取的.由于App没有浏览器这种可以比较直观地看到后台请求的工具 ...

  9. python3网络爬虫开发实战pdf 崔庆才 百度网盘分享

    python3网络爬虫开发实战pdf 崔庆才 百度网盘分享 介绍了如何利用Python 3开发网络爬虫,环境配置和基础知识,然后讨论了urllib.requests.正则表达式.Beautiful S ...

最新文章

  1. tac rev cat命令使用范例
  2. nagios mysql php_nagios监控mysql
  3. 支付宝支付 第六集:生成支付二维码
  4. GARFIELD@07-12-2005 DILBERT
  5. Linux DISPLAY作用
  6. ordereddict有序字典
  7. 人群与网络:关系的平衡
  8. 研究生阅读管理文献---我阅读科研文献的一些做法
  9. MySQL 如何使用show processlist进行过滤
  10. webform如何接收前端的ajax数据,HttpWebResponse Post 前端控件数据,后台如何接收?...
  11. 运维工程师的主要工作职责
  12. the little schemer 笔记(8)
  13. python 还原九宫格图片_教你用python将图片变成九宫格,打造高逼格朋友圈九宫格图片...
  14. 柱状图、直方图、散点图、饼图讲解
  15. VASP学习笔记--简单的VASP运行实例:CrI3做非磁的优化
  16. jmeter压力测试工具,雪崩效应,容错组件Sentinel
  17. MSP430C语言编程技巧,如何提高MSP430 C语言编程效率
  18. 双模sa_NSA/SA双模5G基站才是通信运营商决胜未来的关键!
  19. 计算机原理及硬件,计算机原理及硬件介绍
  20. 久等了 Snoop Dogg 虚拟化身系列 NFT 来了

热门文章

  1. 一个简单的C语言计算器(当作复习C语言基础的一个小程序)
  2. Java、JSP基于web的运动会管理系统的设计与实现
  3. Qt 错误 The process was ended forcefully.
  4. 如何使用MATLAB生成一个FIR低通滤波器?
  5. HP Z420 工作站主板(X79 , C602)折腾笔记
  6. java2实用教程答案_Java-2实用教程(第5版)习题解答.doc
  7. uTools(工具集合)
  8. Adb 授权过程分析
  9. 通过WiFi进行adb调试(免去数据线烦扰)
  10. C++ isdigit() 的基本用法