heritrix是一个开源的java爬虫框架。这里简单介绍linux下heritrix的运行配置以及如何在后台自己的程序中调用heritrix程序爬指定的网站。

=========== heritrix的配置及运行 ============

关于heritrix的安装、配置及WEBUI运行网上介绍比较多,详细请看:

这里稍作介绍:

首先将下好的heritrix后解包,修改./conf下的jmxremote.password.template文件到上级目录并改名为jmxremote.password。

修改jmxremote.password文件中的monitorRole与controlRole字段,后面指定用户名与密码(也就是webui的用户名与密码)。配置完后执行heritrix。

1 ./heritrix --admin=XXXX:XXXX

这里完了会提示web console的地址以及登陆的用户名及密码。登陆后即可开始进行网站的爬取工作。

=========== order.xml文件介绍 =============

为了能在后台调用heritrix程序,首先需要了解下order.xml文件。这个文件配置了heritrix的一次爬行job的相关参数,具体每个参数的意义请看:

这些值是heritrix生成的各种文件(有可能你的程序会用到这些文件),这里传入的可以是相对路径也可以是绝对路径。

这个是你要爬取的存放网站网址的文件路径。这个文件里的内容是每行一个网址。

=========== 后台调用 ==============

在自己的程序里调用heritrix程序爬取我们需要的步骤分为两步,首先生成我们的order.xml文件,指定我们的seedsfile,以及各path节点的路径。接着利用系统调用

heritrix -n order.xml

既可以在自己的程序中使用heritrix进行爬取操作了。

=========== 其他 =================

heritrix爬取网站的时间相对还是挺长的,这里给出一位网友的相关参数设置可以优化爬取速度:

===========over==================

算是对自己的研究heritrix的一点小的总结。

heritrix mysql_heritrix的简单使用以及在后台调用heritrix相关推荐

  1. php后台登录,简单的PHP数据后台实现用户登录,php后台用户登录

    简单的PHP数据后台实现用户登录,php后台用户登录 最近在写iOS一个小项目,用到了登录,所以用SAE搭了个简易的纯数据后台.PHP语句入门很简单,但是结合SQL就有点难度了.(代码都是SAE平台运 ...

  2. heritrix mysql_Heritrix使用小结

    1.Heritrix 简介 Heritrix是一个专门为互联网上的网页进行存档而开发的网页检索器.它使用Java编写并且完全开源.它主要的用户界面可以通过一个web流量器来访问并通过它来控制检索器的行 ...

  3. 微信公众平台之超简单实用的天气预报后台实现

    微信公众平台之超简单实用的天气预报后台实现 概述,前段时间我在开发一个自己的微信公众平台,需要实现天气预报功能,在网上度娘了下,实现天气预报的接口API还蛮多的,有:中国气象局.雅虎和新浪等,中国天气 ...

  4. 一个简单好用的后台框架模板

    一个无刷新的简单好用的后台框架模板 下载地址:https://www.lmcjl.com/index/javascript/jqueryview?id=39 里面还有很多的模板与工具,希望可以帮助到您

  5. js调用后台方法与后台调用js方法

    JS调用后台方法大全 javascript函数中执行C#代码中的函数: 方法一:1.首先建立一个按钮,在后台将调用或处理的内容写入button_click中; 2.在前台写一个js函数,内容为docu ...

  6. WebService – 3.后台调用WebService,根级别上的数据无效

    1.因为我的webservice返回的是json, 2.ajax传递跨域不安全, 3.contentType: "application/json; charset=utf-8", ...

  7. js 后台调用前台的JS

    前台JS是这样的 function HoverLi(n){ //如果有N个标签,就将i<=N; for(var i=1;i<=3;i++){g('tb_'+i).className='no ...

  8. c#调用js脚本报错_C#后台调用前台JS函数方法

    总结了公司其他人的一些C#后台调用前台的方法: 方法一: 假设前台页面的JS脚本标签中有如下函数: function A() { alert("hello word!"); } 那 ...

  9. js调用.net后台事件,和后台调用前台等方法总结

    1. javaScript函数中执行C#代码中的函数: 方法一:1.首先建立一个按钮,在后台将调用或处理的内容写入button_click中; 2.在前台写一个js函数,内容为document.get ...

最新文章

  1. 监控Oracle性能的SQL
  2. java做类似于qq空间动态加载_实现类似微博、QQ空间等的动态加载
  3. 深度学习2.0-45.GAN实战
  4. poj Ancient Cipher 古代密码
  5. 21 PagerTabStrip-PagerTitleStrip-viewPager
  6. python string 编解码(encode b64encode)
  7. gitlab syntax highlighting theme
  8. window包管理器
  9. python生成的词云没有图案_Python词云生成
  10. casquette swagg:泉州故事
  11. S7 200 smart模拟量应用介绍
  12. mysql virt虚拟内存_JVM占用VIRT虚拟内存高问题研究
  13. 开源许可违反:案例说明(Apache License 2.0)
  14. 点击邮件自动弹出发送邮件窗口
  15. gem意思_邓紫棋gem是什么意思
  16. 如何阻止迅雷自动上传
  17. 物联网这个名字的由来
  18. 易经与计算机科学,人与计算机的思维模式区别,以及计算机的易经八卦运算
  19. 2017全国大学生电子设计竞赛H题:远程幅频特性测试仪:主控STM32F407
  20. 7-194 循环结构 —— 中国古代著名算题。趣味题目:物不知其数。

热门文章

  1. 计算机应用对教学的影响,计算机应用教学存在的主要问题及对策
  2. 【Mybatis】缓存
  3. Open-Falcon安装记录
  4. linux命令学习之---- chgrp
  5. 关于百度快照问题的若干说明
  6. 把N1打造成高效能的多平台游戏机
  7. 最爱张爱玲 :在这个世界上,总有一个人是等着你的!
  8. python解释器在哪里_详解查看Python解释器路径的两种方式
  9. 基于CAN总线的汽车诊断协议UDS (网络层 ISO 15765)
  10. WiFi将走向何方?