heritrix mysql_heritrix的简单使用以及在后台调用heritrix
heritrix是一个开源的java爬虫框架。这里简单介绍linux下heritrix的运行配置以及如何在后台自己的程序中调用heritrix程序爬指定的网站。
=========== heritrix的配置及运行 ============
关于heritrix的安装、配置及WEBUI运行网上介绍比较多,详细请看:
这里稍作介绍:
首先将下好的heritrix后解包,修改./conf下的jmxremote.password.template文件到上级目录并改名为jmxremote.password。
修改jmxremote.password文件中的monitorRole与controlRole字段,后面指定用户名与密码(也就是webui的用户名与密码)。配置完后执行heritrix。
1 ./heritrix --admin=XXXX:XXXX
这里完了会提示web console的地址以及登陆的用户名及密码。登陆后即可开始进行网站的爬取工作。
=========== order.xml文件介绍 =============
为了能在后台调用heritrix程序,首先需要了解下order.xml文件。这个文件配置了heritrix的一次爬行job的相关参数,具体每个参数的意义请看:
这些值是heritrix生成的各种文件(有可能你的程序会用到这些文件),这里传入的可以是相对路径也可以是绝对路径。
这个是你要爬取的存放网站网址的文件路径。这个文件里的内容是每行一个网址。
=========== 后台调用 ==============
在自己的程序里调用heritrix程序爬取我们需要的步骤分为两步,首先生成我们的order.xml文件,指定我们的seedsfile,以及各path节点的路径。接着利用系统调用
heritrix -n order.xml
既可以在自己的程序中使用heritrix进行爬取操作了。
=========== 其他 =================
heritrix爬取网站的时间相对还是挺长的,这里给出一位网友的相关参数设置可以优化爬取速度:
===========over==================
算是对自己的研究heritrix的一点小的总结。
heritrix mysql_heritrix的简单使用以及在后台调用heritrix相关推荐
- php后台登录,简单的PHP数据后台实现用户登录,php后台用户登录
简单的PHP数据后台实现用户登录,php后台用户登录 最近在写iOS一个小项目,用到了登录,所以用SAE搭了个简易的纯数据后台.PHP语句入门很简单,但是结合SQL就有点难度了.(代码都是SAE平台运 ...
- heritrix mysql_Heritrix使用小结
1.Heritrix 简介 Heritrix是一个专门为互联网上的网页进行存档而开发的网页检索器.它使用Java编写并且完全开源.它主要的用户界面可以通过一个web流量器来访问并通过它来控制检索器的行 ...
- 微信公众平台之超简单实用的天气预报后台实现
微信公众平台之超简单实用的天气预报后台实现 概述,前段时间我在开发一个自己的微信公众平台,需要实现天气预报功能,在网上度娘了下,实现天气预报的接口API还蛮多的,有:中国气象局.雅虎和新浪等,中国天气 ...
- 一个简单好用的后台框架模板
一个无刷新的简单好用的后台框架模板 下载地址:https://www.lmcjl.com/index/javascript/jqueryview?id=39 里面还有很多的模板与工具,希望可以帮助到您
- js调用后台方法与后台调用js方法
JS调用后台方法大全 javascript函数中执行C#代码中的函数: 方法一:1.首先建立一个按钮,在后台将调用或处理的内容写入button_click中; 2.在前台写一个js函数,内容为docu ...
- WebService – 3.后台调用WebService,根级别上的数据无效
1.因为我的webservice返回的是json, 2.ajax传递跨域不安全, 3.contentType: "application/json; charset=utf-8", ...
- js 后台调用前台的JS
前台JS是这样的 function HoverLi(n){ //如果有N个标签,就将i<=N; for(var i=1;i<=3;i++){g('tb_'+i).className='no ...
- c#调用js脚本报错_C#后台调用前台JS函数方法
总结了公司其他人的一些C#后台调用前台的方法: 方法一: 假设前台页面的JS脚本标签中有如下函数: function A() { alert("hello word!"); } 那 ...
- js调用.net后台事件,和后台调用前台等方法总结
1. javaScript函数中执行C#代码中的函数: 方法一:1.首先建立一个按钮,在后台将调用或处理的内容写入button_click中; 2.在前台写一个js函数,内容为document.get ...
最新文章
- 监控Oracle性能的SQL
- java做类似于qq空间动态加载_实现类似微博、QQ空间等的动态加载
- 深度学习2.0-45.GAN实战
- poj Ancient Cipher 古代密码
- 21 PagerTabStrip-PagerTitleStrip-viewPager
- python string 编解码(encode b64encode)
- gitlab syntax highlighting theme
- window包管理器
- python生成的词云没有图案_Python词云生成
- casquette swagg:泉州故事
- S7 200 smart模拟量应用介绍
- mysql virt虚拟内存_JVM占用VIRT虚拟内存高问题研究
- 开源许可违反:案例说明(Apache License 2.0)
- 点击邮件自动弹出发送邮件窗口
- gem意思_邓紫棋gem是什么意思
- 如何阻止迅雷自动上传
- 物联网这个名字的由来
- 易经与计算机科学,人与计算机的思维模式区别,以及计算机的易经八卦运算
- 2017全国大学生电子设计竞赛H题:远程幅频特性测试仪:主控STM32F407
- 7-194 循环结构 —— 中国古代著名算题。趣味题目:物不知其数。