关于Heritrix学习的问题记录
用Lucene做了一个能实现全文搜索功能的程序(不敢说是搜索引擎)。但是用的文本是本地的语料库。希望用爬虫去爬爬网上的东西,就了解了下Heritrix。
现在网上关于Heritrix的资料还是比较多的,所以学习起来曲线也不大。
Heritrix版本:1.14.4。
1、从网上下载到Heritrix的源代码,解压。
2、在eclise下建立新的工程,取名:HeritrixLearning。
3、把源代码下面的heritrix-1.14.4\src\java目录中的st、org、com文件件copy到工程的src目录下:这就是Hetrix的源码了。
4、把heritrix-1.14.4\src目录下的conf、webapps文件夹copy到工程的根目录下。
5、把heritrix-1.14.4\src\resources\org\archive\util目录下的tlds-alpha-by-domain.txt copy到工程的org.archive.util包里。
6、从heritrix的jar包(heritrix-1.14.4.jar)(注意:这里不再是源码了)中解压出arcMetaheaderBody.xsl文件,放到工程的src目录下。如果没有这个,Heritrix运行时会报错的。
错误:“null”
致命错误:“无法编译样式表”
7、打开conf目录下的heritrix.properties:修改为:
- # Default commandline startup values.
- # Below values are used if unspecified on the command line.
- heritrix.cmdline.admin = admin:admin
8、运行Heritrix:工程中找到org.archive.crawler.Heritrix.java,右键选运行方式配置,选择Classpath ,选择User Entries -- Advanced ,选择Add Folders,将conf文件夹添加进去。点击Run 开始运行
如果正常的话,显示如下:
07:34:47.484 EVENT Starting Jetty/4.2.23
07:34:47.906 EVENT Started WebApplicationContext[/,Heritrix Console]
07:34:48.125 EVENT Started SocketListener on 127.0.0.1:8080
07:34:48.125 EVENT Started org.mortbay.jetty.Server@133f1d7
Heritrix version: @VERSION@
9、 打开浏览器,输入http://localhost:8080
则会到heritrix的登录口:输入admin(用户名密码一样的)
10、新建一下job,这个网上有很多,这里不细说。
会有错误就是:jobs下面没有mirror文件夹。怎么办呢,在创建job设置Modules时,将Select Writers设置成org.archive.crawler.writer.MirrorWriterProcessor ,一定要注意,选完后,要点一下那个add按钮。
OK,剩下的事儿就是到工程的代码下找job文件夹看爬下来的东东了。
真正应用Heritrix其实是没有那么简单的,很多东西都需要我们自己制定。
在http://localhost:8080/jobs/modules.jsp
参考博客:http://hi.baidu.com/zhouyang209117/item/a32d0abdf91e2943ba0e1284
Eclipse下配置Heritrix:http://hanyuanbo.iteye.com/blog/777451
关于Heritrix学习的问题记录相关推荐
- eclipse在网页进入时显示重定向过多_使用eclipse快速开发jsp以及编码问题、jsp页面元素、request对象学习的粗略记录...
人老了真是什么都会忘记啊orz,早上发现学过去的东西好多都还没记录复盘... ...(懒虫作祟) 在开始之前,俺认为还是很有必要了解一下jsp的执行流程,俺发现CSDN上的"陈小哥cw&qu ...
- HACK RF学习之旅记录3——安装WIN10+Ubuntu双系统
鉴于之前的gnuradio运行例程FM声音卡顿,gprx采样率8M也卡顿,尝试安装双系统做一些工作,顺便学习下原生系统里面日常生存. 1 安装Ubuntu19.10 在WIN系统下搜了下例程大致明白, ...
- 用 C学习51单片机——记录 4、中断系统 (1)外部中断
用 C学习51单片机--记录 4.中断系统 用 C 学习51单片机过程与自我拓展--记录(STC89C52芯片) 前言--其实51并不太难,多看 多写代码,多调试,就一定会有所感悟. 所以我在此留下一 ...
- 深度学习小白装机-记录一下
深度学习小白装机-记录一下 三个备选清单. 原本早就有攒一部机器的想法,最近刚刚好在玩深度学习的小案例,所以产生了装一部自己的台式机的想法. 下面均是自己查资料所得,可能与实际有差入.出错了,我也不负 ...
- Python学习关键tip记录
Python学习关键tip记录,因为是学习中自己总结的,可能会有错误,欢迎指正(持续更新) 一.基础知识: 1.函数调用前类型是function,调用后没有特殊指定ruturn返回值默认为None. ...
- 各类学习平台收集记录(强化学习、深度学习、机器学习)
各类学习平台收集记录(强化学习.深度学习.机器学习) 1.百度开发者中心 https://developer.baidu.com/?from=aistudio 有很多开源项目代码可以借鉴学习. 2. ...
- MAC-XXL_JOB学习踩坑记录-Failed to create parent directories for [/data/applogs/xxl-job/xxl-job-admin.log
MAC-XXL_JOB学习踩坑记录 源码下载地址 启动报错 源码下载地址 ①.GitHub:https://github.com/xuxueli/xxl-job ②.码云:https://gitee. ...
- selenium 学习、工作 记录,附常见异常和工具方法
selenium 学习.工作 记录,附常见异常和工具方法 基础配置 2020.03.31 开发者模式 设置有认证的http代理 让selenium接管人为打开的chrome 2020.07.23(79 ...
- cesium给地图添加比例尺学习踩坑记录
cesium给地图添加比例尺学习踩坑记录 因项目需要在cesium地图中展示比例尺,本来应该是很简单的事,但却碰到了一个引用文件的坑,特此记录: *1.引用依赖文件 相信需要用到cesium比例尺组件 ...
最新文章
- 剑指offer03-数组中重复的数字(java)|leetcode刷题
- 嵌入式Linux下Qt的中文显示
- 2018年技术上该怎样努力
- (十)洞悉linux下的Netfilteriptables:网络地址转换原理之SNAT
- h5前端开发,96道前端面试题
- excel中统计COUNTIFS的值为0
- 学术论文写作之引言(Introduction)怎么写
- 未来三年的移动互联网创业----创新工场创始合伙人汪华 在移动开发者大会上的演讲
- 输入关键字生成对联_百度“智能春联”玩出新年味 输入关键词秒出春联
- replacestate 后退刷新_关于如何禁止浏览器后退及刷新功能
- 第17节 三层交换机技术—工作原理及相关命令
- 从0到1学搜索:搜索引擎的基本技术逻辑(一)
- 经济法基础——第五章第二节、个人所得税法律制度
- JAVA设计模式之中介者模式
- 聚观早报|中国将是ChatGPT主要对手;​iPhone 15将使用USB-C接口
- inkscape:图层
- k8s高可用多节点master搭建
- 华为海思人脸识别方案 海思 3516嵌入式 Linux系统人脸识别开发模组套件
- Nature综述:大脑中的音乐
- 一键生成舞曲编排的小程序(perl)