用Lucene做了一个能实现全文搜索功能的程序(不敢说是搜索引擎)。但是用的文本是本地的语料库。希望用爬虫去爬爬网上的东西,就了解了下Heritrix。

现在网上关于Heritrix的资料还是比较多的,所以学习起来曲线也不大。

Heritrix版本:1.14.4。

1、从网上下载到Heritrix的源代码,解压。

2、在eclise下建立新的工程,取名:HeritrixLearning。

3、把源代码下面的heritrix-1.14.4\src\java目录中的st、org、com文件件copy到工程的src目录下:这就是Hetrix的源码了。

4、把heritrix-1.14.4\src目录下的conf、webapps文件夹copy到工程的根目录下。

5、把heritrix-1.14.4\src\resources\org\archive\util目录下的tlds-alpha-by-domain.txt copy到工程的org.archive.util包里。

6、从heritrix的jar包(heritrix-1.14.4.jar)(注意:这里不再是源码了)中解压出arcMetaheaderBody.xsl文件,放到工程的src目录下。如果没有这个,Heritrix运行时会报错的。

错误:“null”
致命错误:“无法编译样式表”

7、打开conf目录下的heritrix.properties:修改为:

  1. # Default commandline startup values.
  2. # Below values are used if unspecified on the command line.
  3. heritrix.cmdline.admin = admin:admin

8、运行Heritrix:工程中找到org.archive.crawler.Heritrix.java,右键选运行方式配置,选择Classpath ,选择User Entries -- Advanced ,选择Add Folders,将conf文件夹添加进去。点击Run 开始运行

如果正常的话,显示如下:

07:34:47.484 EVENT  Starting Jetty/4.2.23

07:34:47.906 EVENT  Started WebApplicationContext[/,Heritrix Console]

07:34:48.125 EVENT  Started SocketListener on 127.0.0.1:8080

07:34:48.125 EVENT  Started org.mortbay.jetty.Server@133f1d7

Heritrix version: @VERSION@

9、 打开浏览器,输入http://localhost:8080

则会到heritrix的登录口:输入admin(用户名密码一样的)

10、新建一下job,这个网上有很多,这里不细说。

会有错误就是:jobs下面没有mirror文件夹。怎么办呢,在创建job设置Modules时,将Select Writers设置成org.archive.crawler.writer.MirrorWriterProcessor ,一定要注意,选完后,要点一下那个add按钮。

OK,剩下的事儿就是到工程的代码下找job文件夹看爬下来的东东了。

真正应用Heritrix其实是没有那么简单的,很多东西都需要我们自己制定。

在http://localhost:8080/jobs/modules.jsp

参考博客:http://hi.baidu.com/zhouyang209117/item/a32d0abdf91e2943ba0e1284

Eclipse下配置Heritrix:http://hanyuanbo.iteye.com/blog/777451

关于Heritrix学习的问题记录相关推荐

  1. eclipse在网页进入时显示重定向过多_使用eclipse快速开发jsp以及编码问题、jsp页面元素、request对象学习的粗略记录...

    人老了真是什么都会忘记啊orz,早上发现学过去的东西好多都还没记录复盘... ...(懒虫作祟) 在开始之前,俺认为还是很有必要了解一下jsp的执行流程,俺发现CSDN上的"陈小哥cw&qu ...

  2. HACK RF学习之旅记录3——安装WIN10+Ubuntu双系统

    鉴于之前的gnuradio运行例程FM声音卡顿,gprx采样率8M也卡顿,尝试安装双系统做一些工作,顺便学习下原生系统里面日常生存. 1 安装Ubuntu19.10 在WIN系统下搜了下例程大致明白, ...

  3. 用 C学习51单片机——记录 4、中断系统 (1)外部中断

    用 C学习51单片机--记录 4.中断系统 用 C 学习51单片机过程与自我拓展--记录(STC89C52芯片) 前言--其实51并不太难,多看 多写代码,多调试,就一定会有所感悟. 所以我在此留下一 ...

  4. 深度学习小白装机-记录一下

    深度学习小白装机-记录一下 三个备选清单. 原本早就有攒一部机器的想法,最近刚刚好在玩深度学习的小案例,所以产生了装一部自己的台式机的想法. 下面均是自己查资料所得,可能与实际有差入.出错了,我也不负 ...

  5. Python学习关键tip记录

    Python学习关键tip记录,因为是学习中自己总结的,可能会有错误,欢迎指正(持续更新) 一.基础知识: 1.函数调用前类型是function,调用后没有特殊指定ruturn返回值默认为None. ...

  6. 各类学习平台收集记录(强化学习、深度学习、机器学习)

    各类学习平台收集记录(强化学习.深度学习.机器学习) 1.百度开发者中心  https://developer.baidu.com/?from=aistudio 有很多开源项目代码可以借鉴学习. 2. ...

  7. MAC-XXL_JOB学习踩坑记录-Failed to create parent directories for [/data/applogs/xxl-job/xxl-job-admin.log

    MAC-XXL_JOB学习踩坑记录 源码下载地址 启动报错 源码下载地址 ①.GitHub:https://github.com/xuxueli/xxl-job ②.码云:https://gitee. ...

  8. selenium 学习、工作 记录,附常见异常和工具方法

    selenium 学习.工作 记录,附常见异常和工具方法 基础配置 2020.03.31 开发者模式 设置有认证的http代理 让selenium接管人为打开的chrome 2020.07.23(79 ...

  9. cesium给地图添加比例尺学习踩坑记录

    cesium给地图添加比例尺学习踩坑记录 因项目需要在cesium地图中展示比例尺,本来应该是很简单的事,但却碰到了一个引用文件的坑,特此记录: *1.引用依赖文件 相信需要用到cesium比例尺组件 ...

最新文章

  1. 剑指offer03-数组中重复的数字(java)|leetcode刷题
  2. 嵌入式Linux下Qt的中文显示
  3. 2018年技术上该怎样努力
  4. (十)洞悉linux下的Netfilteriptables:网络地址转换原理之SNAT
  5. h5前端开发,96道前端面试题
  6. excel中统计COUNTIFS的值为0
  7. 学术论文写作之引言(Introduction)怎么写
  8. 未来三年的移动互联网创业----创新工场创始合伙人汪华 在移动开发者大会上的演讲
  9. 输入关键字生成对联_百度“智能春联”玩出新年味 输入关键词秒出春联
  10. replacestate 后退刷新_关于如何禁止浏览器后退及刷新功能
  11. 第17节 三层交换机技术—工作原理及相关命令
  12. 从0到1学搜索:搜索引擎的基本技术逻辑(一)
  13. 经济法基础——第五章第二节、个人所得税法律制度
  14. JAVA设计模式之中介者模式
  15. 聚观早报|中国将是ChatGPT主要对手;​iPhone 15将使用USB-C接口
  16. inkscape:图层
  17. k8s高可用多节点master搭建
  18. 华为海思人脸识别方案 海思 3516嵌入式 Linux系统人脸识别开发模组套件
  19. Nature综述:大脑中的音乐
  20. 一键生成舞曲编排的小程序(perl)

热门文章

  1. 最新!这所顶尖大学录取线全国第三!毕业生深造率超九成!
  2. 预、自训练之争:谷歌说预训练虽火,但在标注数据上自训练更有效
  3. 【分享】博士生提高科研幸福感的途径
  4. 假如曹操是一名程序员,会发生什么?
  5. C语言初步学习(适合与学习过C++和java的童鞋)
  6. RasberryPi快速启动(适合首次接触树莓派学习者)
  7. 美多商城之购物车(购物车管理3)
  8. 将LSTM与word2vec结合实现中文自动写作
  9. C语言数组,这个输出模式感觉自己很厉害!_只愿与一人十指紧扣_新浪博客
  10. 工业相机参数之帧率相关知识详解