一:Recrawl 
nutch wiki上有现成的script,我们只需要拿来用用即可 
http://wiki.apache.org/nutch/IntranetRecrawl#head-e58e25a0b9530bb6fcdfb282fd27a207fc0aff03

把它放在nutch-0.8.1/bin/recrawl.sh

Java代码  
  1. martin@martinx:~/workspace/doc/nutch-0.8.1$ sudo bin/recrawl.sh ../tomcat5/webap ps/ROOT xici/
  2. 10 1 5

wiki中对参数的说明已经很详细了,没有必要再多说了。这里有个参数../tomcat5/webap你可以看到脚本中只是

Java代码  
  1. touch $tomcat_dir/WEB-INF/web.xml

让tomcat重新加载webapp,如果你没有使用tomcat,只是crawl,你修改一下脚本,就把这个参数给去掉吧。

二:Crawl more urls and merge 
我们上面只是抓取了一个xici的页面,但是我们的目标不仅仅是一个,而是一系列的,所有我们必须增加新的url进行抓取。

新增news.163.com

Java代码  
  1. mkdir url2
  2. echo http://news.163.com>url2/163

重新执行我们上面提到的crawl

Java代码  
  1. martin@martinx:~/workspace/doc/nutch-0.8.1$ sudo bin/nutch crawl url2 -dir 163 -depth 10 -topN 50

note: 
  这个时间会很长,如果你愿意可以用别的资讯很少的网站代替

合并我们采用nutch wiki上的脚本http://wiki.apache.org/nutch/MergeCrawl保存到bin/mergecrawl.sh。

Java代码  
  1. martin@martinx:~/workspace/doc/nutch-0.8.1$ bin/mergecrawl.sh newpath 163/ xici/

传递的两个参数分别是两次crawl的目录

修改tomcat目录下的classes/nutch-site.xml文件,将searcher.dir修改为新的索引目录

Java代码  
  1. perl -pi -e 's|xici|newpath|' ../tomcat5/webapps/ROOT/WEB-INF/classes/nutch-site.xml

重新加载webapp

Java代码  
  1. touch ../tomcat5/webapps/ROOT/WEB-INF/web.xml

以下是截图 
这个是163的 

这个是xici的 

Nutch 笔记(二):Craw more urls and Recrawl相关推荐

  1. nutch开发(二)

    nutch开发(二) 文章目录 nutch开发(二) 开发环境 1.爬取后生成的目录结构 crawldb linkdb segments 2.阅读TestCrawlDbMerger createCra ...

  2. 《How Tomcat Works》读书笔记(二)

    <How Tomcat Works>读书笔记(二) 这是<How Tomcat Works>第一二章的读书笔记.第一张主要写了一个静态资源处理的web服务器,第二章加了对ser ...

  3. qml学习笔记(二):可视化元素基类Item详解(上半场anchors等等)

    原博主博客地址:http://blog.csdn.net/qq21497936 本文章博客地址:http://blog.csdn.net/qq21497936/article/details/7851 ...

  4. oracle直查和call哪个更快,让oracle跑的更快1读书笔记二

    当前位置:我的异常网» 数据库 » <>读书笔记二 <>读书笔记二 www.myexceptions.net  网友分享于:2013-08-23  浏览:9次 <> ...

  5. 【Visual C++】游戏开发笔记二十七 Direct3D 11入门级知识介绍

    游戏开发笔记二十七 Direct3D 11入门级知识介绍 作者:毛星云    邮箱: happylifemxy@163.com    期待着与志同道合的朋友们相互交流 上一节里我们介绍了在迈入Dire ...

  6. [转载]dorado学习笔记(二)

    原文地址:dorado学习笔记(二)作者:傻掛 ·isFirst, isLast在什么情况下使用?在遍历dataset的时候会用到 ·dorado执行的顺序,首先由jsp发送请求,调用相关的ViewM ...

  7. PyTorch学习笔记(二)——回归

    PyTorch学习笔记(二)--回归 本文主要是用PyTorch来实现一个简单的回归任务. 编辑器:spyder 1.引入相应的包及生成伪数据 import torch import torch.nn ...

  8. tensorflow学习笔记二——建立一个简单的神经网络拟合二次函数

    tensorflow学习笔记二--建立一个简单的神经网络 2016-09-23 16:04 2973人阅读 评论(2) 收藏 举报  分类: tensorflow(4)  目录(?)[+] 本笔记目的 ...

  9. 趣谈网络协议笔记-二(第十九讲)

    趣谈网络协议笔记-二(第十九讲) HttpDNS:网络世界的地址簿也会指错路 自勉 勿谓言之不预也 -- 向为祖国牺牲的先烈致敬! 引用 dns缓存刷新时间是多久?dns本地缓存时间介绍 - 东大网管 ...

  10. 趣谈网络协议笔记-二(第十八讲)

    趣谈网络协议笔记-二(第十八讲) DNS协议:网络世界的地址簿 自勉 勿谓言之不预也 -- 向为祖国牺牲的先烈致敬! 正文 DNS用于域名解析,但也不仅仅是用于域名解析,不仅仅是将域名转换成IP. 在 ...

最新文章

  1. 512 个 AI 职位、11 万美元年薪,盘点 2018 最佳人工智能公司
  2. 复旦大学邱锡鹏教授等「Transformers全面综述」论文
  3. SD-WAN — 应用场景
  4. vs2008【断点无效】解决方法
  5. OpenGL实现高度图
  6. 卷死了!再不学vue3就没有人要你了!速来围观vue3新特性
  7. linux 多网卡多路由表实现策略路由
  8. Python学习之使用Python发送邮件
  9. 转:Rust 调用C/C++
  10. 苹果怎么应用分身_苹果ios/安卓微信双开技巧
  11. 3 万亿美元,苹果问鼎全球市值最高公司宝座
  12. Android--刷机教程
  13. 安全日志分析的五种类型
  14. 企查查之企业信息查询自动化
  15. java实现冒泡排序完整版
  16. c语言中10的6次方阶乘运算,阶乘的运算方法
  17. python 从文件中读取数据,同时去除掉空格和换行
  18. 十年磨一剑,霜刃未曾试(纪念最爱——加内特)
  19. python3新式类_Python之新式类与经典类
  20. vue3 setup 语法糖的项目实战用法

热门文章

  1. mysql migration toolkit 使用_MySQL Migration Toolkit的使用
  2. 基于强化学习工具箱的自适应巡航控制系统
  3. 交互设计师眼中的需求分析
  4. Representing Long-Range Context for Graph Neural Networks with Global Attention
  5. CAS单点登录:CAS服务端搭建
  6. 关于百度的若干问题和百度员工的回答
  7. 基于OLAP的时间维度设计
  8. Mac 配置多个ssh-key
  9. 给IT新人的15点建议:苦逼程序员的辛酸反省与总结
  10. 张云雷的《探清水河》登上央视,为什么蔡国庆可以随心所欲地唱