Nutch 笔记(二):Craw more urls and Recrawl
nutch wiki上有现成的script,我们只需要拿来用用即可
http://wiki.apache.org/nutch/IntranetRecrawl#head-e58e25a0b9530bb6fcdfb282fd27a207fc0aff03
把它放在nutch-0.8.1/bin/recrawl.sh
- martin@martinx:~/workspace/doc/nutch-0.8.1$ sudo bin/recrawl.sh ../tomcat5/webap ps/ROOT xici/
- 10 1 5
wiki中对参数的说明已经很详细了,没有必要再多说了。这里有个参数../tomcat5/webap你可以看到脚本中只是
- touch $tomcat_dir/WEB-INF/web.xml
让tomcat重新加载webapp,如果你没有使用tomcat,只是crawl,你修改一下脚本,就把这个参数给去掉吧。
二:Crawl more urls and merge
我们上面只是抓取了一个xici的页面,但是我们的目标不仅仅是一个,而是一系列的,所有我们必须增加新的url进行抓取。
新增news.163.com
- mkdir url2
- echo http://news.163.com>url2/163
重新执行我们上面提到的crawl
- martin@martinx:~/workspace/doc/nutch-0.8.1$ sudo bin/nutch crawl url2 -dir 163 -depth 10 -topN 50
note:
这个时间会很长,如果你愿意可以用别的资讯很少的网站代替
合并我们采用nutch wiki上的脚本http://wiki.apache.org/nutch/MergeCrawl保存到bin/mergecrawl.sh。
- martin@martinx:~/workspace/doc/nutch-0.8.1$ bin/mergecrawl.sh newpath 163/ xici/
传递的两个参数分别是两次crawl的目录
修改tomcat目录下的classes/nutch-site.xml文件,将searcher.dir修改为新的索引目录
- perl -pi -e 's|xici|newpath|' ../tomcat5/webapps/ROOT/WEB-INF/classes/nutch-site.xml
重新加载webapp
- touch ../tomcat5/webapps/ROOT/WEB-INF/web.xml
以下是截图
这个是163的
这个是xici的
Nutch 笔记(二):Craw more urls and Recrawl相关推荐
- nutch开发(二)
nutch开发(二) 文章目录 nutch开发(二) 开发环境 1.爬取后生成的目录结构 crawldb linkdb segments 2.阅读TestCrawlDbMerger createCra ...
- 《How Tomcat Works》读书笔记(二)
<How Tomcat Works>读书笔记(二) 这是<How Tomcat Works>第一二章的读书笔记.第一张主要写了一个静态资源处理的web服务器,第二章加了对ser ...
- qml学习笔记(二):可视化元素基类Item详解(上半场anchors等等)
原博主博客地址:http://blog.csdn.net/qq21497936 本文章博客地址:http://blog.csdn.net/qq21497936/article/details/7851 ...
- oracle直查和call哪个更快,让oracle跑的更快1读书笔记二
当前位置:我的异常网» 数据库 » <>读书笔记二 <>读书笔记二 www.myexceptions.net 网友分享于:2013-08-23 浏览:9次 <> ...
- 【Visual C++】游戏开发笔记二十七 Direct3D 11入门级知识介绍
游戏开发笔记二十七 Direct3D 11入门级知识介绍 作者:毛星云 邮箱: happylifemxy@163.com 期待着与志同道合的朋友们相互交流 上一节里我们介绍了在迈入Dire ...
- [转载]dorado学习笔记(二)
原文地址:dorado学习笔记(二)作者:傻掛 ·isFirst, isLast在什么情况下使用?在遍历dataset的时候会用到 ·dorado执行的顺序,首先由jsp发送请求,调用相关的ViewM ...
- PyTorch学习笔记(二)——回归
PyTorch学习笔记(二)--回归 本文主要是用PyTorch来实现一个简单的回归任务. 编辑器:spyder 1.引入相应的包及生成伪数据 import torch import torch.nn ...
- tensorflow学习笔记二——建立一个简单的神经网络拟合二次函数
tensorflow学习笔记二--建立一个简单的神经网络 2016-09-23 16:04 2973人阅读 评论(2) 收藏 举报 分类: tensorflow(4) 目录(?)[+] 本笔记目的 ...
- 趣谈网络协议笔记-二(第十九讲)
趣谈网络协议笔记-二(第十九讲) HttpDNS:网络世界的地址簿也会指错路 自勉 勿谓言之不预也 -- 向为祖国牺牲的先烈致敬! 引用 dns缓存刷新时间是多久?dns本地缓存时间介绍 - 东大网管 ...
- 趣谈网络协议笔记-二(第十八讲)
趣谈网络协议笔记-二(第十八讲) DNS协议:网络世界的地址簿 自勉 勿谓言之不预也 -- 向为祖国牺牲的先烈致敬! 正文 DNS用于域名解析,但也不仅仅是用于域名解析,不仅仅是将域名转换成IP. 在 ...
最新文章
- 512 个 AI 职位、11 万美元年薪,盘点 2018 最佳人工智能公司
- 复旦大学邱锡鹏教授等「Transformers全面综述」论文
- SD-WAN — 应用场景
- vs2008【断点无效】解决方法
- OpenGL实现高度图
- 卷死了!再不学vue3就没有人要你了!速来围观vue3新特性
- linux 多网卡多路由表实现策略路由
- Python学习之使用Python发送邮件
- 转:Rust 调用C/C++
- 苹果怎么应用分身_苹果ios/安卓微信双开技巧
- 3 万亿美元,苹果问鼎全球市值最高公司宝座
- Android--刷机教程
- 安全日志分析的五种类型
- 企查查之企业信息查询自动化
- java实现冒泡排序完整版
- c语言中10的6次方阶乘运算,阶乘的运算方法
- python 从文件中读取数据,同时去除掉空格和换行
- 十年磨一剑,霜刃未曾试(纪念最爱——加内特)
- python3新式类_Python之新式类与经典类
- vue3 setup 语法糖的项目实战用法