在Eclipse中运行Nutch2.3
参考http://wiki.apache.org/nutch/RunNutchInEclipse
一、环境准备
1、下载nutch2.3源代码
wget http://mirror.bit.edu.cn/apache/nutch/2.3/apache-nutch-2.3-src.tar.gz
或者下载正在开发中的最新版本
svn co https://svn.apache.org/repos/asf/nutch/branches/2.x
2、选择使用的数据库类型,以hbase为例
在conf/nutch-site.xml中增加以下属性:
<property><name>storage.data.store.class</name><value>org.apache.gora.hbase.store.HBaseStore</value><description>Default class for storing data</description></property>
3、在ivy/ivy.xml中增加与hbase相关的依赖项,此项本已存在,但被注释掉,将注释去掉即可
<dependency org="org.apache.gora" name="gora-hbase" rev="0.5" conf="*->default” />
注意,rev=0.5对应hbase0.94,rev=0.3对应hbase0.90.4
4、在nutch.xml中增加以下3个属性
<property><name>http.agent.name</name><value>My Nutch Spider</value></property>
<property><name>http.robots.agents</name><value>none</value></property>
<property><name>plugin.folders</name><value>/Users/liaoliuqing/0_Search/1_Nutch/1_Official/apache-nutch-2.3/build/plugins</value></property>
其中plugin.folders的值为$NUTCH_HOME/build/plugins
5、执行ant eclipse
二、导入project
1、导入project
2、在build path中,将apche-nutch-2.3/conf放到最上面,即点击top按键
三、运行程序
1、Run as ----> Run configuration,选择project与主类
2、填写参数
/Users/liaoliuqing/Downloads/seed.txt
-Dhadoop.log.dir=logs -Dhadoop.log.file=hadoop.log
3、点击run,输出结果如下:
InjectorJob: starting at 2015-01-28 16:27:43
InjectorJob: Injecting urlDir: /Users/liaoliuqing/Downloads/seed.txt
InjectorJob: Using class org.apache.gora.hbase.store.HBaseStore as the Gora storage class.
InjectorJob: total number of urls rejected by filters: 0
InjectorJob: total number of urls injected after normalization and filtering: 1
Injector: finished at 2015-01-28 16:27:47, elapsed: 00:00:04
注意,在运行程序前,本机需要先启动hbase。
4、查看hbase中的数据
hbase(main):003:0> scan 'webpage'
ROW COLUMN+CELL com.163.www:http/ column=f:fi, timestamp=1422433667377, value=\x00'\x8D\x00 com.163.www:http/ column=f:ts, timestamp=1422433667377, value=\x00\x00\x01K/\xA7:\x14 com.163.www:http/ column=mk:_injmrk_, timestamp=1422433667377, value=y com.163.www:http/ column=mk:dist, timestamp=1422433667377, value=0 com.163.www:http/ column=mtdt:_csh_, timestamp=1422433667377, value=?\x80\x00\x00 com.163.www:http/ column=s:s, timestamp=1422433667377, value=?\x80\x00\x00
1 row(s) in 0.2970 seconds
在Eclipse中运行Nutch2.3相关推荐
- eclipse中运行tomcat提示端口被占的4种解决方案
eclipse中运行tomcat提示端口被占的4种解决方案 参考文章: (1)eclipse中运行tomcat提示端口被占的4种解决方案 (2)https://www.cnblogs.com/wyhl ...
- 在eclipse中运行工程时 出现出现ConnectionProperties 的解决方法
输入如下代码 System .out .println("hellow word!!"); 在eclipse中运行工程时 出现 ConnectionProperties Prope ...
- Win系统下用Eclipse中运行远程hadoop MapReduce程序出现Permission denied错误
Win系统下用Eclipse中运行远程hadoop MapReduce程序出现报错 WARNING: job_local1833185613_0001 org.apache.hadoop.securi ...
- Solr基础,在Eclipse中运行Solr
Solr我还是个菜鸟,写这一些文章只是记录一下最近一段时间学习Solr的心得. Solr是什么? 最近我学Solr的时候,一直看到一句话,Solr 是一个可供企业使用的.基于 Lucene 的开箱即用 ...
- java中eclipse中运行程序的快捷键是什么?
java中eclipse中运行程序的快捷键是什么? 因帅被追杀灬 | 浏览 3393 次 我有更好的答案 2015-02-02 15:35 最佳答案 CTRL+F11,采纳哦 本回答由提问者推 ...
- Hadoop学习全程记录——在Eclipse中运行第一个MapReduce程序
网友分享,拿来共享一下 这是Hadoop学习全程记录第2篇,在这篇里我将介绍一下如何在Eclipse下写第一个MapReduce程序. 新说明一下我的开发环境: 操作系统:在windows下使用wub ...
- 在Eclipse中运行hadoop程序
1.下载hadoop-eclipse-plugin-1.2.1.jar,并将之复制到eclipse/plugins下. 2.打开map-reduce视图 在eclipse中,打开window--> ...
- eclipse启动mysql报错_Eclipse+mysql+java Eclipse中运行没有问题,但打包后运行不了,也不报错,求高手指点...
这几天用Eclipse+mysql+java编写了一个班级信息管理的软件.在Eclipse里运行没有问题所有功能都没有问题,但无论用Eclipse中自带的export生成可执行的jar包,还是用fat ...
- 在Eclipse中运行JAVA代码远程操作HBase的示例
2019独角兽企业重金招聘Python工程师标准>>> 下面是一个在Windows的Eclipse中通过JAVA操作一个Linux上运行的hbase的示例. Hbase的配置需要注意 ...
最新文章
- 风控特征—关系网络特征工程入门实践
- 为什么所有的React应用开头都有一行meta charset=utf-8语句?
- Docker学习总结(19)——Google开源的容器集群管理系统Kubernetes介绍
- linux面试题与参考答案(转)
- a = b(将 b 赋值给 a 的另类实现)
- 组织架构适配下的敏捷开发
- c语言投票程序设计报告书,C语言程序设计报告书
- python邮件群发_Python操作Gmail@定时定向群发邮件
- 每日一佳——A Support Vector Method for Multivariate Performance Measures(Thorsten Joachims,ICML,2005)
- 使用软碟通(UltraISO)刻录Linux系统
- 网络安全学习第4篇-使用特征码和MD5对勒索病毒进行专杀,并对加密文件进行解密
- 实战 | 如何利用 Scrapy 编写一个完整的爬虫!
- 【转】面向贡献者的 AOSP Java 代码样式指南
- SGE:作业调度系统安装和使用简要说明
- 2010年3月14—上周工作总结
- signature=c4909c704a84f06fbd526ac646c599dd,각변위 방식을 이용한 캡슐의 오리엔테이션 측정 방법...
- 时域特征提取_时域分析——无量纲特征值含义一网打尽
- uniapp 侧边选项卡(左右滚动)
- 用U盘重装Win7系统方法
- 梦想是年轻人的生活必需品吗?
热门文章
- android ui布局适配,Android适配全面总结(一)----屏幕适配
- mysql 云主机名_mysql部署到云主机的笔记
- python中使用什么注释语句和运算_Python基础知识
- cstring判断是否包含子串_leetcode76. 最小覆盖子串
- c语言编译及下载环境变量,windows 下使用g++ 编译器-Go语言中文社区
- python pprint_如何美观地打印 Python 对象?这个标准库可以简单实现
- java 判断天是星期及_java判断日期是星期几的方法总结
- HTML怎么让正方形转动,第十讲:html5中canvas实现正方体的动态旋转
- .net ajax批量删除,asp.net 全部选中与取消操作,选中后的删除(ajax)实现无刷新效果...
- oracle更改文件,Oracle修改数据文件名以及移动数据文件