参考http://wiki.apache.org/nutch/RunNutchInEclipse

一、环境准备

1、下载nutch2.3源代码

wget http://mirror.bit.edu.cn/apache/nutch/2.3/apache-nutch-2.3-src.tar.gz

或者下载正在开发中的最新版本

 svn co https://svn.apache.org/repos/asf/nutch/branches/2.x

2、选择使用的数据库类型,以hbase为例
在conf/nutch-site.xml中增加以下属性:

<property><name>storage.data.store.class</name><value>org.apache.gora.hbase.store.HBaseStore</value><description>Default class for storing data</description></property>

3、在ivy/ivy.xml中增加与hbase相关的依赖项,此项本已存在,但被注释掉,将注释去掉即可

<dependency org="org.apache.gora" name="gora-hbase" rev="0.5" conf="*->default” />

注意,rev=0.5对应hbase0.94,rev=0.3对应hbase0.90.4

4、在nutch.xml中增加以下3个属性

<property><name>http.agent.name</name><value>My Nutch Spider</value></property>
<property><name>http.robots.agents</name><value>none</value></property>
<property><name>plugin.folders</name><value>/Users/liaoliuqing/0_Search/1_Nutch/1_Official/apache-nutch-2.3/build/plugins</value></property>

其中plugin.folders的值为$NUTCH_HOME/build/plugins

5、执行ant eclipse

二、导入project

1、导入project

2、在build path中,将apche-nutch-2.3/conf放到最上面,即点击top按键

三、运行程序

1、Run as ----> Run configuration,选择project与主类

2、填写参数

/Users/liaoliuqing/Downloads/seed.txt

-Dhadoop.log.dir=logs -Dhadoop.log.file=hadoop.log

3、点击run,输出结果如下:

InjectorJob: starting at 2015-01-28 16:27:43
InjectorJob: Injecting urlDir: /Users/liaoliuqing/Downloads/seed.txt
InjectorJob: Using class org.apache.gora.hbase.store.HBaseStore as the Gora storage class.
InjectorJob: total number of urls rejected by filters: 0
InjectorJob: total number of urls injected after normalization and filtering: 1
Injector: finished at 2015-01-28 16:27:47, elapsed: 00:00:04

注意,在运行程序前,本机需要先启动hbase。

4、查看hbase中的数据

hbase(main):003:0> scan 'webpage'
ROW                                         COLUMN+CELL                                                                                                                 com.163.www:http/                          column=f:fi, timestamp=1422433667377, value=\x00'\x8D\x00                                                                   com.163.www:http/                          column=f:ts, timestamp=1422433667377, value=\x00\x00\x01K/\xA7:\x14                                                         com.163.www:http/                          column=mk:_injmrk_, timestamp=1422433667377, value=y                                                                        com.163.www:http/                          column=mk:dist, timestamp=1422433667377, value=0                                                                            com.163.www:http/                          column=mtdt:_csh_, timestamp=1422433667377, value=?\x80\x00\x00                                                             com.163.www:http/                          column=s:s, timestamp=1422433667377, value=?\x80\x00\x00
1 row(s) in 0.2970 seconds

在Eclipse中运行Nutch2.3相关推荐

  1. eclipse中运行tomcat提示端口被占的4种解决方案

    eclipse中运行tomcat提示端口被占的4种解决方案 参考文章: (1)eclipse中运行tomcat提示端口被占的4种解决方案 (2)https://www.cnblogs.com/wyhl ...

  2. 在eclipse中运行工程时 出现出现ConnectionProperties 的解决方法

    输入如下代码 System .out .println("hellow word!!"); 在eclipse中运行工程时 出现 ConnectionProperties Prope ...

  3. Win系统下用Eclipse中运行远程hadoop MapReduce程序出现Permission denied错误

    Win系统下用Eclipse中运行远程hadoop MapReduce程序出现报错 WARNING: job_local1833185613_0001 org.apache.hadoop.securi ...

  4. Solr基础,在Eclipse中运行Solr

    Solr我还是个菜鸟,写这一些文章只是记录一下最近一段时间学习Solr的心得. Solr是什么? 最近我学Solr的时候,一直看到一句话,Solr 是一个可供企业使用的.基于 Lucene 的开箱即用 ...

  5. java中eclipse中运行程序的快捷键是什么?

    java中eclipse中运行程序的快捷键是什么? 因帅被追杀灬  |  浏览 3393 次  我有更好的答案 2015-02-02 15:35 最佳答案 CTRL+F11,采纳哦  本回答由提问者推 ...

  6. Hadoop学习全程记录——在Eclipse中运行第一个MapReduce程序

    网友分享,拿来共享一下 这是Hadoop学习全程记录第2篇,在这篇里我将介绍一下如何在Eclipse下写第一个MapReduce程序. 新说明一下我的开发环境: 操作系统:在windows下使用wub ...

  7. 在Eclipse中运行hadoop程序

    1.下载hadoop-eclipse-plugin-1.2.1.jar,并将之复制到eclipse/plugins下. 2.打开map-reduce视图 在eclipse中,打开window--> ...

  8. eclipse启动mysql报错_Eclipse+mysql+java Eclipse中运行没有问题,但打包后运行不了,也不报错,求高手指点...

    这几天用Eclipse+mysql+java编写了一个班级信息管理的软件.在Eclipse里运行没有问题所有功能都没有问题,但无论用Eclipse中自带的export生成可执行的jar包,还是用fat ...

  9. 在Eclipse中运行JAVA代码远程操作HBase的示例

    2019独角兽企业重金招聘Python工程师标准>>> 下面是一个在Windows的Eclipse中通过JAVA操作一个Linux上运行的hbase的示例. Hbase的配置需要注意 ...

最新文章

  1. 风控特征—关系网络特征工程入门实践
  2. 为什么所有的React应用开头都有一行meta charset=utf-8语句?
  3. Docker学习总结(19)——Google开源的容器集群管理系统Kubernetes介绍
  4. linux面试题与参考答案(转)
  5. a = b(将 b 赋值给 a 的另类实现)
  6. 组织架构适配下的敏捷开发
  7. c语言投票程序设计报告书,C语言程序设计报告书
  8. python邮件群发_Python操作Gmail@定时定向群发邮件
  9. 每日一佳——A Support Vector Method for Multivariate Performance Measures(Thorsten Joachims,ICML,2005)
  10. 使用软碟通(UltraISO)刻录Linux系统
  11. 网络安全学习第4篇-使用特征码和MD5对勒索病毒进行专杀,并对加密文件进行解密
  12. 实战 | 如何利用 Scrapy 编写一个完整的爬虫!
  13. 【转】面向贡献者的 AOSP Java 代码样式指南
  14. SGE:作业调度系统安装和使用简要说明
  15. 2010年3月14—上周工作总结
  16. signature=c4909c704a84f06fbd526ac646c599dd,각변위 방식을 이용한 캡슐의 오리엔테이션 측정 방법...
  17. 时域特征提取_时域分析——无量纲特征值含义一网打尽
  18. uniapp 侧边选项卡(左右滚动)
  19. 用U盘重装Win7系统方法
  20. 梦想是年轻人的生活必需品吗?

热门文章

  1. android ui布局适配,Android适配全面总结(一)----屏幕适配
  2. mysql 云主机名_mysql部署到云主机的笔记
  3. python中使用什么注释语句和运算_Python基础知识
  4. cstring判断是否包含子串_leetcode76. 最小覆盖子串
  5. c语言编译及下载环境变量,windows 下使用g++ 编译器-Go语言中文社区
  6. python pprint_如何美观地打印 Python 对象?这个标准库可以简单实现
  7. java 判断天是星期及_java判断日期是星期几的方法总结
  8. HTML怎么让正方形转动,第十讲:html5中canvas实现正方体的动态旋转
  9. .net ajax批量删除,asp.net 全部选中与取消操作,选中后的删除(ajax)实现无刷新效果...
  10. oracle更改文件,Oracle修改数据文件名以及移动数据文件