配置nutch+hadoop

1,下载nutch。如果不需要特别开发hadoop,则不需要下载hadoop。因为nutch里面带了hadoop core包以及相关配置

2,建立目录(根据自己喜好)

/nutch

/search       (nutch installation goes here) nutch安装到这里,也就是解压到这里

/filesystemhadoop的文件系统存放点

/local /crawl后放置索引用来search用的

/home     (nutch user's home directory)  如果你用系统用户,这个基本没用

/tomcat 启动nutch.war用来search索引的app

3,conf/hadoop-env.sh   一定要配置JAVA_HOME,否则系统起不来

4,配置master和slave的ssh,否则每次都要输入passwd

ssh-keygen -t rsa

然后回车即可

cp id_rsa.pub authorized_keys

(copy到其它的slave上)scp /nutch/home/.ssh/authorized_keys nutch@devcluster02:/nutch/home/.ssh/authorized_keys

5,将bin和conf下所有的.sh、 nuch、 hadoop文件  dos2unix

dos2unix /nutch/search/bin/*.sh /nutch/search/bin/hadoop

配置hadoop-size.xml

6,记住要把master文件从nutch/hadoop  copy到这个nutch中,应该是bug。也就是说启动需要这个文件,文件内容为默认的localhost即可(如果是分布式,可能需要配置)

7,格式化namenode

bin/hadoop namenode -format

8,启动:bin/start-all.sh

9,配置crawl  (以配置一个网址 lucene.apache.org为例)

cd /nutch/search

mkdir urls

vi urls/urllist.txt        http://lucene.apache.org

cd /nutch/search

bin/hadoop dfs -put urls urls

cd /nutch/search

vi conf/crawl-urlfilter.txt

change the line that reads:   +^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/

to read:                      +^http://([a-z0-9]*\.)*apache.org/

10,启动crawl

bin/nutch crawl urls -dir crawled -depth 3

11,查询

bin/hadoop dfs -copyToLocal crawled /media/do/nutch/local/(crawled)   将index的东西copy到以上配置的local中,因为search不能用dfs中搜索(从文档看是这样)

12,启动nutch.war,测试

vi nutch-site.xml    nutch.war中classes下

start tomcat

注意点:

1,masters文件 nutch原来没有,需要copy到conf下

2,crawl的log4j配置默认有问题,需要增加:

hadoop.log.dir=.

hadoop.log.file=hadoop.log

3,nutch1.0 一定要配置nutch-site.xml。重新配置http.agent。default.xml里面已经存在。

问题:

1,运行hadoop程序时, 中途我把它终止了,然后再向hdfs加文件或删除文件时,出现Name node is in safe mode错误:

rmr: org.apache.hadoop.dfs.SafeModeException: Cannot delete /user/hadoop/input. Name node is in safe mode

解决的命令:

bin/hadoop dfsadmin -safemode leave #关闭safe mode

索引命令:

bin/nutch index plainindex/paodingindexes plainindex/crawldb plainindex/linkdb plainindex/segments/20090528132511 plainindex/segments/20090528132525 plainindex/segments/20090528132602

eg:

index:

bin/nutch index crawled/indexes_new crawled/crawldb crawled/linkdb crawled/segments/20100313132517

merge:

bin/nutch merge crawled/index_new crawled/indexes_new

去重 dedup:

bin/nutch dedup crawled/index_new

中文分词:

1.对建立索引所用分词工具的修改

将下载的中文分词包放到lib目录下,改名为analysis-zh.jar(当然,你也可以不用改)。找到下面文件

src\java\org\apache\nutch\analysis\NutchDocumentAnalyzer.java

修改tokenStream方法如下

public TokenStream tokenStream(String fieldName, Reader reader) {

Analyzer analyzer;

analyzer= new MMAnalyzer();

return analyzer.tokenStream(fieldName, reader);

}

注意:由于加入信息的分析类,你需要将该类导入。使用如下语句。

import jeasy.analysis.*;

2.对查询所用分析部分的修改

src\java\org\apache\nutch\analysis\中的NutchAnalysis.jj文件

将 >

改为:| )+ >

使用javacc工具将NutchAnalysis.jj生成java文件,共会生成7个java文件,将他们拷贝到下面的文件夹中替 换原有文件。

src\java\org\apache\nutch\analysis

如何安装与使用javacc?

下载javacc并解压,然后将javacc的主目录添加到环境变量下。进入命令行,输入javacc,如果不出现不能识别该命令之类的说法,证明安装成功。

进入NutchAnalysis.jj文件所在的目录,输入javacc NutchAnalysis.jj命令就会生成7个java文件了。

3.重新编译工程文件

这里你需要用到ant工具了,那么ant工具怎么安装呢?

ant的安装与配置与 javacc类似,下载后解压,然后在path环境变量中加如指向ant下的bin文件夹的路径。

使用:从命令行进入nutch目录中,输入ant命令,它会自动根据当前目录下的build.xml进行重建。重建完毕后会在改目录下产生一个build文件夹。

4.重建后的文件替换

一、将nutch-0.x.x.job文件拷贝出来替换nutch目录下的同名文件。

二、将\build\classes\org\apache\nutch\analysis目录下的所有文件拷贝替换nutch-0.x.x.jar中org\apache\nutch\analysis目录下的文件。

三、将nutch-0.x.x.jar文件和你的分词包(我的是analysis-zh.jar)拷贝到tomcat中WEB-INF\lib下面。

5.重新爬行与建立索引,重新启动tomcat即可。

nutch搜索url过滤规则:

对于每一次(由depth决定)对url进行filter,所以要搜子页面,首页一定要通过filter,否则搜索不到。

详见:http://hi.baidu.com/ldl_java/blog/item/84d1427894231ee62f73b30a.html

nutch mysql hadoop_nutch+hadoop 配置使用相关推荐

  1. Hadoop集群搭建(七:MySQL的安装配置)

    实验 目的 要求 目的: 1.掌握MySQL在集群平台中的安装 要求: 完成MySQL的集群版的安装: MySQL集群的相关服务进程能够正常启动: MySQL集群的SQL服务能够作为系统服务开机自动启 ...

  2. mysql hive 安装 配置_hive 安装配置部署与测试

    系统初始化 mysql5.6 的安装配置 hive 的安装配置处理 一: 系统环境初始化 1.1 系统环境: CentOS6.4x64 安装好的hadoop伪分布环境 所需软件包: apache-hi ...

  3. mysql 5.7 xbackup_CentOS 7 下 MySQL 5.7 配置 Percona Xtrabackup

    前言 CentOS 7 下 MySQL 5.7 配置 Percona Xtrabackup ,记录一下大致的安装和配置过程. Percona XtraBackup 的备份工具支持热备份(即不必停止 M ...

  4. centos7 mysql workbench_centOS下mysql workbench安装配置教程

    本文为大家分享了mysql workbench安装配置教程,供大家参考,具体内容如下 step0:安装mysql 在按照workbench之前,先安装mysql.指令是 yum install mys ...

  5. mysql 5.7 驱动_这些 MySQL 调优配置,你都知道吗?

    关注我的头条号,获取更多运维相关知识. 你想了解哪方面的运维知识,请评论区告诉我,我会尽快更新~ MySQL 数据库,基本上运维都会接触到,而对于数据库的性能优化,想必是大家比较关注的,下面分享一些调 ...

  6. mysql主从库配置ps:mysql5.6

    1 Mysql cluster版本主从服务器搭建实践 主从的作用:MySQL的主从服务器可以满足同步数据库,同步表,同步表内容,也可以指定仅同步某个数据库或某个表,还可以排除不同步某个数据库某个表. ...

  7. RHEL5(CentOS)下nginx+php+mysql+tomcat+memchached配置全过程(转)

    RHEL5(CentOS)下nginx+php+mysql+tomcat+memchached配置全过程 一.准备工作:SSH,telnet终端中文显示乱码解决办法vi /etc/sysconfig/ ...

  8. 架构周报| 浅析MySQL JDBC连接配置上的两个误区

    经典案例 \\ 浅析MySQL JDBC连接配置上的两个误区:相信使用MySQL的同学都配置过它的JDBC驱动,多数人会直接从哪里贴一段URL过来,然后稍作修改就上去了,对应的连接池配置也是一样的,很 ...

  9. MySQL的安装配置(win7 64-bit)

    MySQL的安装配置(win7 64-bit) 转,整理. MySQL 版本是 mysql-noinstall-5.1.66-winx64.zip(免安装版) mysql-workbench-gpl- ...

  10. ubuntu+php+mysql+apache安装配置

    ubuntu+php+mysql+apache安装配置 1. 安装运行环境 复制内容到剪贴板 代码: sudo apt-get install apache2 sudo apt-get install ...

最新文章

  1. 架构的能力是不断打磨1.0,2.0成就3.0,4.0
  2. 关于无法把程序(Adobe Fireworks CS5)添加到打开方式的解决办法
  3. linux ugo 权限 ugo即user group other
  4. 云计算机房所用服务器,什么是云机房、云服务器、云主机?这三者有什么区别?...
  5. MySQL复习资料(八)——MySQL-事务
  6. 使用POI导入和导出 Excel文件
  7. 内部收益率irr_国寿鑫耀东方年金险,内部收益率IRR测算
  8. python提取文件名的5-6位_python提取文件名
  9. 华为5G微交易修复版源码 K线/结算全修复 去短信+去邀请码
  10. 【华为云动态】华为云携手Google,IBM,SAP等多家知名企业加入CDF,助力软件开发生态发展
  11. PLC编程软件等工具打包下载1.0【好用绿色三菱plc编程软件】
  12. 打蚊子表情包_拍蚊子表情包 - 拍蚊子微信表情包 - 拍蚊子QQ表情包 - 发表情 fabiaoqing.com...
  13. 【技巧】安卓版按键精灵手机抓抓 取色取坐标 获取屏幕触点坐标
  14. Windows上搭建PHP开发环境
  15. C#判断某一年是 “平年”||“闰年”,一月有多少天。
  16. OFDM载波间隔_OFDM基本参数选择
  17. php解决缓慢http请求,php CURL 服务器响应慢的问题
  18. 如何写综述论文全攻略
  19. java基于springboot社区共享食堂订餐信息系统maven
  20. 定义银行账户类Account,有属性:卡号cid,余额balance,所属用户Customer 银行账户类Account有方法: (1)getInfo(),返回String类型,返回卡的详细信息

热门文章

  1. java docx4j 使用教程_使用Docx4j操作PPT指南系列(二)
  2. CCNA考试题库中英文翻译版及答案10
  3. 关于hibernate的mappedBy的使用:
  4. echarts 力导向图
  5. 自制solidworks图框步骤_SolidWorks教你如何快速制作工程图模板
  6. 【Android项目实战 | 从零开始写app(一)】 创建项目
  7. python爬取大众点评数据_爬虫爬取大众点评评论数
  8. 3dmax中如何设置环境灯光
  9. 海康流媒体客户端开发
  10. c语言同构数循环,C语言求同构数.pdf