NUTCH的安装与测试
1.Nutch简介
Apache Nutch is ahighly extensible and scalable open source web crawler softwareproject—wikipedia。
Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。
Nutch的组成:爬虫crawler和查询searcher。Crawler主要用于从网络上抓取网页并为这些网页建立索引。Searcher主要利用这些索引检索用户的查找关键词来产生查找结果。两者之间的接口是索引,所以除去索引部分,两者之间的耦合度很低。Crawler和Searcher两部分尽量分开的目的主要是为了使两部分可以分布式配置在硬件平台上,例如将Crawler和Searcher分别放在两个主机上,这样可以提升性能。
2.Nutch安装
2.1安装虚拟机与Ubuntu(略)
2.2安装JDK与配置环境
(1) sudo apt-get update
(2) sudo apt-getinstall default-jdk
(3)配置环境变量: sudo gedit ~/.bashrc
进入编辑框,在文件的末尾添加四行代码:
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64 export JRE_HOME=$JAVA_HOME/jre export CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$PATH |
(4)输入完成后,点击右上角保存,然后关闭
执行命令:
source ~/.bashrc |
(5)验证环境配置结果,出现下图结果,表示配置成功
(6)注意:不可以省略编辑bashrc这一步,如果省略掉,会影响后面的程序运行。
2.3Nutch的下载/编译/配置
(1)下载:首先安装svn工具,然后通过svn下载代码,本文采用nuthc的版本为1.7。下载完成后,如图所示。
sudo apt install subversion svn co https://svn.apache.org/repos/asf/nutch/tags/release-1.7 |
(2)编译:
修改文件:build.xml
找到这一块,加入这一行
<classpath><fileset dir="lib/" includes="sonar*.jar" /></classpath> |
然后将一个jar包加入lib文件夹中
编译需要Ant,所以首先要安装Ant。输入ant开始编译
sudo apt install ant cd release-1.7 ant |
编译过程可能会出现问题:
大概是源中有的包缺失了,可以选择修改源。即更改value后面的网址就行了。
不过这种办法试过之后可能依然不行,那么问题的关键来了。你需要换个网络。这和我软微的网络有的时候没法访问百度文库是一样的。本人在尝试过程中,断掉了无线网,用手机开了热点,一次就编译成功了。
(3)配置:主要配置conf文件夹下的这两个文件
nutch-site.xml 在value标签内填入任意字符即可
nutch-default.xml
2.4抓取网页
1. 进入runtime->local目录
命令: cd runtime/local
2. 建一个目录保存需要抓取的URL信息
mkdir urls vi urls/url.txt |
将需要抓取的URL写入url.txt中:
3. 使用Crawl命令抓取网页
nohup bin/nutch crawl urls -dir data -depth 3 -threads 100 & |
runtime/local文件夹下的nohup.out存储爬取结果
NUTCH的安装与测试相关推荐
- my SQL下载安装,环境配置,以及密码忘记的解决,以及navicat for mysql下载,安装,测试连接...
一.下载 在百度上搜索"mysql-5.6.24-winx64下载" 二.安装 选择安装路径,我的路径"C:\Soft\mysql-5.6.24-winx64" ...
- http_load安装与测试参数分析
http_load安装与测试参数分析 http_load以并行复用的方式运行,用以测试 web 服务器的吞吐量与负载.但是它不同于大多数压力测试工具,它可以以一个单一的进程运行,一般不会把客户机搞死. ...
- Nutch的安装和配置
Nutch是一个Java实现的网络爬虫.Nutch的安装可以使用二进制包,也可以使用源代码安装.这里介绍用二进制包安装. 1. 下载apache-nutch-1.12-bin.tar.gz,并且解压, ...
- nginx 没有sbin目录_CentOS7下Nginx+ModSecurity配置、安装、测试教程
" 最近在工作上遇到一点问题,问了大佬.百度,都没有很好地解决:经过大量搜索查阅以及试验,终于将问题解决.于是写下这篇文章以提醒自己,也可供读者参考." 环境:CentOS-7-x ...
- AutoBench+Httperf的安装、测试
首先安装Httperf.主要是Httperf网路上给出的url均无法访问,因此在GitHub上找的源码工程,进行安装. 接下来介绍安装步骤,从Github下载下来的httperf包是zip. unzi ...
- 安装并测试nvenc linux sdk
2019独角兽企业重金招聘Python工程师标准>>> nvidia在cuda之后推出一种官方生成更好视频处理技术nvenc. 网上相关资料很少, 也不知道这个东西到底怎么样,自己测 ...
- appium for mac 安装与测试ios说明
一.安装 安装dmg,可以自己下载appium-1.4.0.dmg或者找rtx我要,文件过大不能添加附件. Appium提供了一个doctor,运行appium-doctor 如果有问题,Fix it ...
- Faste R-CNN的安装及测试
一.拉取源码 下载 fast-rcnn 因下载解压后 caffe-fast-rcnn是空文件夹,故需要单独下 caffe-fast-rcnn-bcd9b4eadc7d8fbc433aeefd564e8 ...
- Faster R-CNN的安装及测试(Python版本和Matlab版本)
rbg的Python版本 一.拉取源码 git clone --recursive https://github.com/rbgirshick/py-faster-rcnn.git 拉取完成后,在/h ...
最新文章
- 这引人联想的机械右手!玩转魔方,灵活不输人类,OpenAI:前所未有
- Hyperledger Fabric 智能合约实战 (5) go语言开发
- Python为何能成为数据分析的主流工具?
- python实现归并排序
- 分布式系统:CAP 理论的前世今生
- 10 张令人喷饭的程序员漫画
- android版 点击下载,自动点击器最新版
- java 字符串倍_java字符串拼接与性能分析详解
- php怎么将网页变成图片格式,php如何实现图片格式转换
- Java中对List集合排序的两种方法
- Android 获取唯一机器码的代码
- 因为在此系统上禁止运行脚本。有关详细信息_win10系统下Hyper-V基本(网上资源整合)3
- 手机代理上网_ip地址是怎么来的?手机电脑怎么获得IP地址?
- pdfptable pdf生成表格分页_Excel按一下这个键,一张纸打印所有表格,不要浪费A4纸了...
- [EdgeAI] NXP eIQ 机器学习Toolkit (二):模型篇
- eclipse中左边的package文件列表不见了,解决方法
- 百练4083我爱北大 解析
- html简单歌词同步教程,HTML5实现歌词同步(示例代码)
- 用python画星空的代码简单-【Python】手把手教你绘制星空旅游线路图
- 2022年最赚钱地推项目-WiFi贴项目(月入10个W)
热门文章
- C语言进制转换时自动扩展位?(原码、反码、补码)(打印%o、%x时会自动扩展到32位【负数先得到其十进制真实数值,再根据其真实数值得到八进制、十进制补码】)
- ajax链接php,关于php:在ajax切换后,单击链接没有任何作用?
- python响铃符不响_python语法注意事项
- clusense VS2008版本
- zip、gz压缩文件查看命令zless、less
- ssm 框架配置详解
- 史上最详细 最官方的 SpringBoot和SpringCloud的版本选择!!!! 绝对让你心服口服的版本选择方式!!!
- 文件加载顺序_Springboot配置文件存放位置及读取顺序
- 简述css属性选择器的几种定义方式_CSS 属性选择器详解
- PE转换分区表格式为GPT