Nutch是一个Java实现的网络爬虫。Nutch的安装可以使用二进制包,也可以使用源代码安装。这里介绍用二进制包安装。

1. 下载apache-nutch-1.12-bin.tar.gz,并且解压,解压后会形成一个apache-nutch-1.12文件夹;

2. 编辑conf/nutch-site.xml文件:

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?><!-- Put site-specific property overrides in this file. --><configuration><property><name>http.agent.name</name><value>My Spider</value></property><property><name>plungin.folders</name><value>/opt/apache-nutch-1.12/plugins</value></property></configuration>

3. 进入apache-nutch-1.12文件夹,输入命令:

mkdir -p ./urls
cd urls
touch seed.txt

编辑seed.txt文件,加上你想要抓取的网站,如:

http://xxxx.com/

编辑conf/regex-urlfilter.txt文件,加上一个正则表达式:

# accept anything else
+^http://([a-z0-9]*\.)*xxxx.com/

这样,就会抓取http://xxxx.com/这个网站的所有网页。

4. 新建一个crawls目录,运行:

bin/crawl urls/seed.txt crawls 10

这样就可以进行抓取网页了,其中crawls是抓取数据存放的目录,10是轮数。

5. 抓取结束以后,会在crawls目录下产生三个文件夹:crawldb、linkdb、segments,使用下面的命令将二进制文件导出为文本文件:

bin/nutch readseg -dump ./crawls/segments/20170328163131 ./crawls/segments/2017032816313_dump

然后就可以用gedit打开文本文件查看抓取结果了。


以上就是Nutch的安装和配置的全部内容了,更多内容请关注:CPP学习网_CPP大学
本文固定链接:CPP学习网_CPP大学-Nutch的安装和配置

转载于:https://www.cnblogs.com/cppys/p/6640231.html

Nutch的安装和配置相关推荐

  1. Maven安装与配置(最实用!!!)eclipse中配置maven

    Maven安装与配置 一.需要准备的东西 JDK Eclipse(本章主要是在eclipse中进行配置maven) Maven程序包 二.下载与安装 1. 前往maven下载最新版的Maven程序: ...

  2. Portainer 安装与配置

    文章目录 Portainer 安装与配置 一.介绍 二.安装使用 1.单机运行 2.基于swarm集群方式运行 Portainer 安装与配置 一.介绍 ​ Portainer 是一个开源.轻量级Do ...

  3. Myeclipse安装、配置、测试

    Myeclipse安装.配置.测试(win7_64bit) 目录 1.概述 2.本文用到的工具 3.安装与激活 4.JavaSE开发测试(确保JDK已正确安装) 5.JavaEE开发测试(确保服务器和 ...

  4. [网摘学习]在Ubuntu上安装和配置OpenStack Nova之二

    再收藏一份Openstack的文章,这两天的操作与此相同.但其中出现的问题还需要查找原因.待个人继续学习研究. 原文参考:http://www.linuxde.net/2011/11/1599.htm ...

  5. centos6.5 php5.2,Linux中PHP安装与配置(CentOS-6.5:php-5.2.13)

    1 PHP简介     PHP(PHP: Hypertext Preprocessor的缩写,中文名:"超文本预处理器")是一种通用开源脚本语言.语法吸收了C语言.Java和Per ...

  6. java jdk 1.8 安装_下载、安装、配置 java jdk1.8

    近期配置react native的开发环境,所以就从配置环境开始.rn的环境配置有那么几项,其中重要的一个就是java jdk(Java Development Kit 的缩写),那么以下就是下载.安 ...

  7. mysql安装好需要优化配置一下_Mysql的安装、配置、优化

    Mysql的安装.配置.优化 安装步骤 1.先单击中的安装文件,如果是win7系统,请选择以管理员的方式运行. 2.大概需要30秒的时间,开始进入安装界面.请先把标红的打勾,好进行下一步的动作. 3. ...

  8. windows下opencv安装及配置(vs2010环境)

    opecv下载 前往官方下载地址 https://opencv.org/releases/ opencv安装及配置 解压,会得到一个opencv文件夹,可将提取出的文件移动到任意位置,我将其放在F盘. ...

  9. Elasticsearch 6.3.1、Head插件 安装及配置

    安装Elasticsearch Elasticsearch下载地址:https://www.elastic.co/cn/downloads/elasticsearch 也可以直接使用wget下载到某目 ...

最新文章

  1. oracle绑定变量赋值,Oracle教程之绑定变量
  2. silverlight元素FrameworkElement.LayoutUpdated布局变化事件
  3. Linux下Keepalived安装与配置
  4. Android Service Security
  5. window 10下 Spark 安装简单使用
  6. URL中#号(井号)的作用
  7. 制定交叉编译工具_配置交叉编译工具链-嵌入式Linux
  8. layui 关于layDate设置时间限制问题
  9. [css] 请写出:link、:visited、:hover、:active的执行顺序
  10. [scikit-learn 机器学习] 7. 朴素贝叶斯
  11. 见微知著,构“见”未来
  12. 【Elasticsearch】针对初学者的Elasticsearch搜索故障排除
  13. es6html模板,js 字符串模板 ES6
  14. 阿言学习之Hadoop fs常用命令
  15. com.android.packageinstaller,Android PackageInstaller 安装和卸载
  16. 九章云极DataCanvas公司荣获机器之心三大奖项,助力产业数智化升级
  17. 打鱼晒网C语言程序,C语言打鱼还是晒网问题
  18. 关于计算机的发展史手抄报图片,历史手抄报精选图片内容
  19. 网络打印机计算机服务,在Windows7中添加网络打印机的解决方案提示“本地打印机后台处理程序服务未运行”...
  20. RuiJi Scraper 分页抽取

热门文章

  1. 企业网络推广方案分享如何针对大量的长尾词进行更好地优化方法!
  2. 如何显示服务器上excel,如何在HTML中使用OWC正确显示、加载服务器端的excel文件呢?...
  3. 射线法 java_射线法(1190 - Sleepwalking )
  4. 华为的Java虚拟机_华为方舟编译器解析:提升安卓运行效率
  5. linux pid t 头文件_Linux信号处理
  6. navicat导数据速度_华为廊坊云数据中心二期1~3期主楼聚氨脂、聚脲防水隔热总承包工程...
  7. 开发日记-20190719 关键词 读书笔记《Linux 系统管理技术手册(第二版)》DAY 12
  8. (转载)Ubuntu命令卸载软件
  9. 如何解读「量子计算应对大数据挑战:中国科大首次实现量子机器学习算法」?——是KNN算法吗?...
  10. splunk的统计分析功能——特定字段的统计功能包括取值分布(+topK,min/max/平均值)...