一、nutch简介

nutch是大名鼎鼎的Doug Cutting发起的爬虫项目,nutch孵化了现在大数据处理框架Hadoop。在nutch V 0.8.0 版本之前,Hadoop是nutch的一部分,从nutch V0.8.0开始,HDFS和MapReduce从nutch中剥离出成为Hadoop。v0.8.0之后,nutch就完全构建在Hadoop的基础之上了。

Nutch是一个开源的网络爬虫,在搜索引擎中负责爬取网页,同时自动维护网页的URL信息,例如相同网页去重、网页定时更新、网页重定向。nutch采用了MapReduce分布式爬取和解析,具有良好的水平扩展性。
现在版本的Nutch本身并不具有搜索功能(V1.2之后,nutch专注于爬取数据),但是可以自动向搜索服务器提交爬取的网页。例如,solr,可以通过Nutch自带的命令,来控制Nutch是否将网页提交给索引服务器。
Nutch虽然是优秀的分布式爬虫框架,但是它的所有设计,都是为了搜索引擎服务的。在hadoop上用map-reduce框架开发,并不是很适合做数据抽取的业务。如果你的业务是做数据抽取(精抽取),而不是搜索引擎。不一定要选用Nutch。
nutch现在分为两个分支。一个是1.x系列,一个是2.x系列。它们的主要区别是2.x引入了Gora作为存储抽象层,从而支持各种NoSQL数据库,如HBase,Cassandra等

二、nutch安装

1.nutch的运行环境
    JDK1.7及以上
    需要使用linux操作系统

2.解压:

设置环境变量

验证: nutch

3.目录结构

bin:两个文件,一个是nutch,一个是crawl,
        crawl是对nutch中的命令进行了封装,实现了一站式调用。
        
conf:里面保存了nutch的基本配置信息,nutch-default.xml nutch-site.xml parse-plugins.xml regex-urlfilter.txt
    
  docs:api文档
  lib:存储了nutch的依赖jar包
  plugins:存储了nutch使用的插件jar包

三、nutch 爬虫

nutch 爬取准备工作

1:在nutch-site.xml中添加http.agent.name的配置。如果不配置,启动会报错。

2:创建一个种子地址目录,urls(在nutch 目录中就可以),在目录下面创建一些种子文件,种子文件中保存种子地址。每一个种子地址占一行。http:www.zhaozhiyong.cn

注意:种子地址必须以类似于http的字符开头

3:(可选):控制爬取的url范围,只爬取站内,在regex-urlfilter.txt 最后添加 :+^http://([a-z0-9]*\.)*bbs.superwu.cn/[\s\S]*

4:nutch爬取数据   bin/crwal urls crawl 1
    crawl urls crawl 1
    urls:表示是种子目录
    crawl:表示是爬取文件的存储位置
    1:表示是爬取的层次

5.nucth爬取生成的目录
    在爬取的时候指定的crawl中会有下面几个目录
    crawldb:存储的是待爬取的url
        查看目录数据:nutch readdb crawl/crawldb -stats -sort
    linkdb:存储的是反链信息
        查看目录数据:nutch readlinkdb crawl/linkdb -dump links 
    segments:存储的是网站所有数据信息
        查看目录数据:nutch readseg -dump crawl/segments/20150906090648 sgedb
        
    一个segment包括以下子目录:
        crawl_generate:包含需要抓取的网址列表
        crawl_fetch:包含每个抓取页面的状态
        content:包含每个抓取页面的原始内容
        parse_text:包含每个抓取页面的解析文本
        parse_data:包含每个页面的外部链接(外链)和元数据
        crawl_parse:包含网址的外部链接地址,用于更新crawldb数据库

6.查看nutch生成的数据
    nutch中的数据都是sequencefile格式的,除了使用上面的nutch命令查看之外
        还可以使用java代码读取这些文件
        参考资料<查看nutch生成的中间文件>
        注意:在使用提供的代码读取文件时,需要先使用more命令查看对应文件中存储的数据类型
            对应需要修改代码中27行中的value的类型。

四、在solr中对爬取的数据建立索引

在使用solr的之前做以下步骤:

1):需要把nutch下的schema-solr4.xml拷贝到solr中

命令:cp /usr/local/nutch/conf/schema-solr4.xml /usr/local/solr-4.10.4/example/solr/collection1/conf

2):删除solr中的默认配置文件schema.xml,在把刚才拷贝过去的文件该名称
        cd /usr/local/solr-4.10.4/example/solr/collection1/conf
        rm schema.xml
        mv schema-solr4.xml schema.xml

3):在schema.xml中添加一个字段配置
        <field name="location" type="string" stored="true" indexed="true"/>

或者也可以动态指定,
        例子:crawl -i -D "solr.server.url=http://192.168.1.170:8983/solr" urls crawl 1

1.启动solr

cd /usr/local/solr-4.10.4/example
    java -jar start.jar

2.

命令:crawl -i urls crawl 1

-i:表示会对爬取的数据建立索引,默认会在本机solr中建立索引,
        如果使用其他服务器上的solr,需要修改nutch-default中solr.server.url的值,
        建议在nutch-site.xml中进行覆盖。

3.检验

http://127.0.0.1:8983/solr/  可以通过query 查看到content的内容

注意:如果把爬取层次改为2层,发先抓取的数据还是很少,那是因为在regex-urlfilter.txt中对url进行了过滤
        把url中包含?=之类的都忽略掉了。
        所以可以把这个配置直接注释掉,或者修改为其他规则。
        详细修改,参考:<regex-urlfilter解释.txt>

五、nutch源码导入到eclipse

先安装ant
    cd /usr/local
    tar -zxvf apache-ant-1.9.6-bin.tar.gz
    mv apache-ant-1.9.6 ant
    export ANT_HOME=/usr/local/nutch
    export PATH=$ANT_HOME/bin:$PATH

nutch的源码是ant管理的,所以不能直接导入到eclipse,需要转换可以使用ant eclipse -verbose但是,nutch的依赖是使用ivy管理的,
在执行转换的过程中会下载依赖的jar包,jar包很多,所以建议使用提供的.ivy.zip文件。
这样在转换的时候就需要指定一下ivy jar包的存放位置,使用下面命令
ant eclipse -Divy.default.ivy.user.dir=/usr/local/.ivy -verbose
        
转换完成之后就可以导入到eclipse中了,但是导入之后发现源码报错,

需要修改java buildpath->order and export ->把apache-nutch-1.10/src/bin 移动到最上面,   使用top按钮。

六、nutch源码编译

需要先把.ivy.zip包解压到/usr/local目录下面

解压unzip .ivy.zip(在Linux 下)
    如果提示没有unzip命令,则使用yum install -y unzip

下载nutch源码,解压,重命名

cd /usr/local
    tar -zxvf apache-nutch-1.10-src.tar.gz 
    mv apache-nutch-1.10 nutch_src
    cd nutch_src
    ant -Divy.default.ivy.user.dir=/usr/local/.ivy –verbose

注意:在编译源码之前,需要修改nutch_src/conf/nutch-site.xml,
        在里面添加http.agent.name属性
        <property>
          <name>http.agent.name</name>
          <value>my nutch spider</value>
        </property>

七:nutch运行的两种方式

在nutch官网下载的nutch的bin压缩包,只支持在使用本地模式运行nutch
    想要使用集群模式的话需要使用编译后的源码中的脚本

cd /usr/local/nutch_src/runtime/deploy
    bin/crawl /urls /crawl 1

注意:在使用这种方式的时候要保证nutch所在的节点上面配置的有HADOOP_HOME
        环境变量,因为nutch在向集群中提交任务的时候会根据这个环境变量对应
        的目录下面的配置文件找集群的地址。
        /urls 表示是hdfs上面的文件,里面必须要有一个种子文件

1:nutch的采集流程
    inject:表示注入url
    generagete:生成爬取列表
    fetch:爬取url
    parse:解析url
    updatedb:更新crawldb数据库
    
    一般情况下,inject只会执行一次,generate、fetch、parse、updatedb这四步是一个循环。

需要nutch的视频资料可以扫描下方微信二维码:

nutch爬虫原来是这样操作的!相关推荐

  1. Nutch爬虫环境搭建

    1 前言 1 2 环境介绍 2 3 准备工作 3 4 Solr安装 8 5 Hbase安装 14 6 Hadoop安装 17 7 Nutch安装 19 8 Solr使用 19 9 Nutch使用 19 ...

  2. Nutch爬虫引擎使用分析

    Nutch2.X主要执行流程: 1)InjectorJob: 从文件中得到一批种子网页,把它们放到抓取数据库中去 2)GeneratorJob:从抓取数据库中产生要抓取的页面放到抓取队列中去 3)Fe ...

  3. Scrapy爬虫框架命令行操作

  4. Nutch爬虫解决页面相对路径问题

    2019独角兽企业重金招聘Python工程师标准>>> 修改LinkDb.java的map方法,对页面取到的outlink进行解析 import com.sun.org.apache ...

  5. python爬虫解决频繁访问_python3拉钩网爬虫之(您操作太频繁,请稍后访问)

    你是否经历过这个: 那就对了~ 因为需要post和相关的cookie来请求~ 所以,一个简单的代码爬拉钩~~~ import requests import time import json def ...

  6. 爬虫技术python nutch_基于Nutch的python爬虫分析

    1.创建一个新的WebDb (admin db -create): 2.将抓取起始URLs写入WebDB中 (inject): 3.根据WebDB生成fetchlist并写入相应的segment(ge ...

  7. IDEA Git操作(三)使用 cherry-pick、交互式 rebase 自由修改提交树

    说明 本教程按照 git在线练习 顺序进行,将在线测试的命令操作落地到 IDEA,使用开发工具来实现所有在线练习中的操作. 你可以结合 git在线练习 来学习本教程,先在线学习git命令,再在 IDE ...

  8. 5行代码就能入门爬虫?

    作者 | 苏克1900 来源 | 第2大脑(ID:Mocun6) 责编 | swallow 不少读者是刚刚入门Python或者想学习Python的,今天就来谈谈如何用快速入门爬虫. 先说结论:入门爬虫 ...

  9. 爬取百度知道分类_百度指数爬虫|介绍篇

    简单介绍 前段时间帮别人写了几个爬虫,其中有一个是爬取百度指数.绝大多数人应该都知道这个东西,我在这里再说明一下哈! 百度指数是百度提供的可以查看人们每天搜索关键词的次数的功能,具体长下面这个样子: ...

最新文章

  1. eclipse java 7_在Eclipse中编程Java 7
  2. linux中权限765啥意思,Linux中的文件权限
  3. java集合之failfast机制
  4. 矩池云上使用nohup和让任务后台运行
  5. python如何制作一个工程软件_如何利用python制作一个解压缩软件-Go语言中文社区...
  6. 关于ODBC使用SQL语句和调用存储过程传递参数的使用方式说明
  7. EF Code First 中使用Jarek Kowalski's Provider的方法1
  8. AIX下使用xmanager
  9. Java ClassLoader基础及加载不同依赖 Jar 中的公共类
  10. 高纬度思考法读书笔记
  11. Go语言使用RabbitMQ
  12. php随机分配班级座位,班级座位编排的几种模式
  13. 香橙派 OrangePi Zero2 配置指南2-改名改密改IP
  14. html页面字体美化,网页字体的美化-网页设计,HTML/CSS
  15. 存储中所说的蓝光和磁带库
  16. 在VS Code中开启gdb的pretty-printer功能
  17. 安装部署WSUS服务器
  18. java是什么?带你了解
  19. 「可口可乐 + Zion」7天上线小程序是如何做到的?
  20. 京东api接入的几个坑(宙斯) 转载

热门文章

  1. 作者:胡良霖(1973-),男,中国科学院计算机网络信息中心高级工程师
  2. 【需求工程】系统服务与系统约束
  3. 【数据库系统】SQL程序设计的层次
  4. 【数据结构与算法】平方探测法散列表的Java实现
  5. 【面向对象】面向对象程序设计测试题14-Java文件测试题
  6. Android连续点击多次事件的实现
  7. Coding and Paper Letter(二)
  8. IDEA 启动报错could not find main class com/intellij/idea/main解决办法
  9. 求两个数组中不同的元素
  10. Android 基础(十三) shape