nutch开发(二)

文章目录

  • nutch开发(二)
      • 开发环境
    • 1.爬取后生成的目录结构
      • crawldb
      • linkdb
      • segments
    • 2.阅读TestCrawlDbMerger
      • createCrawlDb
      • 读取crawldb
    • 3.关于索引的建立
    • 4.创建一个一步式的爬虫启动类
      • 创建启动类
      • 关于如何配置solr服务器的位置
    • 5.Crawler部分代码讲解
      • 核心类
      • 核心函数

开发环境

  • Linux,Ubuntu20.04LST
  • IDEA
  • Nutch1.18
  • Solr8.11

转载请声明出处!!!By 鸭梨的药丸哥

1.爬取后生成的目录结构

crawldb

crawldb目录下面存放下载的URL,以及下载的日期、过期时间

linkdb

linkdb目录存放URL的关联关系,是下载完成后分析时创建的

segments

segments目录存储抓取的页面,这些页面是根据层级关系分片的。

“crawl_generate” 生成要获取的一组URL的名字,既生成待下载的URL的集合

“crawl_fetch” 包含获取每个URL的状态

”content“ 包含从每个URL检索的原始内容

“parse_text” 包含每个URL的解析文本(存放每个解析过的URL的文本内容)

“parse_data” 包含从每个URL分析的外部链接和元数据

“crawl_parse” 包含用于更新crawldb的outlink URL(外部链接库)

这里给一张网络图片,这图片清晰滴描述了几个目录和爬取的关系

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-1zgfSJou-1644982714814)(F:\笔记文档\笔记图片\3.jpg)]

2.阅读TestCrawlDbMerger

阅读test包下面的org.apache.nutch.crawl.TestCrawlDbMerger,是为了更好理解CrawlDb是什么东东。

createCrawlDb

从createCrawlDb可以看出CrawlDb里面的part-r-00000文件夹里面的文件是Hadoop的SequenceFile格式数据,其中data和index组合成MapFile,MapFile是基于SequenceFile实现的。

  • SequenceFile 是 Hadoop 的一个重要数据文件类型,它提供key-value的存储,但与传统key-value存储(比如hash表,btree)不同的是,它是 appendonly的,于是你不能对已存在的key进行写操作。每一个key-value记录如下图,不仅保存了key,value值,也保存了他们的长度。
  • MapFile – 一个key-value 对应的查找数据结构,由数据文件/data 和索引文件 /index 组成,数据文件中包含所有需要存储的key-value对,按key的顺序排列。索引文件包含一部分key值,用以指向数据文件的关键位置。
private void createCrawlDb(Configuration config, FileSystem fs, Path crawldb,TreeSet<String> init, CrawlDatum cd) throws Exception {LOG.debug("* creating crawldb: " + crawldb);Path dir = new Path(crawldb, CrawlDb.CURRENT_NAME);//可以看出文件夹里面的文件是SequenceFile格式//其中整个文件夹是MapFile格式,index是索引文件,data是数据文件Option wKeyOpt = MapFile.Writer.keyClass(Text.class);org.apache.hadoop.io.SequenceFile.Writer.Option wValueOpt = SequenceFile.Writer.valueClass(CrawlDatum.class);//生成MapFileMapFile.Writer writer = new MapFile.Writer(config, new Path(dir,"part-r-00000"), wKeyOpt, wValueOpt);Iterator<String> it = init.iterator();while (it.hasNext()) {String key = it.next();//这里看出索引是以url进行索引的writer.append(new Text(key), cd);}writer.close();}

读取crawldb

参试读取crawlDb,前面说过crawldb里面的文件是SequenceFile文件格式的,所以我们用SequenceFile.Reader读取data文件,前面说过这个文件夹是MapFile数据格式,由数据文件/data 和索引文件 /index 组成。

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.SequenceFile;
import org.apache.hadoop.io.Text;
import org.junit.Test;
import java.io.IOException;/*** @author liangwy*/
public class TestCrawlDbReader {@Testpublic void readDbTest() throws IOException {Configuration conf=NutchConfiguration.create();Path dataPath=new Path("/home/liangwy/IdeaProjects/apache-nutch-1.18/myNutch/crawldb/current/part-r-00000/data");FileSystem fs=dataPath.getFileSystem(conf);SequenceFile.Reader reader=new SequenceFile.Reader(fs,dataPath,conf);Text key=new Text();CrawlDatum value=new CrawlDatum();while(reader.next(key,value)){System.out.println("key:"+key);System.out.println("value:"+value);}reader.close();}
}

结果

key:http://nutch.apache.org/
value:Version: 7
Status: 5 (db_redir_perm)
Fetch time: Sun Feb 13 20:29:40 CST 2022
Modified time: Fri Jan 14 20:29:40 CST 2022
Retries since fetch: 0
Retry interval: 2592000 seconds (30 days)
Score: 1.0
Signature: null
Metadata: _pst_=moved(12), lastModified=0: https://nutch.apache.org/_rs_=339Content-Type=application/octet-streamnutch.protocol.code=301

3.关于索引的建立

Nutch把全文检索功能独立出去后,已经摇身一变成网络爬虫了,主要是爬取功能,关于index的功能已经交个其他全文检索服务器实现了,如solr等。

其中,Nutch1.18使用IndexingJob这个启动类去实现索引功能,而IndexingJob背后正在实现去服务器建立索引的实现是各种插件,如indexer-solr插件,所以Nutch才能支持多种全文检索服务器。

索引的建立可以通过以下代码实现,至于具体的全部代码我后面会给出,并将代码发到github上面。

// index
FileStatus[] fstats = fs.listStatus(segments, HadoopFSUtil.getPassDirectoriesFilter(fs));
IndexingJob indexer = new IndexingJob(getConf());
indexer.index(crawlDb, linkDb,
Arrays.asList(HadoopFSUtil.getPaths(fstats)),false);

4.创建一个一步式的爬虫启动类

创建启动类

下面的Crawler可以实现一整个爬取流程,并在solr服务器上面建立索引。

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileStatus;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.mapred.JobConf;
import org.apache.hadoop.util.Tool;
import org.apache.hadoop.util.ToolRunner;
import org.apache.nutch.fetcher.Fetcher;
import org.apache.nutch.indexer.CleaningJob;
import org.apache.nutch.indexer.IndexingJob;
import org.apache.nutch.parse.ParseSegment;
import org.apache.nutch.util.HadoopFSUtil;
import org.apache.nutch.util.NutchConfiguration;
import org.apache.nutch.util.NutchTool;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;import javax.xml.crypto.Data;
import java.lang.invoke.MethodHandles;
import java.text.SimpleDateFormat;
import java.util.Arrays;
import java.util.Date;
import java.util.Map;/*** @author liangwy*/
public class Crawler extends NutchTool implements Tool {private static final Logger LOG = LoggerFactory.getLogger(MethodHandles.lookup().lookupClass());private Configuration conf;@Overridepublic Configuration getConf() {if (conf == null){conf = NutchConfiguration.create();}return conf;}public String getDate(){return new SimpleDateFormat("yyyyMMddHHmmss").format(new Date(System.currentTimeMillis()));}/*** ToolRunner.run()最终会运行这个函数* 还有,下面的写法在Nutch1.18能运行,其他版本不一定能运行,* 比如在dedup 命令从 Nutch 1.8 开始替换 SOLR dedup 命令,用法上也有所不同。* 应该在建立 Solr 索引之前执行,以保证 URL在 crawldb 数据库和 Solr 索引中的唯一性。* @param strings* @return* @throws Exception*/@Overridepublic int run(String[] strings) throws Exception {/*种子所在文件夹*/Path rootUrlDir = new Path("/home/liangwy/IdeaProjects/apache-nutch-1.18/urls");/*存储爬取信息的文件夹*/Path dir = new Path("/home/liangwy/IdeaProjects/apache-nutch-1.18","crawl-" + getDate());/*爬取线程个数*/int threads = 50;/*广度遍历时爬取的深度,即广度遍历树的层数*/int depth = 2;/*每次只爬开头的前10条*/long topN = 10;JobConf job = new JobConf(getConf());FileSystem fs = FileSystem.get(job);if (LOG.isInfoEnabled()) {LOG.info("crawl started in: " + dir);LOG.info("rootUrlDir = " + rootUrlDir);LOG.info("threads = " + threads);LOG.info("depth = " + depth);if (topN != Long.MAX_VALUE)LOG.info("topN = " + topN);}/*目录*/Path crawlDb = new Path(dir + "/crawldb");Path linkDb = new Path(dir + "/linkdb");Path segments = new Path(dir + "/segments");/*各种功能启动类*/Injector injector = new Injector(getConf());Generator generator = new Generator(getConf());Fetcher fetcher = new Fetcher(getConf());ParseSegment parseSegment = new ParseSegment(getConf());CrawlDb crawlDbTool = new CrawlDb(getConf());LinkDb linkDbTool = new LinkDb(getConf());// initialize crawlDbinjector.inject(crawlDb, rootUrlDir);//爬取次数int i;for (i = 0; i < depth; i++) {// generate new segmentPath[] segs = generator.generate(crawlDb, segments, -1, topN, System.currentTimeMillis());if (segs == null) {LOG.info("Stopping at depth=" + i + " - no more URLs to fetch.");break;}fetcher.fetch(segs[0], threads);  // fetch itif (!Fetcher.isParsing(job)) {parseSegment.parse(segs[0]);    // parse it, if needed}crawlDbTool.update(crawlDb, segs, true, true); // update crawldb}/*Nutch1.18里面没有SolrDeleteDuplicates,后来查资料发现,dedup 命令从 Nutch 1.8 开始替换 SOLR dedup 命令,去重操作改成了在建立索引前进行去重了*///去重DeduplicationJob dedup = new DeduplicationJob();dedup.setConf(getConf());//脚本参数String[] dedupArgs = new String[]{crawlDb.toString()};//貌似没有封装过的去重方法,这里就调用run函数了dedup.run(dedupArgs);// invert linksif (i > 0) {linkDbTool.invert(linkDb, segments, true, true, false); // invert links// indexFileStatus[] fstats = fs.listStatus(segments, HadoopFSUtil.getPassDirectoriesFilter(fs));IndexingJob indexer = new IndexingJob(getConf());indexer.index(crawlDb, linkDb,Arrays.asList(HadoopFSUtil.getPaths(fstats)),false);//cleanCleaningJob cleaningJob = new CleaningJob();cleaningJob.setConf(getConf());cleaningJob.delete(crawlDb.toString(),false);} else {LOG.warn("No URLs to fetch - check your seed list and URL filters.");}if (LOG.isInfoEnabled()) { LOG.info("crawl finished: " + dir); }return 0;}/*** Used by the Nutch REST service* @param args* @param crawlId* @return* @throws Exception*/@Overridepublic Map<String, Object> run(Map<String, Object> args, String crawlId) throws Exception {return null;}public static void main(String[] args) throws Exception {int res = ToolRunner.run(NutchConfiguration.create(), new Crawler(), args);System.exit(res);}}

关于如何配置solr服务器的位置

conf/目录下面,有一个index-writers.xml的配置文件,找到indexer_solr_1,里面有配置slor服务器的位置和一些索引建立时的配置信息。

  <writer id="indexer_solr_1" class="org.apache.nutch.indexwriter.solr.SolrIndexWriter"><parameters><param name="type" value="http"/><param name="url" value="http://localhost:8983/solr/nutch"/><param name="collection" value=""/><param name="weight.field" value=""/><param name="commitSize" value="1000"/><param name="auth" value="false"/><param name="username" value="username"/><param name="password" value="password"/></parameters><mapping><copy><!-- <field source="content" dest="search"/> --><!-- <field source="title" dest="title,search"/> --></copy><rename><field source="metatag.description" dest="description"/><field source="metatag.keywords" dest="keywords"/></rename><remove><field source="segment"/></remove></mapping></writer>

5.Crawler部分代码讲解

核心类

Injector injector = new Injector(getConf());  //inject功能
Generator generator = new Generator(getConf());   //generate功能
Fetcher fetcher = new Fetcher(getConf());  //网页fetch
ParseSegment parseSegment = new ParseSegment(getConf());  //parse
CrawlDb crawlDbTool = new CrawlDb(getConf());   //update
LinkDb linkDbTool = new LinkDb(getConf());   //Invert linksDeduplicationJob dedup = new DeduplicationJob();  // DeleteDuplicates
IndexingJob indexer = new IndexingJob(getConf());  // Index IndexMerger
CleaningJob cleaningJob = new CleaningJob();  // 去除401,302的index

核心函数

//注入urls
injector.inject(crawlDb, rootUrlDir);  //创建新的segments,在新的segments里面创建抓取列表crawl_generate
generator.generate(crawlDb, segments, -1, topN, System.currentTimeMillis()); //给最新的segments进行网页的抓取,生成"crawl_fetch","content"
fetcher.fetch(segs[0], threads);//解析最新的segments的爬取内容,生成“parse_text” “parse_data” “crawl_parse”
parseSegment.parse(segs[0]);//跟新crawldb
crawlDbTool.update(crawlDb, segs, true, true);//去重,NUTCH1.8之后去重工作放在了index之前
dedup.run(dedupArgs);//链接反转,建立索引前的一步
linkDbTool.invert(linkDb, segments, true, true, false);//添加索引,去哪个索引服务器添加跟你配置的index-writers.xml有关
indexer.index(crawlDb, linkDb,Arrays.asList(HadoopFSUtil.getPaths(fstats)),false);//清除302,401等网页,这里的清除操作是添加索引之后
cleaningJob.delete(crawlDb.toString(),false);

nutch开发(二)相关推荐

  1. springboot flask php,使用Vue,Spring Boot,Flask,Django 完成Vue前后端分离开发(二)

    使用Vue完成前后端分离开发(二) Bravery never goes out of fashion. 勇敢永远不过时. 前面简单说了一下 Vue 项目的搭建和项目的大致页面,这里讲一下 Djang ...

  2. 【Android游戏开发二十七】讲解游戏开发与项目下的hdpi 、mdpi与ldpi资源文件夹以及游戏高清版本的设置...

    今天一个开发者问到我为什么游戏开发要删除项目下的hdpi.mdpi和ldpi文件夹:下面详细给大家解答一下: 首先童鞋们如果看过我写的<[Android游戏开发二十一]Android os设备谎 ...

  3. Qt计算器开发(二):信号槽实现数学表达式合法性检查

    表达式的合法性 由于我们的计算器不是单步计算的,所以我们能够一次性输入一个长表达式.然而假设用户输入的长表达式不合法的话,那么就会引发灾难.所以有必要对于用户的输入做一个限制. 一些限制举例: 比方, ...

  4. SQL2K数据库开发二十三之索引操作重建索引

    1.可以使用下面的语句创建索引,重建索引应使用DROP_EXISTING选项. 2.在SQL Server查询分析器中输入如下的SQL语句,点击工具栏上的执行查询图标. 3.查询语句执行完毕后,结果窗 ...

  5. 以太坊开发(二)使用Ganache CLI在私有链上搭建智能合约

    以太坊开发(二)使用Ganache CLI在私有链上搭建智能合约 在上一篇文章中,我们使用Truffle自带的客户端Truffle Develop,在私有链上搭建并运行了官方提供的WebPack智能合 ...

  6. Java 快速开发二维码生成服务

    点击上方蓝色"程序猿DD",选择"设为星标" 回复"资源"获取独家整理的学习资料! 来源 | 公众号「码农小胖哥」 1. 前言 不知道从什么 ...

  7. proc除了能用于oracle开发_能不能用于mysql开发_Oracle数据库开发(二).Linux下配置使用ProC...

    一.提要 上文简单介绍了Windows下ProC配置开发,这次我们使用Linux平台再次配置Oracle ProC开 发环境(RedHat Linux 9 + Oracle 92). <ORAC ...

  8. firefox扩展开发(二):用XUL创建窗口控件

    firefox扩展开发(二):用XUL创建窗口控件 2008-06-11 16:57 1.创建一个简单的窗口 <?xml version="1.0"?> <?xm ...

  9. SQL2K数据库开发二十六之存储过程操作创建存储过程(一)

    1.可以使用Transact-SQL中的CREATE PROCEDURE语句创建存储过程,使用该语句的语法为: 2.在查询分析器中执行如下语句创建一个存储过程. 3.在企业管理器中创建存储过程的方法为 ...

最新文章

  1. 人工智能技术给教育行业带来哪些主要影响?
  2. 学计算机编程会秃头吗,编程真的容易导致秃顶么?
  3. Unity3d 枚举某个目录下所有资源
  4. android视频编辑功能,万能视频编辑器
  5. Android平板软件推荐,Android平板电脑必备软件推荐
  6. 计算机右键菜单太多,文件右键太多?win10 ghost小方法删除右键多余菜单
  7. poi导出Excel,表格画斜线,并设置数据
  8. python父亲节祝福_关于父亲节的祝福语大全(27句),暖心的句子
  9. 答应了邮件offer还能反悔吗?
  10. CSS利用PS切图+学成在线综合案例
  11. twitter点赞图标分析
  12. 科利转债上市价格预测
  13. 蓝桥杯第12届第三次模拟
  14. 平安科技Java后台开发面试
  15. Python之排序函数总结
  16. Vue element 自定义表单验证(验证联系方式、邮箱、邮政编码)
  17. 计算机软件与理论 算法,几种几何约束求解算法的分析-计算机软件与理论专业论文.docx...
  18. 【CISSP】安全评估与测试
  19. LeetCode题解:Balanced Binary Tree
  20. homebrew 下载软件包失败,使用手动下载

热门文章

  1. 获取iPhone型号
  2. LAN远程重启server安全方法
  3. Linux目录、文件的创建与删除
  4. ospf与辅助接口实验
  5. 深度学习中softmax交叉熵损失函数的理解
  6. kettle的基本介绍
  7. Oracle 把触发器说透
  8. C#.NET编程----Spring.NET NHibernate整合
  9. mongoDB3.4主从复制实现(第一种情况亲测)
  10. MongoDB 聚合操作之$group使用