在nutch中,默认情况下尊重robot.txt的配置,同时不提供配置项以忽略robot.txt。
以下是其中一个解释。即作为apache的一个开源项目,必须遵循某些规定,同时由于开放了源代码,可以简单的通过修改源代码来忽略robot.txt的限制。

From the point of view of research and crawling certain pieces of the web, and i strongly agree with you that it should be configurable. But because Nutch being an Apache project, i dismiss it (arguments available upon request). We should adhere to some ethics, it is bad enough that we can just DoS a server by setting some options to a high level. We publish source code, it leaves the option open to everyone to change it, and i think the current situation is balanced enough.
Patching it is simple, i think we should keep it like that :)

以下为修改源代码的方法:【未验证】
修改类org.apache.nutch.fetcher.FetcherReducer.java
将以下内容注释掉:

       if (!rules.isAllowed(fit.u.toString())) {// unblockfetchQueues.finishFetchItem(fit, true);if (LOG.isDebugEnabled()) {LOG.debug("Denied by robots.txt: " + fit.url);}output(fit, null, ProtocolStatusUtils.STATUS_ROBOTS_DENIED,CrawlStatus.STATUS_GONE);continue;}

Nutch关于robot.txt的处理相关推荐

  1. robot.txt是干嘛的?

    学爬虫一定会涉及到robot.txt这个文件,访问网站域名+ / + robot.txt ,即可访问这个文件. 之前看过不少byteSpider疯狂务实robot.txt爬瘫一些小站.看看这个也好 r ...

  2. robot.txt 搜索引擎 蜘蛛爬虫 搜索规则

    搜索引擎通过一种程序robot(又称spider),自动访问互联网上的网页并获取网页信 息.您可以在您的网站中创建一个纯文本文件robots.txt,在这个文件中声明该网站中不想被robot 访问的部 ...

  3. robot.txt 搜索引擎 蜘蛛爬虫 搜索规则

    搜索引擎通过一种程序robot(又称spider),自动访问互联网上的网页并获取网页信 息.您可以在您的网站中创建一个纯文本文件robots.txt,在这个文件中声明该网站中不想被robot 访问的部 ...

  4. linux环境nutch的配置,linux下nutch的安装配置

    Nutch,一个爬虫或者搜索引擎(加上索引的话). 现在Nutch的最新版本是Nutch2.1.Nutch所有的版本可在这个网址下载http://archive.apache.org/dist/nut ...

  5. Cygwin,Nutch安装配置,检验是否正确(对网友守望者博客的修改---在此感谢守望者)2

    前言:作者(守望者MS)在实际搭建并开发Nutch的过程中参阅很多中文资料,但内容并不详尽且有错误,于是在此记录个人实战过程,纠正一些文章错误,以详细的过程展现一次简单的二次开发流程,为初学者降低门槛 ...

  6. Windows下Nutch的配置

    Nutch是一个开源的.Java实现的搜索引擎.它提供了我们运行自己的搜索引擎所需的全部工具. Nutch可以分为2个部分: 抓取部分crawler 抓取程序抓取页面并把抓取回来的数据做成反向索引 搜 ...

  7. path r'c test.html',robot framework - robot命令参数解析

    robot 命令参数解析 version > 3.0.1 原文档查看命令: robot --help robot -h -F --extension value 通过文件扩展名控制需要执行的用例 ...

  8. swagger python自动化用例_自动生成robot自动化测试用例

    #!/usr/bin/env python """解析swagger接口返回值自动生成接口自动化用例 将新增的用例写入到文件末尾,已存在的用例则不重新写入"&q ...

  9. RF:Robot命令行工具帮助文件中文译版(个人翻译)

    工作需要,重回RF怀抱,对robot这个工具有使用需求,所以研究了下它的帮助文件,靠着个人和谷歌,翻译了一下帮助文件,仅供参考,如有错误,望大佬不吝指正. 全文翻译如下: robot --help R ...

最新文章

  1. 深度学习新算法,完成字里行间的情绪识别
  2. matlab freqz函数使用
  3. 开源 免费 java CMS - FreeCMS1.2-标签 userList
  4. MySQL -- Lock wait timeout exceeded; try restarting transaction参数控制
  5. 【Spring学习】spring注解自动注入bean
  6. tcp欢动窗口机制_TCP协议中的窗口机制------滑动窗口详解
  7. Linux系统下安装TreeNMS1.6.9
  8. 简单易懂的 全景图高清下载方法以及原理简要解析(支持下载建E、720yun、酷雷曼、景站、酷家乐、百度街景原图)
  9. Android源码层修改默认时区
  10. 成都拓嘉启远:拼多多推广如何自己添加关键词
  11. BTC系列 - 用docker搭BTC Testnet
  12. 【转载】设置端口映射或DMZ主机---将内网web服务器映射入公网
  13. 数据库连接的Persist Security Info参数说明
  14. 写字机器人制作教程2.0
  15. iphone软件破解教程(工具篇)
  16. profinet西门子 Smart200对接工业读写器
  17. 2022年,或许是未来10年经济最好的一年,2022年你毕业了吗?毕业后是怎么计划的?
  18. Excel打开开发工具(开发者选项)
  19. FFmpeg被声明为已否决情况整理
  20. 惠普商用台式计算机带TPM,了解您的计算机是否支持TPM | MOS86

热门文章

  1. python基本数据类型包括哪些_python入门3——基本数据类型
  2. 引入 JPEGCodec;JPEGImageEncoder; 图片处理(有的时候会报错)
  3. oracle java调用存储过程_Java调用Oracle存储过程
  4. matlab循环矢量化 嵌套,在Matlab中对for循环进行矢量化,得到不同结果的看似等效的代码...
  5. linux最简单的查杀病毒,linux查杀病毒的几个思路
  6. 学python的前提_Python语言学习前提:条件语句
  7. visio交换机图标_分享 | 华为交换机开局配置一本通,弱电新人学习!
  8. linux c 进程策略 优先级,当两个线程拥有相同优先级时,linux c的线程调度策略问题...
  9. 华硕笔记本,宽带连上,可以上网, 但收到不无线
  10. 这几种程序员前途无量!你在其中吗?