2019独角兽企业重金招聘Python工程师标准>>>

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<!-- Put site-specific property overrides in this file. -->

<configuration>
<property>
  <name>http.agent.name</name>
  <value>My Nutch Spider</value>
</property>
<property>
  <name>http.robots.agents</name>
  <value>My Nutch Spider,*</value>
  <description>The agent strings we'll look for in robots.txt files,
  comma-separated, in decreasing order of precedence. You should
  put the value of http.agent.name as the first agent name, and keep the
  default * at the end of the list. E.g.: BlurflDev,Blurfl,*
  </description>
</property>
<property>
  <name>http.content.limit</name>
        <value>-1</value>
</property>
<property>
  <name>plugin.includes</name>
    <value>protocol-http|urlfilter-regex|parse-(html|tika)|index-(basic)|indexer-solr|scoring-opic|urlnormalizer-(pass|regex|basic)</value>
      <description>Regular expression naming plugin directory names to
        include.  Any plugin not matching this expression is excluded.
        In any case you need at least include the nutch-extensionpoints plugin. By
        default Nutch includes crawling just HTML and plain text via HTTP,
        and basic indexing and search plugins. In order to use HTTPS please enable
        protocol-httpclient, but be aware of possible intermittent problems with the
        underlying commons-httpclient library.
       </description>
 </property>
 <property>
   <name>urlfilter.blackwhite.file</name>
   <value>blackwhite-urlfilter.txt</value>
   <description>Name of file on CLASSPATH containing url suffixes
         used by urlfilter-blackwhite (BlackWhiteURLFilter) plugin.</description>
</property>
<property>
  <name>db.ignore.internal.links</name>
  <value>false</value>
      <description>If true, when adding new links to a page, links from
        the same host are ignored.  This is an effective way to limit the
        size of the link database, keeping only the highest quality
        links.
     </description>
</property>
<property>
  <name>indexer.add.domain</name>
  <value>true</value>
  <description>Whether to add the domain field to a NutchDocument.</description>
</property>
<property>
  <name>db.fetch.interval.default</name>
  <value>2592000</value>
  <description>The default number of seconds between re-fetches of a page (30 days).
  </description>
</property>

<property>
  <name>http.timeout</name>
  <value>5000</value>
     <description>The default network timeout, in milliseconds.</description>
</property>

<property>
  <name>fetcher.threads.fetch</name>
  <value>200</value>
</property>

<property>
  <name>fetcher.threads.per.host.by.ip</name>
  <value>false</value>
</property>

<property>
  <name>indexer.skip.notmodified</name>
  <value>true</value>
<description>Whether the indexer will skip records with a db_notmodified status.
  </description>
</property>
<property>
<name>fetcher.threads.per.queue</name>
<value>10</value>
</property>
<property>
<name>fetcher.queue.depth.multiplier</name>
<value>200</value>
</property>
<property>
<name>fetcher.server.delay</name>
<value>2.0</value>
</property>
<property>
<name>fetcher.server.min.delay</name>
<value>1.0</value>
</property>
<property>
 <name>fetcher.max.crawl.delay</name>
  <value>10</value>
</property>
<property>
  <name>parser.character.encoding.default</name>
  <value>gb2312</value>
</property>
<property>
  <name>db.max.outlinks.per.page</name>
  <value>10000</value>
</property>
</configuration>

转载于:https://my.oschina.net/junfrank/blog/286548

nutch-site参数配置相关推荐

  1. Hadoop-2.8.0集群搭建、hadoop源码编译和安装、host配置、ssh免密登录、hadoop配置文件中的参数配置参数总结、hadoop集群测试,安装过程中的常见错误

    25. 集群搭建 25.1 HADOOP集群搭建 25.1.1集群简介 HADOOP集群具体来说包含两个集群:HDFS集群和YARN集群,两者逻辑上分离,但物理上常在一起 HDFS集群: 负责海量数据 ...

  2. ssrs 存储过程参数配置_如何为纯模式配置报告服务(SSRS)

    ssrs 存储过程参数配置 In SQL Server Reporting Services Native mode, a report server has a role of a standalo ...

  3. 【无标题】Hadoop HA文件参数配置和HA启动

    Hadoop HA文件参数配置 1.hadoop环境变量 vim /etc/profile #hadoop enviromentexport HADOOP_HOME=/usr/local/src/ha ...

  4. EdgeCOM嵌入式边缘计算机的参数配置

    EdgeCOM嵌入式边缘计算机的参数配置: 下面以 eth0 为例进行命令说明. 在 Linux 系统下,使用 ifconfig 命令可以显示或配置网络设备,使用 ethtool 查询及 设置网卡参数 ...

  5. mysql属性配置提高查询_MYSQL性能优化-安装时优化参数配置提高服务性能

    MYSQL性能优化一直是个头痛的问题,目前大多都是直接把页面html静态页面或直接使用了缓存技术,下面我就mysql本身的性能优化来分享一下. 安装时优化参数配置提高服务性能 在Linux下安装Mys ...

  6. php7+的php-fpm参数配置,注意事项

    安装php7+的,如果php-fpm的这几个参数设置不当了,会导致php-fpm启动不了,nginx站点不能解析php文件,报404错误. 相关命令: centos7+,启动php-fpm: syst ...

  7. linux oracle dblink 访问 postgresql_从Oracle到PG-PostgreSQL数据库参数配置和查看

    完成PG的源码编译安装,以及解决网络访问正常连接的问题.可参考前面的文章: 从Oracle到PG-轻量简易,PostgreSQL-v11.5源码编译安装 从Oracle到PG-PostgreSQL数据 ...

  8. Python使用matplotlib可视化柱状图、坐标轴标签的符号(-)显示为了方框□□、设置rcParams参数配置解决

    Python使用matplotlib可视化柱状图.坐标轴标签的符号(-)显示为了方框□□.设置rcParams参数配置解决 目录

  9. R语言使用survminer包生存分析及可视化(ggsurvplot)实战详解:从数据集导入、生存对象生成、ggsurvplot可视化参数配置、设置、可视化对比

    R语言使用survminer包生存分析及可视化(ggsurvplot)实战详解:从数据集导入.生存对象生成.ggsurvplot可视化参数配置.设置.可视化对比 目录 R语言使用survminer包生 ...

  10. nginx 没有cookie_Nginx 内容缓存及常见参数配置

    使用场景:项目的页面需要加载很多数据,也不是经常变化的,不涉及个性化定制,为每次请求去动态生成数据,性能比不上根据请求路由和参数缓存一下结果,使用 Nginx 缓存将大幅度提升请求速度. 基础 只需要 ...

最新文章

  1. HttpServlet详解
  2. Bootstrap(一):CSS--栅格系统
  3. OpenStack Days走进北京 主角是用户
  4. boost::hana::unpack用法的测试程序
  5. 两个有序线性表的合并(线性表使用 Vector表示)
  6. rlwrap解决sqlplus上下键和backspace键找历史命令
  7. 动态路由协议之OSPF
  8. 人工智能和计算机程序有什么区别,AI与计算机程序的区别?
  9. 考研数学笔记:曲率数学公式推导
  10. Cximage 库使用,直接读取图像数据到内存。
  11. waitpid status参数介绍
  12. ps -ef|grep详解
  13. 消费升级背景下零食行业发展报告_上海日报奥纬陈闻:疫情之下,“小”零食,“大”产业...
  14. XV6 RISCV 源码阅读报告之 进程调度
  15. 《计算广告》读书笔记——第一章 在线广告综述
  16. os.path.abspath与os.path.realpath 区别
  17. mybais-plus出现Invalid bound statement (not found)的解决方案
  18. 带你去看2020大数据就业形势
  19. easyexcel 遇到的问题 org.terracotta.statistics.StatisticsManager.tags([Ljava/lang/String;)Ljava/util/Set;
  20. mysql的exists与inner join 和 not exists与 left join 性能差别惊人

热门文章

  1. Confluence 6 选项 2 – 转移 Crowd/Jira 应用程序中的用户和用户组到 Co
  2. 《分布式系统:概念与设计》一3.2 网络类型
  3. 百度地图-省市县联动加载地图
  4. C++ multimap 的插入,遍历,删除
  5. 针对淡入淡出的定时轮播效果js
  6. 在centos6.5安装MariaDB(mysql)
  7. 什么是Activity 和 Activity分类
  8. 中国已经过了做手机操作系统的窗口期
  9. 网络管理员&MCSE2003之12: 第8章 应用管理模板和审核策略
  10. php xss速查表,2020跨站脚本[xss]速查表 xss cheat sheet