版本:

Nutch2.2.1

nutch/conf/gora-hbase-mapping.xml内有webpage表结构

<class name="org.apache.nutch.storage.WebPage" keyClass="java.lang.String" table="webpage"><primarykey column="id" length="512"/><field name="baseUrl" column="baseUrl" length="512"/>    <field name="status" column="status"/><field name="prevFetchTime" column="prevFetchTime"/><field name="fetchTime" column="fetchTime"/><field name="fetchInterval" column="fetchInterval"/><field name="retriesSinceFetch" column="retriesSinceFetch"/><field name="reprUrl" column="reprUrl" length="512"/><field name="content" column="content" length="65536"/><field name="contentType" column="typ" length="32"/>    <field name="protocolStatus" column="protocolStatus"/><field name="modifiedTime" column="modifiedTime"/><field name="prevModifiedTime" column="prevModifiedTime"/><field name="batchId" column="batchId" length="32"/><!-- parse fields                                       --><field name="title" column="title" length="512"/><field name="text" column="text" length="32000"/><field name="parseStatus" column="parseStatus"/><field name="signature" column="signature"/><field name="prevSignature" column="prevSignature"/><!-- score fields                                       --><field name="score" column="score"/><field name="headers" column="headers"/><field name="inlinks" column="inlinks"/><field name="outlinks" column="outlinks"/><field name="metadata" column="metadata"/><field name="markers" column="markers"/>
</class>

id

主键,根据网页url生成(格式:reversed domain name:protocol:port and path),因此,Nutch2只能保存当前网页的状态,而不能保存历史信息。

headers

标准的http headers ,其中包含非打印字符。Last-Modified 等信息可能于判断网页是否需要更新(仅需发一个head请求,而不是下载整个网页)

text

合并了解析出来的所有文本字段(utf-8),用于普通的检索,不过现在检索一般使用solr,所以这个字段意义不大。

status

记录抓取状态
[html] view plain copy  
  1. 1     unfetched (links not yet fetched due to limits set in regex-urlfilter.txt, -TopN crawl parameters, etc.)
  2. 2     fetched (page was successfully fetched)
  3. 3     gone (that page no longer exists)
  4. 4     redir_temp (temporary redirection — see reprUrl below for more details)
  5. 5     redir_perm (permanent redirection — see reprUrl below for more details)
  6. 34     retry
  7. 38     not modified

markers

各个任务的标记(如:dist***injmrk_***updmrk_***ftcmrk_***gnmrk_***prsmrk_**)

parseStatus

parse状态,在执行parseJob之前都是NULL。 ParseStatusCodes.html

modifiedTime

最后更改时间

score

网页重要程度(PR),Nutch2.2.1 使用的是OPIC算法

typ

类型(如application/xhtml+xml)

batchId

批次ID,由generate生成( (curTime/1000) + "-" +randomSeed ), fetch时可选择特定batchId的任务

baseUrl

用于将网页源码中相对链接地址的转为绝对地址,通常就是当前网页的地址,有重定向的情况下,是最终定向到的地址

content

完整的网页源码,未经任何处理(字符集也没转)。 

title

title标签里的内容 (已转utf-8编码)

reprUrl

重定向url,将在下一轮抓取,不会立即跟入

fetchInterval

抓取间隔,默认是2592000(30天)

prevFetchTime

上次抓取时间

inlinks

入链(url+linktext)

prevSignature

上次更新时网页签名

outlinks

出链(url+linktext)

fetchTime

下次抓取时间,通常是间隔一个月

retriesSinceFetch

重试次数

protocolStatus

[html] view plain copy  
  1. ACCESS_DENIED 17
  2. BLOCKED 23
  3. EXCEPTION 16
  4. FAILED 2
  5. GONE 11
  6. MOVED 12
  7. NOTFETCHING 20
  8. NOTFOUND 14
  9. NOTMODIFIED 21
  10. PROTO_NOT_FOUND 10
  11. REDIR_EXCEEDED 19
  12. RETRY 15
  13. ROBOTS_DENIED 18
  14. SUCCESS 1
  15. TEMP_MOVED 13
  16. WOULDBLOCK 22

signature

网页签名,用于判断网页是否改变,默认的实现是:org.apache.nutch.crawl.MD5Signature ,采用content的MD5值,另一个方案是org.apache.nutch.crawl.TextProfileSignature,content抽取文本、分词、排序等一系列操作后计算MD5值 TextProfileSignature

metadata

自定义元数据,可以在种子文件里面加,例如: "http://xxxx/xxx.html \t type=news"

转载地址:http://blog.csdn.net/itufo/article/details/20535539

(转载)Nutch2 WebPage 字段解释相关推荐

  1. Nutch2 WebPage 字段解释

    Nutch2 WebPage 字段解释 Nutch2.2.1 id 主键,根据网页url生成(格式:reversed domain name:protocol:port and path),因此,Nu ...

  2. CMAIL4.0 server 脚本字段解释

    CMAIL4.0 server 脚本字段解释 <?xml:namespace prefix = v ns = "urn:schemas-microsoft-com:vml" ...

  3. R语言数据包自带数据集之ISwR包的melanom数据集字段解释、数据导入实战

    R语言数据包自带数据集之ISwR包的melanom数据集字段解释.数据导入实战 目录 R语言数据包自带数据集之ISwR包的melanom数据集字段解释.数据导入实战 #数据字段说明 #导入包 #导入数 ...

  4. UCL葡萄酒(red white wine quality)数据集字段解释、数据导入实战

    UCL葡萄酒(red white wine quality)数据集字段解释.数据导入实战 目录 UCL葡萄酒(red white wine quality)数据集字段解释.数据导入实战 #数据字段说明 ...

  5. R语言数据包自带数据集之survival包的colon数据集字段解释、数据导入实战

    R语言数据包自带数据集之survival包的colon数据集字段解释.数据导入实战 #数据字段说明 colon数据集:B/C期结肠癌辅助化疗治疗数据 d # 患者编号 study # 所有患者都是1 ...

  6. R语言数据包自带数据集之survival包的lung数据集字段解释、数据导入实战

    R语言数据包自带数据集之survival包的lung数据集字段解释.数据导入实战 目录 R语言数据包自带数据集之survival包的lung数据集字段解释.数据导入实战 #数据字段说明 #导入包 #导 ...

  7. R语言数据包自带数据集之ToothGrowth数据集字段解释、数据导入实战

    R语言数据包自带数据集之ToothGrowth数据集字段解释.数据导入实战 目录 R语言数据包自带数据集之ToothGrowth数据集字段解释.数据导入实战 #数据字段说明 #导入包 #导入数据 #数 ...

  8. 泰坦尼克号(titanic)数据集字段解释、数据导入实战

    泰坦尼克号(titanic)数据集字段解释.数据导入实战 目录 泰坦尼克号(titanic)数据集字段解释.数据导入实战 #数据字段说明 #导入数据 #数据字段说明 # 尽管在沉船事件中幸存下有'一些 ...

  9. R语言数据包自带数据集之mtcars数据集字段解释、数据导入实战

    R语言数据包自带数据集之mtcars数据集字段解释.数据导入实战 目录 R语言数据包自带数据集之mtcars数据集字段解释.数据导入实战 #会用帮助?或者help函数 #字段说明 #导入包 #导入数据 ...

最新文章

  1. windows域中时间同步的解决方案
  2. XSLT 与 Java集成常见技术关键点
  3. matlab读取文件与写入文件
  4. 如何计算并测量ABAP及Java代码的环复杂度Cyclomatic complexity
  5. python输入一个整数列表 列表元素为18_Python-18 (高级变量1--列表)
  6. 易生信Linux培训
  7. 简述php语言的特点是_PHP语言有哪些优势和特点(一)
  8. Dubbo 本地存根
  9. Windows核心编程:第9章 用内核对象进行线程同步
  10. 百胜erp加密狗驱动_百胜分销系统ERP_DRP用户手册.pdf
  11. 有关坐标系常见问题的问与答(转自ESRI中国社区)
  12. STM32芯片命名规则及含义
  13. 关于2020年全国大学生数学建模竞赛——我的感想
  14. [ROS2] 你应该知道Costmap_2d 的这些细节
  15. GB 9706.1-2020| IEC 60601-1附录A关于条款6.3 的IP2X解释可能有错误
  16. FPS游戏方框透视基本原理
  17. Openstack 经典面试问题和解答
  18. PJzhang:如何在裸奔的年代找到一些遮羞布
  19. 高效率的网站打开速度优化方法
  20. STM32基于软件模拟IIC进行AHT21B温湿度采集

热门文章

  1. Ansible之roles(角色)详解
  2. 记一次Linux修改MySQL配置不生效的问题
  3. Vue学习之路1 小白起步
  4. 整理面试中的逻辑思维题
  5. postgres外部表
  6. [源码和文档分享]基于FFMEPEG-MATLAB和C#-SQL SERVER构建的手机录音数据库及特征分析...
  7. NIO和Reactor
  8. asp.net 页面全生命周期
  9. asp.net(c#) static关键字用法小结
  10. c#(winform)中ComboBox和ListBox添加项完全解决