下面是Google翻译的http://wiki.apache.org/nutch/NewScoring内容,是关于Nutch 新的链接分数算法的说明,有点类似于Google的PageRank,这里有其运行的一个例子http://wiki.apache.org/nutch/NewScoringIndexingExample。

本页面描述了修订723441新的计分(即WebGraph链接分析)Nutch的功能​​。 又见新的得分例如。

目录

  1. 一般资料
  2. WebGraph
  3. 循环
  4. LinkRank
  5. ScoreUpdater
  6. 问题
  7. 如果不忽略内部链接,将LinkRank分数相当于PageRank的分数呢 ?

    一般资料

    新的评分功能,可以发现在org.apache.nutch.scoring.webgraph。 这个软件包包含多个程序,建立网络图,执行稳定的收敛链路分析,并更新crawldb那些分数。 这些方案假定提取周期已经完成,现在的用户希望建立一个全球性的webgraph,从这些细分市场执行,webgraph链接分析,以得到一个全球性的相关性得分为每个URL。 建立一个webgraph假设,所有环节都存储在当前要处理的段。 链接不举行了一个加工周期到另一个。 全球链接分析的分数是基于对当前链接和分数的链接结构的webgraph变化会改变。

    目前得分作业都没有集成到作为Nutch的脚本命令必须在运行形式斌/ Nutch的org.apache.nutch.scoring.webgraph.XXXX。

    WebGraph

    WebGraph方案一旦所有的段取出,并准备要处理的,必须运行的第一份工作。 WebGraph发现org.apache.nutch.scoring.webgraph.WebGraph。 下面是一个打印程序的使用。

    使用:WebGraph
    
      - help显示此帮助消息
    段<segment>段(S)使用
      webgraphdb <webgraphdb>的Web图形数据库使用

    WebGraph方案可以采取多种细分的过程,需要一个输出目录,在其中放置完成的Web图形组件。 WebGraph创建三个不同的部分组成:一个inlink数据库,outlink数据库,节点数据库。 inlink数据库的URL和所有inlinks上市。 outlink数据库的URL和所有outlinks上市。 节点数据库的URL与节点的信息,包括元inlinks和outlinks,并最终在该节点的得分上市。

    循环

    一旦内置的Web图形,我们就可以开始链接分析的过程。 循环是一个可选的方案,试图帮助确定在Web图形的链接周期杂草垃圾邮件网站。 的一个环节周期的一个例子将站点A,B,C和D,其中A到B的链接,链接到C到D的链接,链接回答:这个程序是计算昂贵,而且通常,由于时间和空间的要求,不能超过三个或四个层深度上运行。 虽然它识别网站的出现,垃圾邮件和这些链接,然后在以后的LinkRank计划打折扣,其效益成本比很低。 它包含在这个包的完整性,因为有可能是一种更好的方式,执行不同的算法功能。 但在当前的大生产webgraphs,它的使用是气馁。 在org.apache.nutch.scoring.webgraph.Loops循环。 下面是一个打印程序的使用。

    用法:循环
      - help显示此帮助消息
      webgraphdb <webgraphdb>的Web图形数据库使用

    LinkRank

    使用内置的Web图形,我们现在可以运行LinkRank执行迭代链接分析。 LinkRank是类似的PageRank的链接分析程序,收敛到稳定的全球分数为每个URL。 类似的PageRank,LinkRank计划开始与常见的得分为所有URL。 然后,它创建一个基于传入的链接的数量和这些链接和外向链接页面数的分数的每个URL的全球成绩。 这个过程是迭代和分数趋向于收敛的迭代次数后。 它是从不同的PageRank在如一个网站的内部链接和网站之间的相互联系,可以忽略不计,徇私舞弊链接。 迭代次数也可以配置,默认情况下,进行10次迭代。 不同于以往的海外私人投资公司得分,不保持LinkRank方案的分数从一个处理时间到另一个。 重新处理运行在每个网络图和链接分数,所以我们没有分数不断增加的问题。 LinkRank需要WebGraph方案已成功完成,它为每个URL存储在节点数据库的webgraph其输出成绩。 LinkRank发现org.apache.nutch.scoring.webgraph.LinkRank。 下面是一个打印程序的使用。

    使用:LinkRank
    
      - help显示此帮助消息
      webgraphdb <webgraphdb>网络图DB使用

    ScoreUpdater

    一旦LinkRank程序已运行和链接分析完成后,分数必须更新到检索数据库工作与当前Nutch的功能​​。 ScoreUpdater程序需要webgraph的节点数据库中存储的分数和更新crawldb。 如果URL中不存在的webgraph crawldb存在,那么它的得分是在crawldb清除。 ScoreUpdater需要WebGraph和LinkRank方案都已经运行,并需要检索数据库更新。 ScoreUpdater发现org.apache.nutch.scoring.webgraph.ScoreUpdater。 下面是一个打印程序的使用。

    用法:ScoreUpdater
    
      crawldb <crawldb> crawldb使用
      - help显示此帮助消息
      webgraphdb <webgraphdb> webgraphdb使用

    问题

    如果不忽略内部链接,将LinkRank分数相当于PageRank的分数呢?

    要理解这一点,我们必须解释如何精确计算LinkRank分数。

    WebGraph和LinkRank类一起工作。 WebGraph是来自相同的域或相同的主机的链接,可以忽略不计(或允许)。 配置参数:

      link.ignore.internal.host = TRUE |虚假
     link.ignore.internal.domain =真正的|虚假

    可以用来改变这种行为。 默认情况下,它忽略了来自同一个域和主机的链接。 所以从news.google.com链接不会被计算,也不会提高www.google.com得分。 WebGraph刚刚建立列出的inlinks,outlinks和节点,然后LinkRank级的流程,创造的得分。 LinkRank并密切注视这是类似原始的PageRank公式:

    (1 - dampingFactor)+(dampingFactor * totalInlinkScore)

    凡totalInlinkScore是指向一个页面的所有inlinks,考虑到这是迭代和所有网页开始rankOne评分(1 / numLinksInWebGraph)计算。

    区别是:

  • 循环类可用于识别和清除垃圾邮件/问题
    • 联系。 这个类应该找出相互链接 链接周期,然后让这些链接被删除。 问题是 类的计算是非常昂贵的。 您可以设置 深入你想让它运行,但它是比指数差,所以我 不会做,如果在所有超过1-3深度。 这将让你

      互惠链接和小环节周期(A -> B -> C -> A)。 真的这 不添加到底得分,我只想离开它关闭 不运行此作业。

  • 您可以限制从重复的链接页面和域。 再说第A
    • B点两次,你可以限制它只能算一次。
  • 有一个阻尼因子,默认设置为0.85。 这
    • 作为原始的PageRank文件相同。 这是可配置 与link.analyze.damping.factor参数。
  • LinkRank运行的迭代次数。 理想的情况下工作会
    • 迭代直到收敛到一个点的分数,目前它是一个 设置迭代次数。

LinkRank分数应相当于(足够接近)的PageRank得分。 有些事情要考虑:

  • PageRank是刚刚超过200个,谷歌使用的信号之一(如果他们
    • 仍然使用它),以确定相关性。 即使谷歌仍然使用 它最有可能发生了变化。 链接分析的分数都不错 全球的相关性得分,但链接得分没有一个搜索引擎

      使今天。 哦,我多么希望它是这么简单。 LinkRank是一个很好的 出发点,就是它。

  • 这仅仅是如您已检索的网页数量。 "
    • 较大抓取段设置更好的成绩获得。
  • 一个环节一个环节,它的内容不可知。 如果你爬百米页
    • 并做了LinkRank上,你将看到所有常用的犯罪嫌疑人 (谷歌的 YouTube,Facebook的),但你也将看到这样的事情 FLASH下载。 LinkRank一个链接是一个链接,它不是特别 在它的内容的可视一块。

关于这一主题的更多信息, 请参阅的NewScoringIndexingExample

作者:http://blog.csdn.net/amuseme_lu


相关文章阅读及免费下载:

Apache Nutch 1.3 学习笔记目录

Apache Nutch 1.3 学习笔记一

Apache Nutch 1.3 学习笔记二

Apache Nutch 1.3 学习笔记三(Inject)

Apache Nutch 1.3 学习笔记三(Inject CrawlDB Reader)

Apache Nutch 1.3 学习笔记四(Generate)

Apache Nutch 1.3 学习笔记四(SegmentReader分析)

Apache Nutch 1.3 学习笔记五(FetchThread)

Apache Nutch 1.3 学习笔记五(Fetcher流程)

Apache Nutch 1.3 学习笔记六(ParseSegment)

Apache Nutch 1.3 学习笔记七(CrawlDb - updatedb)

Apache Nutch 1.3 学习笔记八(LinkDb)

Apache Nutch 1.3 学习笔记九(SolrIndexer)

Apache Nutch 1.3 学习笔记十(Ntuch 插件机制简单介绍)

Apache Nutch 1.3 学习笔记十(插件扩展)

Apache Nutch 1.3 学习笔记十(插件机制分析)

Apache Nutch 1.3 学习笔记十一(页面评分机制 OPIC)

Apache Nutch 1.3 学习笔记十一(页面评分机制 LinkRank 介绍)

Apache Nutch 1.3 学习笔记十二(Nutch 2.0 的主要变化)

更多《Apache Nutch文档》,尽在开卷有益360 http://www.docin.com/book_360

转载于:https://www.cnblogs.com/ibook360/archive/2011/10/24/2222182.html

Apache Nutch 1.3 学习笔记十一(页面评分机制 LinkRank 介绍)相关推荐

  1. Apache Nutch 1.3 学习笔记十一(页面评分机制 OPIC)

    1. Nutch 1.3 的页面评分机制 Nutch1.3目前默认还是使用OPIC作为其网页分数算法,但其之后,已经引入了PageRank-like算法,以弥补OPIC算法的不足,目前OPIC算法还是 ...

  2. Apache Nutch 1.3 学习笔记十(插件机制分析)

    1. 一些对象说明 PluginRepository:这是一个用于存储所有插件描述对象(PluginDescriptor),插件扩展点(ExtensionPoint)和被激活的插件. PluginDe ...

  3. Apache Nutch 1.3 学习笔记目录

    目录 Apache Nutch 1.3 学习笔记一 Apache Nutch 1.3 学习笔记二 Apache Nutch 1.3 学习笔记三(Inject) Apache Nutch 1.3 学习笔 ...

  4. Vue学习笔记(十一)

    1.Vue学习笔记(十一) 文章目录 1.Vue学习笔记(十一) 1.1Vue_配置代理_方式 1.1.0演示问题 1.1.1运行node server1 1.1.2运行node server2 1. ...

  5. 微信小程序开发:学习笔记[8]——页面跳转及传参

    微信小程序开发:学习笔记[8]--页面跳转及传参 页面跳转 一个小程序拥有多个页面,我们可以通过wx.navigateTo推入一个新的页面.在首页使用2次wx.navigateTo后,页面层级会有三层 ...

  6. 吴恩达《机器学习》学习笔记十一——应用机器学习的建议

    吴恩达<机器学习>学习笔记十一--应用机器学习的建议 一.训练完模型后下一步要做什么 二.评估算法与模型选择 1.训练集与测试集 2.训练/测试步骤 3.模型选择 4.数据集新的划分--验 ...

  7. 吴恩达《机器学习》学习笔记十一——神经网络代码

    吴恩达<机器学习>学习笔记十一--神经网络代码 数据准备 神经网络结构与代价函数· 初始化设置 反向传播算法 训练网络与验证 课程链接:https://www.bilibili.com/v ...

  8. ROS学习笔记十一:ROS中数据的记录与重放

    ROS学习笔记十一:ROS中数据的记录与重放 本节主要介绍如何记录一个正在运行的ROS系统中的数据,然后在一个运行的系统中根据记录文件重新产生和记录时类似的运动情况.本例子还是以小海龟例程为例. 记录 ...

  9. Linux C/C++ 开发(学习笔记十一 ):TCP服务器(并发网络网络编程 一请求一线程)

    Linux C/C++ 开发(学习笔记十一 ):TCP服务器(并发网络网络编程 一请求一线程) 一.TCP服务器(一请求一线程) 的原理 二.完整代码 三.测试 四.补充 一.TCP服务器(一请求一线 ...

最新文章

  1. 1102面向对象和类原型
  2. 【Matlab 控制】多智能体一致性收敛仿真
  3. 学习响应式BootStrap来写融职教育网站,Bootsrtap第九天手粉琴swiper特效
  4. 15 | 二分查找(上):如何用最省内存的方式实现快速查找功能?
  5. codeforce 884C - Bertown Subway DFS+图论
  6. leetcode —— 752. 打开转盘锁
  7. 前端测试框架(学习之路)前言
  8. Android7.1启动系统App必须配置加密
  9. 24位真彩色bmp图片转8位256色带调色板的bmp图
  10. 新闻发布系统 新闻管理系统 可注册、登录
  11. 计算机二级职业生涯规划讲座心得,职业规划课心得体会2000字
  12. SptingBoot构建电商基础秒杀项目时遇到的问题
  13. 网络可视对讲系统服务器解决方案,医护可视对讲系统(IP网络)解决方案
  14. 手把手教你集成华为Image Kit图像裁剪功能
  15. MATLAB--数字图像处理 特征点匹配
  16. 多项式 商环 域(群论笔记)
  17. 2008年国家公务员面试2月27号真题
  18. csp试题1:小明种苹果
  19. Android 控件之Gallery图片集
  20. 南京公用,海得控制,上柴股份,成交量异动检测

热门文章

  1. 【Google设计冲刺】一种适合于创新小组的协作方式
  2. RabbitMQ基础知识详解
  3. Springsecurity之UserDetails
  4. shiro的源码分析(一)
  5. CetnOS 6.7安装Hive 1.2.1
  6. 云智慧:创新思维助酷讯IT运维管理升级
  7. “敏捷”联袂“ALM” 上演市场模范夫妻秀
  8. Ubuntu下安装VirtualBox和Android 安装到虚拟机中
  9. 程序员面试金典——5.3最接近的数
  10. python/pytorch中的一些函数介绍