1  PageRank算法的原理

真正找到计算机网页自身质量的完美的数学模型的是Google的创始人拉里.佩奇和谢尔盖.布林。

简单的说就是民主表决。

核心思想:在互联网上,如果一个网页被很多其他网页所链接,说明它受到普遍的承认和依赖,那么他的排名就高。

计算搜索结果的网页排名过程中需要用到网页本身的排名。

解决这个问题的是布林。他把这个问题变成了一个二维矩阵相乘的问题,并用迭代的方法解决这个问题。先假设所有网页的排名是相同度的,并且根据这个初始值,算出各个网页的第一次迭代排名,然后再根据第一次的迭代排名算出第二次的排名。不论初始值如何选取,这种算法都能保证网页排名的估计值能够收敛到排名的真实值。

网页排名的高明之处在于它把整个互联网当作一个整体来对待。以前的信息检索大多把每一个网页当作独立的个体对待,大部分人只注意了网页内容和查询语句的相关性,忽略了网页之间的关系。

2  PageRank的计算方法

为第一、第二、...第N个网页的网页排名。矩阵A为网页之间的链接数目。A已知,B未知。

假定是第i 次迭代的结果。

初始假设:所有网页的排名都是1/N。当两次迭代的结果与之间的差异非常小,接近于零时,停止迭代运算,算法结束。一般,只要10次左右的迭代基本上就收敛了。

由于网页之间的链接的数量相比互联网的规模非常稀疏,因此网页的网页排名也需要对零概率或小概率事件进行平滑处理。

《数学之美》第10章 PageRank--Google的民主表决网页排名技术相关推荐

  1. 《数学之美》第十章——PageRank Google的民主表决式网页排名技术

    对于搜索引擎搜索结果的排名取决于两组信息:关于网页的质量信息.每个网页与这个查询的相关性. 1 PageRank算法的原理 PageRank算法是由Google创始人拉里佩奇和谢尔盖布林提出的网页排名 ...

  2. 数学之美 第3章 统计语言模型

    数学之美 第3章 统计语言模型 回顾一下: 前面两章都是基础知识,告诉我们自然语言的起源基础,和一些发展过程遇到的问题,第二章告诉我们规则:理解自然语言(即分析语句和获取语义)这种处理方法不可能实现智 ...

  3. 数学之美:各个击破算法和Google云计算的基础

    云计算的一个关键性问题就是如何把一个非常大的问题,自动分解到许多计算能力不是很强大的计算机上.Google针对此问题提出一个工具MapReduce,其基础就是算法中常见的分治算法. 假设要对一个长度为 ...

  4. 《数学之美》——第九章 个人笔记

    数学之美 最近在读<数学之美>这本书,做一下个人笔记.看的是PDF,看完后会买一本的哦!版权意识还是有的. ps:图片文字都是这本书中的内容,侵权立删.会有点自己的理解. 第九章    图 ...

  5. 《数学之美》选章精读

    曾经花了一个月的时间阅读受推荐的书籍<数学之美>,对基于统计的自然语言处理的历史作一个大致的了解,每周精读一章,做下了一些粗略的笔记,算是有个交代吧. 第9章-图论和网络爬虫 概念 图论起 ...

  6. 《数学之美》——第一章 个人笔记

    数学之美 最近在读<数学之美>这本书,做一下个人笔记.看的是PDF,看完后会买一本的哦!版权意识还是有的. ps:图片文字都是这本书中的内容,侵权立删.会有点自己的理解. 第一章    文 ...

  7. 《数学之美》第一章读后感

    第一章分别讲述了早期信息的传播,文字和数字的发展,文字和语言背后的数学三个部分. 我从中了解到了信息传递,不论是早期的远古社会,还是如今快速发展的互联网时代,其规律都是异曲同工的.比如信息传播的模型都 ...

  8. 《数学之美》中的模型及启示总结

    目录 初衷 文章编排 章节总结 第1章 文字和语言 vs 数字和信息 第2章 自然语言处理--从规律到统计 第3章 统计语言模型 第4章 谈谈中文分词 第5章 隐含马尔可夫模型 第6章 信息的度量和作 ...

  9. 《数学之美》读书笔记_No.10_PageRank

    其实很早之前就被推荐<数学之美>这本书,拖到现在才读,最大的感受可能真的是"相见恨晚".记一些笔记供以后复习翻看. 第10章 PageRank Google的民主表决式 ...

最新文章

  1. 警惕!油性混合皮肤护理的误区 - 健康程序员,至尚生活!
  2. 刷算法题总结的一些结论公式
  3. String 类型的相关转换
  4. 开发商微信选房后不退认筹金_【震惊】胶州恒大文化旅游城项目爆丑闻!2000余人缴纳认筹金后竟有1800余户因对房子不满意提出退款...
  5. 添加standardjs和eslint配置检测代码规范步骤
  6. 歪果仁眼中的中国理工科科研调查:让学术氛围更自由成最大呼声 | 报告
  7. delphi formshow 刷新_OPPO K7x部分配置和外观公布90Hz刷新率11·4发布
  8. 好的架构不是设计出来的,而是演进出来的
  9. Swift 接入LinkedIn登录
  10. Visual Studio 2019 c#的winform开发,基本操作
  11. android translate 参数,关于安卓的TranslateAnimation的使用
  12. SQLiteDatabaseLockedException: database is locked
  13. bilibili 弹幕协议分析,golang 还原代码
  14. php安装zend loader,PHP5.3安装Zend Guard Loader图文教程
  15. 博瑞ge 加装无线 carpaly方法和效果展示
  16. AI伦理专家成立一个新的人工智能(AI)研究所 提供不同观点
  17. Type-c引脚定义
  18. Java等额本息实现
  19. 21世纪的中国人能否看懂这个大清帝国时代的法国人(2)
  20. [原创]软件开发过程中的QA与QC

热门文章

  1. 产品经理一定要懂得“借力”
  2. 仅仅是又多了一本设计书吗 《软件框架设计的艺术》序
  3. ​两大顶级AI算法一起开源!Nature、Science齐发Alphafold2相关重磅,双厨狂喜~
  4. 福利 |《非结构化数据分析》书评:探索非结构化数据的魅力
  5. 数学家的亿万商业王国:先后创建“验证码”和“多邻国”,20岁就被盖茨亲自挖去微软!...
  6. 实例 | 利用犯罪记录聚类和分类暴力行为(附步骤解析)
  7. 大年初六,你最崇拜的数据科学大咖是谁?
  8. 黄铁军、沈向洋、王海峰入选,中国工程院21年院士增选有效候选人名单公布...
  9. 最详细的NLP开源数据集分享--包含342个公开数据集
  10. SAP SD交货单凭证流里的Confirmation of Service初探