由于商业搜索引擎已经有了大量的用户点击数据,因此,对搜索相关贡献最大的事根据用户对常见搜索点击网页的结果得到的概率模型。如今,影响搜索引擎质量的诸多因素,除了用户的点击数据之外,可以归纳为四大类:

完备的索引。

对网页质量的度量,比如PageRank。

用户偏好。

确定一个网页和某个查询的相关性的方法。

1 搜索关键词权重的科学度量TF—IDF

度量网页和查询的相关性,有一个简单的办法,就是直接使用各个关键词在网页中出现的总频数。

停止词:在度量相关性时不应考虑它们的频率。如:‘的’,‘是’,‘和’,‘中’,‘地’

对每个词给一个权重,这个权重的设定必须满足两个条件:

一个词预测主题的能力越强,权重越大,反之,权重越小。

停止词的权重为零。

    在信息检索中,使用最多的权重是“逆文本频率指数”(Inverse Document Frequency,缩写IDF),公式

其中D 是全部的网页数,是指一个关键词w在个网页出现过,越大,w的权重越小,反之亦然。

相关性计算公式由词频的简单求和变成了加权求和,即:

所谓的IDF的概念就是一个特定条件下关键词的概率分布的交叉熵。

2 TF—IDF的信息论依据

一个查询中每一个关键词w的权重应该反映这个词对查询来讲提供了多少信息。一个简单的办法就是用每个词的信息量作为它的权重,即   

其中,N是整个语料库的大小,可以省略。故

《数学之美》第11章 如何确定网页和查询的相关性相关推荐

  1. 数学之美 第3章 统计语言模型

    数学之美 第3章 统计语言模型 回顾一下: 前面两章都是基础知识,告诉我们自然语言的起源基础,和一些发展过程遇到的问题,第二章告诉我们规则:理解自然语言(即分析语句和获取语义)这种处理方法不可能实现智 ...

  2. 《数学之美》选章精读

    曾经花了一个月的时间阅读受推荐的书籍<数学之美>,对基于统计的自然语言处理的历史作一个大致的了解,每周精读一章,做下了一些粗略的笔记,算是有个交代吧. 第9章-图论和网络爬虫 概念 图论起 ...

  3. 数学之美 系列九 -- 如何确定网页和查询的相关性

    数学之美 系列九 -- 如何确定网页和查询的相关性 [我们已经谈过了如何自动下载网页.如何建立索引.如何衡量网页的质量(Page Rank).我们今天谈谈如何确定一个网页和某个查询的相关性.了解了这四 ...

  4. 《数学之美》——第九章 个人笔记

    数学之美 最近在读<数学之美>这本书,做一下个人笔记.看的是PDF,看完后会买一本的哦!版权意识还是有的. ps:图片文字都是这本书中的内容,侵权立删.会有点自己的理解. 第九章    图 ...

  5. 《数学之美》——第一章 个人笔记

    数学之美 最近在读<数学之美>这本书,做一下个人笔记.看的是PDF,看完后会买一本的哦!版权意识还是有的. ps:图片文字都是这本书中的内容,侵权立删.会有点自己的理解. 第一章    文 ...

  6. 《数学之美》第一章读后感

    第一章分别讲述了早期信息的传播,文字和数字的发展,文字和语言背后的数学三个部分. 我从中了解到了信息传递,不论是早期的远古社会,还是如今快速发展的互联网时代,其规律都是异曲同工的.比如信息传播的模型都 ...

  7. 数学之美-读书笔记11-15章

    文章目录 数学之美 第十一章 如何确定网页和查询的相关性 1搜索关键词权重的科学度量-TF-IDF 第十二章 有限状态机和动态规划-地图与本地搜索的核心技术 1地址分析和有限状态机 2全球导航和动态规 ...

  8. 数学之美读书感悟01

    文章目录 第1章 文字语言VS数字信息 第2章 自然语言处理--从规则到统计 第3章 统计语言模型 第4章 谈谈分词 第5章 隐含的马尔可夫模型 第6章 信息的度量和作用 第7章 贾里尼克和现代语言处 ...

  9. 《数学之美》中的模型及启示总结

    目录 初衷 文章编排 章节总结 第1章 文字和语言 vs 数字和信息 第2章 自然语言处理--从规律到统计 第3章 统计语言模型 第4章 谈谈中文分词 第5章 隐含马尔可夫模型 第6章 信息的度量和作 ...

最新文章

  1. JSP Cookie处理
  2. 1.3.2 中断和异常(内中断和外中断、中断处理过程)
  3. 数据库查询某一列大写转化小写字母表示_基于MySQL数据库下亿级数据的分库分表...
  4. C++ 变量判定的螺旋法则
  5. python人工智能——机器学习——模型选择与调优
  6. 【Linux系统编程】IO多路复用之poll
  7. http --- 密码、密钥、对称(公开)密钥加密系统、数字签名、数字证书的一些概念
  8. 1.1.1.1校园网_Apache Flink 1.11.0 重要功能全面解析
  9. python之基础学习day01
  10. 对某公司一次***测试
  11. 半年工作经验今日头条和美团面试题面经分享
  12. 【转贴】蚂蚁和大象的恩怨
  13. 5款cpu温度检测工具,让你时刻关注mac的工作情况!
  14. python爬虫——爬取小说
  15. 案例精选 | 冷饭变盛宴?一文谈尽边缘计算
  16. 2021年烟花爆竹生产单位安全生产管理人员免费试题及烟花爆竹生产单位安全生产管理人员考试总结
  17. 新时代区块链研究院 | 区块链人才需求激增200%,薪资已赶超互联网!
  18. 在视频中选定/截取部分区域画面,然后将左上角坐标百分比和选定区域宽高所占百分比传给后端
  19. DevOps 解决方案:最大限度地提高开发人员的工作效率,缩短上市时间以及提高客户满意度
  20. 基于 SpringBoot + Vue 实现的物联网/智能家居系统

热门文章

  1. 李开复「预见2021」:自动化成企业升级转型刚需 | AI日报
  2. 《黑客与画家》读后感
  3. Jetson TX2 开发记录
  4. 最大概率法分词及性能测试
  5. 如何将spring源码作为导入eclipse中,变成一个普通的项目(git、github)
  6. 斯坦福Google | 面向机器人的机器学习(附63页PPT下载)
  7. 送你一份使用k近邻算法实现回归的实用指南(附代码、链接)
  8. 远程实习 | 达特茅斯学院招收网络嵌入和图挖掘方向研究型实习生
  9. 2023年中国AI论文影响力超越美国?网友:长期看,数量不等于质量
  10. 【重磅】Python版《统计学习导论》来啦!附代码链接!