数学之美

最近在读《数学之美》这本书,做一下个人笔记。看的是PDF,看完后会买一本的哦!版权意识还是有的。

ps:图片文字都是这本书中的内容,侵权立删。会有点自己的理解。

第十一章    如何确定网页和查询的相关性

如今影响搜索引擎质量(除了点击数据之外)的四大类:

1.完备的索引

2.对网页质量的度量

3.用户偏好

4.确定一个网页和某个查询的相关性的方法

1    搜索关键词权重的科学度量TF-IDF

度量网页和查询的相关性,有一个简单的方法,就是直接使用各个关键在网页中出现的总词频。

即TF1 + TF2 + ... + TFN

当然,要去除“停止词”(stop word)。例如“的”这样的词

词与词的权重也不同,这个权重的设定必须满足两个条件:

①一个词预测主题的能力越强,权重越大,反之,越小。

②停止词的权重为零。

如果一个词只在很少的网页中出现,通过它很容易锁定搜索目标,它的权重就大。反之,就小。

在信息检索中,使用最多的权重是“逆文本频率指数”(Inverse Document Frequency,IDE),公式为log(D/Dw),其中D是全部网页数。

利用IDE,相关性计算的公式就由词频的简单求和变成了加权求和,即

TF1*IDE1 + TF2*IDE2 + ... + TFN*IDEN

IDE的概念就是一个特定条件下关键词的概率分布的交叉熵(Kullback-Leibler Divergence)

2    延伸阅读:TF-IDF的信息论依据

一个查询中每一个关键词w的权重应该反映这个词对查询来讲提供了多少信息。

简单的方法就是用每个词的信息量作为它的权重,即:

其中,N是整个语料库的大小,是个可以省略的常数。上面的公式可以简化成:

上述公式存在一个缺陷就是无法反应关键词的分辨率(两个关键词的TF相同)

做一些理想的假设:

①每个文献的大小基本相同,均为M个词,即

②一个关键词在文献一旦出现,不论多少次,贡献等同,这样一个词要么在一个文献中出现c(w)= TF(w)/D(w)次,要么为零。注意,c(w) < M。那么:

推出:

可以得出,一个词的信息量I(w)越多,TF-IDF值就越大;同时w命中的文献中w平均出现的次数越多,第二项越小,TF-IDF也越大。

《数学之美》——第十一章 个人笔记相关推荐

  1. 《数学之美》——第九章 个人笔记

    数学之美 最近在读<数学之美>这本书,做一下个人笔记.看的是PDF,看完后会买一本的哦!版权意识还是有的. ps:图片文字都是这本书中的内容,侵权立删.会有点自己的理解. 第九章    图 ...

  2. 《数学之美》——第一章 个人笔记

    数学之美 最近在读<数学之美>这本书,做一下个人笔记.看的是PDF,看完后会买一本的哦!版权意识还是有的. ps:图片文字都是这本书中的内容,侵权立删.会有点自己的理解. 第一章    文 ...

  3. 数学之美 系列十一 - Google 阿卡 47 的制造者阿米特.辛格博士

    数学之美 系列十一 - Google 阿卡 47 的制造者阿米特.辛格博士 枪迷或者看过尼古拉斯.凯奇(Nicolas Cage)主演的电影"战争之王"(Lord of War)的 ...

  4. 数学之美 第3章 统计语言模型

    数学之美 第3章 统计语言模型 回顾一下: 前面两章都是基础知识,告诉我们自然语言的起源基础,和一些发展过程遇到的问题,第二章告诉我们规则:理解自然语言(即分析语句和获取语义)这种处理方法不可能实现智 ...

  5. 《数学之美(第一版)》笔记整理 —— 目录

    序 因为想对互联网的新兴技术有一些更好的了解,不断拓展自己的知识面,所以想到了吴军老师的<数学之美>,个人非常推荐大家阅读,可以对各种技术有一个入门的了解.吴军老师的讲法也很生动,对部分章 ...

  6. 《数学之美》选章精读

    曾经花了一个月的时间阅读受推荐的书籍<数学之美>,对基于统计的自然语言处理的历史作一个大致的了解,每周精读一章,做下了一些粗略的笔记,算是有个交代吧. 第9章-图论和网络爬虫 概念 图论起 ...

  7. 《数学之美》——第十章 个人笔记

    数学之美 最近在读<数学之美>这本书,做一下个人笔记.看的是PDF,看完后会买一本的哦!版权意识还是有的. ps:图片文字都是这本书中的内容,侵权立删.会有点自己的理解. 第十章    P ...

  8. 《数学之美(第一版)》笔记 —— 第6章

    第6章 信息的度量和作用 信息熵(Entropy) 背景: 信息量等于不确定性的多少 可以用bit这个概念来衡量信息量(所以加上了log函数) 信息熵公式: 其中P(x)P(x)P(x)是x发生的可能 ...

  9. 《数学之美》第一章读后感

    第一章分别讲述了早期信息的传播,文字和数字的发展,文字和语言背后的数学三个部分. 我从中了解到了信息传递,不论是早期的远古社会,还是如今快速发展的互联网时代,其规律都是异曲同工的.比如信息传播的模型都 ...

最新文章

  1. 机器学习门户网站——单变量线性回归
  2. bilibili怎么设置弹幕数量_python爬取B站视频弹幕分析并制作词云
  3. 机器学习-LR推导及与SVM的区别
  4. Rar Java Zip
  5. 怎么把两个div一左一右放
  6. 日期选择器date、week、time、datetime、datetime-local类型
  7. python降维之时间类型数据的处理_使用Python进行数据降维|线性降维
  8. 重要的气质-个性决定命运
  9. faster-rcnn tensorflow windows python 训练自己数据
  10. 来吧,给自己提个醒,哭着复习一下当初没好好学习的内容。
  11. 我对安卓recovery的流程大致总结
  12. vue脚手架学习笔记
  13. Linux网络服务(network service)管理
  14. Android全局修改字体大小,Android 应用全局字体调节或禁止随系统字体大小更改
  15. 22条创业军规,让你5分钟读完《创业维艰》
  16. 23.敏捷优秀实践 - 产品开发流程
  17. 为什么在线客服系统很重要
  18. Python教程系列(一)—— Python基础教程之导言
  19. 教你在M1芯片的imac一体机上安装PS2021 附教程和方法适用于所有Mac
  20. 百度大脑UNIT升级,五步完成对话模型私有化部署

热门文章

  1. Sklearn 从零开始
  2. 编写一个计算机矩形的周长和面积的程序 两种方法
  3. 创建一个像人类一样的神经网络来诊断肺癌
  4. JSP零基础学习指南
  5. 初识RabbitMQ与 SpringAMQP
  6. 基于深度学习心电图(ECG)特征识别
  7. 【蓝桥杯】第几个幸运数字
  8. POP、OOP、AOP、LOP的区别
  9. 优品课堂python下载_Python网络爬虫数据采集【优品课堂】
  10. 计算机毕业设计 SSM网上宠物商店平台 网上宠物美容管理系统 网上宠物订购系统Java