《数学之美》——第十一章个人笔记

2024-05-25 20:56:00

数学之美

最近在读《数学之美》这本书，做一下个人笔记。看的是PDF，看完后会买一本的哦！版权意识还是有的。

ps：图片文字都是这本书中的内容，侵权立删。会有点自己的理解。

第十一章如何确定网页和查询的相关性

如今影响搜索引擎质量（除了点击数据之外）的四大类：

1.完备的索引

2.对网页质量的度量

3.用户偏好

4.确定一个网页和某个查询的相关性的方法

1 搜索关键词权重的科学度量TF-IDF

度量网页和查询的相关性，有一个简单的方法，就是直接使用各个关键在网页中出现的总词频。

即TF1 + TF2 + ... + TFN

当然，要去除“停止词”（stop word）。例如“的”这样的词

词与词的权重也不同，这个权重的设定必须满足两个条件：

①一个词预测主题的能力越强，权重越大，反之，越小。

②停止词的权重为零。

如果一个词只在很少的网页中出现，通过它很容易锁定搜索目标，它的权重就大。反之，就小。

在信息检索中，使用最多的权重是“逆文本频率指数”（Inverse Document Frequency,IDE）,公式为log(D/Dw)，其中D是全部网页数。

利用IDE，相关性计算的公式就由词频的简单求和变成了加权求和，即

TF1*IDE1 + TF2*IDE2 + ... + TFN*IDEN

IDE的概念就是一个特定条件下关键词的概率分布的交叉熵（Kullback-Leibler Divergence）

2 延伸阅读：TF-IDF的信息论依据

一个查询中每一个关键词w的权重应该反映这个词对查询来讲提供了多少信息。

简单的方法就是用每个词的信息量作为它的权重，即：

其中，N是整个语料库的大小，是个可以省略的常数。上面的公式可以简化成：

上述公式存在一个缺陷就是无法反应关键词的分辨率（两个关键词的TF相同）

做一些理想的假设：

①每个文献的大小基本相同，均为M个词，即

②一个关键词在文献一旦出现，不论多少次，贡献等同，这样一个词要么在一个文献中出现c(w)= TF(w)/D(w)次，要么为零。注意，c(w) < M。那么：

推出：

可以得出，一个词的信息量I(w）越多，TF-IDF值就越大；同时w命中的文献中w平均出现的次数越多，第二项越小，TF-IDF也越大。

《数学之美》——第十一章个人笔记相关推荐

《数学之美》——第九章个人笔记
数学之美最近在读<数学之美>这本书,做一下个人笔记.看的是PDF,看完后会买一本的哦!版权意识还是有的. ps:图片文字都是这本书中的内容,侵权立删.会有点自己的理解. 第九章图 ...
《数学之美》——第一章个人笔记
数学之美最近在读<数学之美>这本书,做一下个人笔记.看的是PDF,看完后会买一本的哦!版权意识还是有的. ps:图片文字都是这本书中的内容,侵权立删.会有点自己的理解. 第一章文 ...
数学之美系列十一 - Google 阿卡 47 的制造者阿米特.辛格博士
数学之美系列十一 - Google 阿卡 47 的制造者阿米特.辛格博士枪迷或者看过尼古拉斯.凯奇(Nicolas Cage)主演的电影"战争之王"(Lord of War)的 ...
数学之美第3章统计语言模型
数学之美第3章统计语言模型回顾一下: 前面两章都是基础知识,告诉我们自然语言的起源基础,和一些发展过程遇到的问题,第二章告诉我们规则:理解自然语言(即分析语句和获取语义)这种处理方法不可能实现智 ...
《数学之美（第一版）》笔记整理 —— 目录
序因为想对互联网的新兴技术有一些更好的了解,不断拓展自己的知识面,所以想到了吴军老师的<数学之美>,个人非常推荐大家阅读,可以对各种技术有一个入门的了解.吴军老师的讲法也很生动,对部分章 ...
《数学之美》选章精读
曾经花了一个月的时间阅读受推荐的书籍<数学之美>,对基于统计的自然语言处理的历史作一个大致的了解,每周精读一章,做下了一些粗略的笔记,算是有个交代吧. 第9章-图论和网络爬虫概念图论起 ...
《数学之美》——第十章个人笔记
数学之美最近在读<数学之美>这本书,做一下个人笔记.看的是PDF,看完后会买一本的哦!版权意识还是有的. ps:图片文字都是这本书中的内容,侵权立删.会有点自己的理解. 第十章 P ...
《数学之美（第一版）》笔记 —— 第6章
第6章信息的度量和作用信息熵(Entropy) 背景: 信息量等于不确定性的多少可以用bit这个概念来衡量信息量(所以加上了log函数) 信息熵公式: 其中P(x)P(x)P(x)是x发生的可能 ...
《数学之美》第一章读后感
第一章分别讲述了早期信息的传播,文字和数字的发展,文字和语言背后的数学三个部分. 我从中了解到了信息传递,不论是早期的远古社会,还是如今快速发展的互联网时代,其规律都是异曲同工的.比如信息传播的模型都 ...

最新文章

热门文章