《数学之美》——第十一章 个人笔记
数学之美
最近在读《数学之美》这本书,做一下个人笔记。看的是PDF,看完后会买一本的哦!版权意识还是有的。
ps:图片文字都是这本书中的内容,侵权立删。会有点自己的理解。
第十一章 如何确定网页和查询的相关性
如今影响搜索引擎质量(除了点击数据之外)的四大类:
1.完备的索引
2.对网页质量的度量
3.用户偏好
4.确定一个网页和某个查询的相关性的方法
1 搜索关键词权重的科学度量TF-IDF
度量网页和查询的相关性,有一个简单的方法,就是直接使用各个关键在网页中出现的总词频。
即TF1 + TF2 + ... + TFN
当然,要去除“停止词”(stop word)。例如“的”这样的词
词与词的权重也不同,这个权重的设定必须满足两个条件:
①一个词预测主题的能力越强,权重越大,反之,越小。
②停止词的权重为零。
如果一个词只在很少的网页中出现,通过它很容易锁定搜索目标,它的权重就大。反之,就小。
在信息检索中,使用最多的权重是“逆文本频率指数”(Inverse Document Frequency,IDE),公式为log(D/Dw),其中D是全部网页数。
利用IDE,相关性计算的公式就由词频的简单求和变成了加权求和,即
TF1*IDE1 + TF2*IDE2 + ... + TFN*IDEN
IDE的概念就是一个特定条件下关键词的概率分布的交叉熵(Kullback-Leibler Divergence)
2 延伸阅读:TF-IDF的信息论依据
一个查询中每一个关键词w的权重应该反映这个词对查询来讲提供了多少信息。
简单的方法就是用每个词的信息量作为它的权重,即:
其中,N是整个语料库的大小,是个可以省略的常数。上面的公式可以简化成:
上述公式存在一个缺陷就是无法反应关键词的分辨率(两个关键词的TF相同)
做一些理想的假设:
①每个文献的大小基本相同,均为M个词,即
②一个关键词在文献一旦出现,不论多少次,贡献等同,这样一个词要么在一个文献中出现c(w)= TF(w)/D(w)次,要么为零。注意,c(w) < M。那么:
推出:
可以得出,一个词的信息量I(w)越多,TF-IDF值就越大;同时w命中的文献中w平均出现的次数越多,第二项越小,TF-IDF也越大。
《数学之美》——第十一章 个人笔记相关推荐
- 《数学之美》——第九章 个人笔记
数学之美 最近在读<数学之美>这本书,做一下个人笔记.看的是PDF,看完后会买一本的哦!版权意识还是有的. ps:图片文字都是这本书中的内容,侵权立删.会有点自己的理解. 第九章 图 ...
- 《数学之美》——第一章 个人笔记
数学之美 最近在读<数学之美>这本书,做一下个人笔记.看的是PDF,看完后会买一本的哦!版权意识还是有的. ps:图片文字都是这本书中的内容,侵权立删.会有点自己的理解. 第一章 文 ...
- 数学之美 系列十一 - Google 阿卡 47 的制造者阿米特.辛格博士
数学之美 系列十一 - Google 阿卡 47 的制造者阿米特.辛格博士 枪迷或者看过尼古拉斯.凯奇(Nicolas Cage)主演的电影"战争之王"(Lord of War)的 ...
- 数学之美 第3章 统计语言模型
数学之美 第3章 统计语言模型 回顾一下: 前面两章都是基础知识,告诉我们自然语言的起源基础,和一些发展过程遇到的问题,第二章告诉我们规则:理解自然语言(即分析语句和获取语义)这种处理方法不可能实现智 ...
- 《数学之美(第一版)》笔记整理 —— 目录
序 因为想对互联网的新兴技术有一些更好的了解,不断拓展自己的知识面,所以想到了吴军老师的<数学之美>,个人非常推荐大家阅读,可以对各种技术有一个入门的了解.吴军老师的讲法也很生动,对部分章 ...
- 《数学之美》选章精读
曾经花了一个月的时间阅读受推荐的书籍<数学之美>,对基于统计的自然语言处理的历史作一个大致的了解,每周精读一章,做下了一些粗略的笔记,算是有个交代吧. 第9章-图论和网络爬虫 概念 图论起 ...
- 《数学之美》——第十章 个人笔记
数学之美 最近在读<数学之美>这本书,做一下个人笔记.看的是PDF,看完后会买一本的哦!版权意识还是有的. ps:图片文字都是这本书中的内容,侵权立删.会有点自己的理解. 第十章 P ...
- 《数学之美(第一版)》笔记 —— 第6章
第6章 信息的度量和作用 信息熵(Entropy) 背景: 信息量等于不确定性的多少 可以用bit这个概念来衡量信息量(所以加上了log函数) 信息熵公式: 其中P(x)P(x)P(x)是x发生的可能 ...
- 《数学之美》第一章读后感
第一章分别讲述了早期信息的传播,文字和数字的发展,文字和语言背后的数学三个部分. 我从中了解到了信息传递,不论是早期的远古社会,还是如今快速发展的互联网时代,其规律都是异曲同工的.比如信息传播的模型都 ...
最新文章
- 机器学习门户网站——单变量线性回归
- bilibili怎么设置弹幕数量_python爬取B站视频弹幕分析并制作词云
- 机器学习-LR推导及与SVM的区别
- Rar Java Zip
- 怎么把两个div一左一右放
- 日期选择器date、week、time、datetime、datetime-local类型
- python降维之时间类型数据的处理_使用Python进行数据降维|线性降维
- 重要的气质-个性决定命运
- faster-rcnn tensorflow windows python 训练自己数据
- 来吧,给自己提个醒,哭着复习一下当初没好好学习的内容。
- 我对安卓recovery的流程大致总结
- vue脚手架学习笔记
- Linux网络服务(network service)管理
- Android全局修改字体大小,Android 应用全局字体调节或禁止随系统字体大小更改
- 22条创业军规,让你5分钟读完《创业维艰》
- 23.敏捷优秀实践 - 产品开发流程
- 为什么在线客服系统很重要
- Python教程系列(一)—— Python基础教程之导言
- 教你在M1芯片的imac一体机上安装PS2021 附教程和方法适用于所有Mac
- 百度大脑UNIT升级,五步完成对话模型私有化部署