吴军《数学之美》部分概念笔记(1-11章)
相关参考资料见正文
Good-turing模型:
由于我们是估算对于一个位置上出现单词wi的概率。这种情况下,在样本库中没有出现的单词,其概率并非为0. 但由于已有的Nr`r的累计和已经达到了1,所以必须采用一个“腾挪“的办法,将一部分的概率分布腾挪给未出现的单词。
解决办法就是在计算累计出现次数较少的单词时,将其概率替换为一个较小的值(此处的办法是将r替换为r‘)
r^* = (r+1)*{n_{r+1}/n_r}
也就是说:这个变化默认认为:n_{r+1}/n_r这一下降速率显著的大于r+1/r的增长速率
(因为在r-Nr符合Zipf定律)
http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-fifth-part
https://en.wikipedia.org/wiki/Zipf%27s_law
条件熵/互信息/相对熵/交叉熵:
都是基于引入特定字符可以获得多少信息量这样一个概念进行的定义
条件熵:H(X|Y)
从信息论的角度消除不确定性: 与H(X)相比,引入Y后可以消除一定的不确定性。具体的不确定性即为条件熵(特定条件下的熵)
互信息:I(X,Y)=H(X)=H(X|Y) 关心不确定性的减少程度
所以,引入确定性(新 的制约条件Y),则可以降低(或至少持平)整个系统的熵
相对熵/交叉熵:两个分布的差异性
------条件熵是两个变量的差异性而 相对熵是两个分布的差异性。
相对熵公式:
与前面的两个概念相比,相对熵/交叉熵关注的是一个数据的一组分布(一个足够大的数据量下的分布形态)下的熵
即某个数据的两种分布下,其熵的差值。
用信息论的方法表述:对指定的一组数据,用P(i)和Q(i)来拟合相应的数据的信息量。以P作为基准,衡量Q相对于P,表达这一组数据所需的信息量的差值。
如果P是理想最佳分布(例如严格按单词出现次数求和统计的p`log(p)),Q是我们自己设计的一组分布情况。则评价Q的均衡性的办法,就是用Q(i)的信息长度去乘以P(i),最后累加得到对理想P分布而言,Q分布的熵的差值(也就是和P相比有多大的差异性)
交叉熵公式是相对熵+E(p):可认为是基于Q编码的总信息含量
https://www.zhihu.com/question/41252833
稀疏矩阵的快速计算方法
http://blog.csdn.net/lizhengjiang/article/details/40807061
http://www-users.cs.umn.edu/~saad/IterMethBook_2ndEd.pdf
TF-IDF:
TFIDF是:给定词汇,找出使这个词汇所能代表的信息量最大的文档。
可以理解为:
100篇文章均匀的分布了某单词(TF),与10篇文章均匀分布某单词的熵的差值(IDF修正)。
(此处前半句为全数据库统计采样结果,后半句为针对该单词的出现文章数量的一个权重修正)
这个概念是基于相对熵提出的。
即我先假定一个基础分布(完全平均P分布),此时某单词w的信息含量就是TF(w)log(TF(w))
而此时我发现其实w符合Q分布(对于100篇文章中,只有10篇才有这个单词),那么增加了这个额外的信息后,信息熵就增加了
---------即:单词w的出现代表了更多的信息。
因此,乘以IDF参数:log(D/j) 即为log p/log q,修正后的参数才是单词w的真正信息量。
最后对搜索者提供的所有单词组合,对候选的所有文章进行检索。按文章中针对提供的单词组合给出的信息量最大的网页进行排列。
吴军《数学之美》部分概念笔记(1-11章)相关推荐
- 【原创】《数学之美》读书笔记——第1章
写正文前的一段关于数学的感概~ 作为一名即将毕业的大四狗,经历了一年的考研时光,对数学重拾高中时的感觉,热爱. 还记得小学五年级前我是如此的痛恨数学,直到在五年级遇到了一位非常幽默的数学老师,是他让我 ...
- 吴军《数学之美》-读书笔记
<数学之美>读书笔记 前言 第一章-文字和语言 vs 数字和信息 第二章-自然语言处理(从规则到统计) 第三章-统计语言模型 前言 本来想把题目写作读后有感或者叫什么心得体会,但是斟酌之后 ...
- 数学之美》读书笔记和知识点总结(一)
<数学之美>读书笔记和知识点总结(一) 早在前几个月我在台湾的时候,就听说<数学之美>是一本非常不错的书,也正好是我喜欢的类型,一直想买.回到北京之后的第一件事就是把我这半年积 ...
- 《数学之美》读书笔记(2)
上篇写了<数学之美>的第一到十一章,这篇把后面几章写完.后面的内容比较广泛而且很多都是很熟悉的内容.让我感觉眼前一亮的是用SVD做新闻分类.SVD的物理意义以前都没有仔细的想过. 第12章 ...
- Java编程思想学习笔记-第11章
<?xml version="1.0" encoding="utf-8"?> Java编程思想学习笔记-第11章 Java编程思想学习笔记-第11章 ...
- 软考-中级-网络工程师-笔记-第11章-网络管理
第11章 网络管理 11.1 网络管理基础 网络管理体系架构 网络管理软件 VS 网络监控软件 网络管理五大功能域:故障管理.配置管理.计费管理.性能管理和安全管理 故障管理: 网络监控系统体系结构 ...
- 《数学之美》读书笔记_No.10_PageRank
其实很早之前就被推荐<数学之美>这本书,拖到现在才读,最大的感受可能真的是"相见恨晚".记一些笔记供以后复习翻看. 第10章 PageRank Google的民主表决式 ...
- 《数学之美》读书笔记和知识点总结(一)
早在前几个月我在台湾的时候,就听说<数学之美>是一本非常不错的书,也正好是我喜欢的类型,一直想买.回到北京之后的第一件事就是把我这半年积攒的书单全部兑现,其中包括<数学之美>和 ...
- CCNA中文笔记第11章Wide Area Networking Protocols
作者:红头发 Chapter11 Wide Area Networking Protocols Introduction to Wide Area Networks WAN是覆盖地理范围相对较为广阔的 ...
最新文章
- python中的module
- c语言struct_学习了C语言之后还是感觉不会编程,应该怎么办?其实你想错了!...
- Oracle ASM 翻译系列第七弹:高级知识 How many partners?
- 天地图 android sdk,我想使用天地图sdk,第三方插件的教程走通了,现在卡住了
- linux创建定时任务命令,linux设置定时任务的方法步骤
- html前进2格2em,HTML2
- 浮点数在计算机中存储方式float,double)---转
- VsCode配置Python开发环境后运行代码会报错“无法加载文件 D:\Code\xxx\poetry-demo\.venv\Scripts\Activate.ps1”
- Spring MVC表单实例
- 【java】@Transactional注解与事务
- bzoj 1003: [ZJOI2006]物流运输
- 对博客园文章审核规则的质疑
- flash读取程序 msp430_MSP430内部FLASH详细操作
- 全媒体时代的速度与激情:香港凤凰卫视云端转型实践
- Android WebView截屏空白或者一片黑如何解决?使用MediaProjection截图。
- 生兔子c语言递归的方法,经典的兔子生兔子问题(C#递归解法)
- 移动端开发案例(Bootstrap布局,响应式开发)
- 《Game Scripting Mastery》一本被中文翻译耽误的书
- Idea配置翻译插件
- python中的多行语句可以使用反斜杠来实现_Python中的多行语句可以使用反斜杠来表示。...