度量相似性数学建模_数学之美读书笔记

2020年6月读，先通读一遍，随后为写读书笔记又重新读了一遍，收获颇丰，虽然没有很多数学或者编程方面的知识，但正如作者所说，这本书讲述的是道，而非术。

读这本书让我领略到了科学的趣味，并不是枯燥的敲代码调包调参，更多的是从中寻找快乐，希望自己以后也能多静下心来读书，看知乎看csdn就图一乐，真大局观还得看书。

兄弟们奥里给！！！

1 第一章文字和语言vs数字和信息

语言和数学的产生都是为了同一个目的：记录和传播信息

信息包含着产生、传播、接受和反馈

文字只是信息的载体，而非信息的本身。

计数系统产生，十进制是因为人类有十根手指。

简述数字最有效的是印度人，阿拉伯人将之传入欧洲。

从象形文字到拼音文字是一种飞跃，人类对于物体的表述从外表进化到了抽象的角度，并开始了对于信息的编码，为保障信息的准确，产生了校验码。

如果说从字母到词的构词法是词的编码方式，那么语法就是语言的编码和解码规则。

2 第二章自然语言处理

自然语言处理分为两个发展阶段，从20世纪50年代到20世纪70年代，计算机模拟人类学习语言的，20世纪70年代之后，才开始了基于数学模型和基于统计的方法。

一开始，学术界都认为要让计算机完成翻译或者语音识别，就必须让计算机理解自然语言处理。

后续开始探究文法规则，进行人工编写，任何句子都可以被分析成二维的文法分析树。但存在两个问题，第一、文法规则更新太快且数量繁多；第二、能够涵盖所有文法规则的集合，也很难用计算机来解析。

基于有向图的统计模型可以用来解决复杂的句法分析，前期由于没有足够的统计数据，以及计算能力的欠缺使得基于统计的方法无法分析深层次的探究

3 第三章统计语言模型

利用有向图对描述描述词出现的次序和概率，马尔可夫设立假设。

统计语言模型分为二元模型，利用大数定律寻求相对频度，等同于概率，进而利用条件概率模拟成词情况。

假设文本中的每个词和前面n-1个词存在关系，也就是n阶模型，实际中最常用的是3阶模型。而在语言表述中，可能存在着上下文或者段落之间的关系，这也是马尔可夫的局限性，而这时就应该采用一些长程的模型。

使用语言模型需要知道模型中所有的条件概率，我们称之为模型的参数，基于语料的统计得到这些参数，我们称之为模型的训练。直接利用语料得到的参数很有可能为零，我们称之为不平滑。这时候考虑使用古德图灵原理，赋予很小的比例，在实际的自然语言处理中，一般对出现次数超过某个阈值的词不下调其频率，而对出现次数低于某个阈值的词，下调其频率。

为解决不平滑问题，也可以考虑用低阶语言模型和高阶语言模型进行线性插值来达到平滑的目的。

语料的选择不一定选择标准的无噪声的语料。

4 分词

词是表达语义的最小单位。

前期中文分词采用查字典的方式，即从左到右扫描，遇到字典中的词就标示出来，遇到复合词就找最大长度的词匹配。

当遇到词语具有二义性的时候无法解决，考虑开始运用基于统计的方法进行分词，穷举每一种分词情况，并计算该情况下句子的概率，利用维特比算法快速找到最佳的分词方案。

分词的一致性难以把握，具有主观性。

5 隐马尔可夫模型

隐马尔可夫是数学家鲍姆提出，隐含马尔可夫模型的训练方法。

围绕隐马尔可夫有三个问题：

1、给定模型，如何计算某个特定的输出序列的概率（前向后向）

2、给定模型和输出序列，如何找到最可能产生这个输出的状态序列（维特比算法）

3、给定足够量的观测数据，如何估计隐马尔可夫的参数

鲍姆对于问题三的算法如下：每一次迭代不断估计新的模型参数，使得输出的概率达到最大化，因此这个过程被称为期望值最大化，简称EM模型，expectation-Maximization.

6 信息的度量和作用

信息熵：信息的度量，一条信息的信息量和其不确定性有关。

香农用比特这一概念去衡量信息量。

信息的作用：信息是消除系统不确定性的唯一方法，在没有获得信息之前，一个系统就像是黑盒子，引入信息，就可以开始了解黑盒子内部的结构。

互信息：两个随机事件相关性的量化度量，利用之去解决自然语言处理之中的二义性问题。

相对熵：用来衡量相关性，但和变量的互信息不同，它用来衡量两个取值为正数的函数的相似性。结论：1对于两个完全相同的函数，其相对熵等于零。2、相对熵越大，两个函数差异越大3、对于概率分布或者概率密度函数，若取值均大于零，相对熵可以度量两个随机分布的差异性。相对熵是不对称的。

如果两个随机信号相对熵越小，说明这两个信号越接近。

相对熵在自然语言处理上可以用来衡量两个常用词在不同文本上的概率分布，看他们是否同义。同时利用相对熵还可以得到信息检索中一个重要概念：词频率-逆向文档频率（TF-IDF）。

7 第七章贾里尼克和现代语言处理

弗莱德里克·贾里尼克教授是世界著名的语音识别和自然语言处理的专家，他在 IBM 实验室工作期间，提出了基于统计的语音识别的框架，

8 第八章简单之美

搜索着重于三个基础服务:下载，索引和排序。

布尔代数：运算元素只有0和1，运算只有与、或、非。

创立前期并没有什么用，香农在1938年利用布尔代数实现开关电路，使得布尔代数成为了数字电路的基础。

索引：类似于图书馆的索引卡片。最简单的索引是用一个很长的二进制去表示一个关键字是否出现在文献中。后续索引为了网页排名的方便，存有大量的附加信息，注入每个词的位置、次数等，便开始将索引的序号分布在许多服务器上。

9 第九章图论和网络爬虫

如何自动下载互联网所有的网页，需要利用图论中的遍历算法。

有了超链接，可以从任何一个网页开始，用图的遍历方法，自动访问每一个网页并把他保存下来，称之为网络爬虫。为记录那个网页下载过了，以免重复，使用一种叫“散列表”（也叫哈希表）记录。

网络爬虫存在以下几个问题：

1、BFS还是DFS，调度系统，BFS多一些

2、页面分析以及url的提取

3、url 表来记录哪些网页已经下载过了。判断一个网页的url是否存在于散列表中，进行查找。

10 第十章 pagerank 民主表决式网页排名技术

对于一个特定的搜索，其结果排名主要取决于以下两组信息：网页的质量信息和这个查询与每个页面的相关性信息。即quality and relevance。

Pagerank含义：如果一个网页被很多网页所链接，那么它收到普遍的认可，其排名就高，同时排名高的网页贡献的链接权重更大。

出现问题：计算搜索结果的网页排名过程中需要用到网页本身的排名。布林将这个问题变成了一个二维矩阵相乘的问题，赋予相同的初始值，并利用迭代的思想解决。

随之而来的巨大的矩阵相乘问题，佩奇和布林采用稀疏矩阵解决。

11 第十一章如何确定网页和查询的相关性

影响搜索引擎主要分为以下四大因素：

1、完备的索引

2、对网页质量的估计

3、用户偏好

4、确定一个页面和某个查询结果相关性的方法

搜索关键词权重的科学度量TF-IDF：度量页面和查询的相关性，考虑直接使用各关键词在网页中出现的总词频。同时对每一个词设定权重：1、一个词预测主题的能力越强，权重越大。2、停用词权重为0。

举例：原子能的应用。原子能权重为log（500）=8.96，应用权重为log（2）=1.所以原子能贡献了九成。

12 第十二章有限状态机和动态规划

地址分析和有限状态机：地址的识别和分析是本地搜索必不可少的技术。每个有限状态机都存在开始状态和终止状态以及若干中间状态，来实现通过一些有效的地址建立状态机，以及给定一个有限状态机，地址字串的匹配算法。出现问题：用户输入地址不规范或者有错别字，考虑模糊匹配，即基于概率的有限状态机。

全球导航的关键算法是计算机科学图论中的算法。动态规划，dp, dynamic programming，将过程分成若干个互相联系的阶段，在它的每一阶段都需要做出决策，从而使整个过程达到最好的活动效果。因此各个阶段决策的选取不能任意确定，它依赖于当前面临的状态，又影响以后的发展。当各个阶段决策确定后，就组成一个决策序列，因而也就确定了整个过程的一条活动路线．这种把一个问题看作是一个前后关联具有链状结构的多阶段过程就称为多阶段决策过程，这种问题称为多阶段决策问题。在多阶段决策问题中，各个阶段采取的决策，一般来说是与时间有关的，决策依赖于当前状态，又随即引起状态的转移，一个决策序列就是在变化的状态中产生出来的，故有“动态”的含义，称这种解决多阶段决策最优化的过程为动态规划方法。

13 第十三章阿米特辛格

很多失败并不是因为人不优秀，而是做事情的方法不对，一开始追求大而全的解决方案，之后长时间完成不了，最后就不了了之了。

14 第十四章余弦定律和新闻的分类

利用向量来描述一段文字，每个词对应一个向量，如果单词表的词未出现，就定义为0，向量中的每个维度的大小代表每个词对这篇新闻主题的贡献，随后利用向量距离去度量。

倘若有特征向量，则对于任何一个需要分类的新闻，计算其和特征向量的余弦相似性，划分类别。若无特征向量，则考虑聚类。

计算向量余弦的技巧：1、保留向量长度2、只考虑向量中的非零元素3、删除虚词，同时提高准确性。同时可以考虑位置的加权。

15 第十五章矩阵运算和文本处理中的两个分类问题

在自然语言处理中，最常见的两个分类问题就是：1将文本按照主题归类2、将词汇表中的字词按意思归类。

计算新闻的相关性一步到位的方法利用的是矩阵运算中的奇异值（svd），将矩阵非为三个矩阵。

16 第十六章信息指纹

一段文字所包含的信息就是它的信息熵，如果对这段信息进行无损压缩编码，理论上编码后的最短长度就是它的信息熵，任何信息都可以对应一个不太长的随机数，作为区别这段信息和其他信息的指纹。

信息指纹产生的关键算法：伪随机数产生器算法（PRNG），最早的PRNG算法是由冯诺依曼提出，其方法为将一个数的平方掐头去尾，取中间的几个数字。信息指纹具有不可逆性。在网络上加密要使用基于加密的伪随机数产生器，常用的算法为MD5，可以将不定长的信息变成定长的128位或者160位。

在网页搜索中，有时候需要判定两个查询用词是否完全相同，最笨的方法就是对这个集合中的元素一一比较，稍好一些的算法就是排序后比较。完美的方法就是计算两个集合的指纹，进行加法运算，交换率保证了集合的指纹不会因为元素出现的次序而改变。

判定集合相同：例如邮件，挑选地址部分信息（尾数），若其信息指纹相同，则大概率相同。随后为允许一定的容错率，考虑采用相似哈希。

视频的匹配：关键帧的提取和特征的提取。

17 第十七章密码学的数学原理

密码学的最高境界就是无论敌方获取多少密文，也无法消除己方情报系统的不确定性，公开密钥是目前最常用的加密方法。

18 第十八章搜索引擎的反作弊和搜索结果的权威性

搜索引擎存在噪声，最主要是针对搜索引擎网页排名的作弊，另一些噪音则是用户在互联网活动所产生的。

早期最常见的作弊方式就是重复关键词，有了网页排名之后，作弊者开始买卖链接，而出链方式和不作弊网站有所不同，其出链向量之间的余弦距离几乎是一，反作弊的另外一个工具是图论，作弊网站一般互相链接，以提高自己排名。

搜索结果的权威性：pagerank等网页质量的度量工具都很难衡量搜索结果的权威性，引入概念：“提及”计算权威性的步骤如下：

1、对每一句话进行句法分析，提取关键词

2、利用互信息找出主题短语和信息源的相关性

3、对主题短语进行聚合，得到一些搜索的主题

4、对一个网站中的页面进行聚合

完成之后，我们就得到一个针对不同主题，哪些信息源具有权威性的关联矩阵，对权威高的网站给出提及关系更高的权重。

19 第十九章数学模型

大道至简

20 第二十章最大熵模型

不要把鸡蛋放到一个篮子中，以降低风险，这样子的原理称之为最大熵原理。

最大熵原理指出，对一个随机事件的概率分布进行预测时候，我们的预测应当满足全部已知条件，而对未知情况不要做任何的主观假设。

最原始的最大熵模型训练方案为通用迭代算法，GIS，就是：首先假设初始模型为等概率的均匀分布，随后开始迭代，如果超过了实际的就将参数变小。GIS是典型的EM，期望值最大化算法。随后产生改进迭代算法IIS。

21 第二十一章拼音输入法的数学原理

对汉字的编码主要分为两个部分：对拼音的编码和消除歧义性的编码。早期拼音输入法并不是很成功，出现很多其他形式的输入法。最终，用户选择了拼音输入法，三个优点：1、不用专门学习2、输入自然3、编码长，容错率较高。

对每个字进行统计，不考虑上下文，大致可以估计其值在10比特以内，如果输入法只能使用字母来输入，那么输入一个汉字需要敲10/（log26）=2.1次键。以词作为单位，汉字的信息熵大概是8比特，那么敲键1.7次。考虑上下文，可以将词的比特降低至6比特，那么敲键1.3次。

拼音转汉字也是一个动态规划问题，需要去寻找最短路径。

设计用户特定的语言模型，通过线性插值，将个性化模型和通用模型组合。

22 第22章自然语言处理教父马库斯

马库斯更早的发现建立标准语料库在自然语言处理研究中的重要性。

柯林斯：做出了世界上最好的文法分析器，把细节研究的很仔细。

布莱尔：提出基于变换规则的机器学习方法。

23 第二十三章布隆过滤器

用散列表实现过滤广告邮件：将每一个Email地址对应成一个八字节的信息指纹，然后将信息指纹存入散列表，由于散列表的存储效率只有百分之五十，因此一个email需要占用16字节。但这种方法太占内存。

布隆过滤器占用散列表的四分之一到八分之一就可以。

布隆过滤器是一个很长的二进制向量和一系列随机映射函数。计算出这个数据占据哪些格子，然后看看这些格子里面放置的是否都是1，如果有一个格子不为1，那么就代表这个数字不在其中。

24 第二十四章马尔可夫链的扩展

马尔可夫链描述了一种状态序列，其每个状态值取决于前面有限个状态

贝叶斯网络：每个弧度上都有可信度，有向无环图。可以用来抽取概念、分析主题。

贝叶斯网络的训练一般采用贪心算法，也就是在每一步中沿着箭头的方向去寻找。为防止陷入局部最优，采用蒙特卡洛，利用随机数在贝叶斯网络中试探。权重的参数需要训练。

25 第二十五章条件随机场和文法分析

自然语言处理的文法分析就是指根据文法对句子进行分析，建立出这个句子的语法树。前期文法分析主要用括号分割句子。后期采用条件随机场进行文法分析。

条件随机场是隐马尔可夫的扩展，特殊的概率图模型，无向图。

26 第二十六章维特比算法

维特比算法是一种动态规划算法用于寻找最有可能产生观测事件序列的-维特比路径-隐含状态序列，特别是在马尔可夫信息源上下文和隐马尔可夫模型中。

维特比算法的基础可以概括成下面三点：

1.如果概率最大的路径p(或者说最短路径)经过某个点，比如途中的X22，那么这条路径上的起始点S到X22的这段子路径Q，一定是S到X22之间的最短路径。否则，用S到X22的最短路径R替代Q，便构成一条比P更短的路径，这显然是矛盾的。证明了满足最优性原理。

2.从S到E的路径必定经过第i个时刻的某个状态，假定第i个时刻有k个状态，那么如果记录了从S到第i个状态的所有k个节点的最短路径，最终的最短路径必经过其中一条，这样，在任意时刻，只要考虑非常有限的最短路即可。

3. 结合以上两点，假定当我们从状态i进入状态i+1时，从S到状态i上各个节的最短路径已经找到，并且记录在这些节点上，那么在计算从起点S到第i+1状态的某个节点Xi+1的最短路径时，只要考虑从S到前一个状态i所有的k个节点的最短路径，以及从这个节点到Xi+1，j的距离即可。

扩频技术是指在一个较宽的扩展频道上进行，随后开始出现新技术：

频分多址：对频率进行切分。

时分多址：将同一频带按照时间分为多份，每个人的通信数据压缩后只占用频带传输的n分之一份，这样一条频带可以多人使用。

码分多址(CDMA)的基本思想是靠不同的地址码来区分的地址。每个配有不同的地址码，用户所发射的载波(为同一载波)既受基带数字信号调制，又受地址码调制，接收时，只有确知其配给地址码的接收机，才能解调出相应的基带信号，而其他接收机因地址码不同，无法解调出信号。

27 第二十七章期望值最大化算法

EM算法是在依赖于无法观测的隐藏变量的概率模型中，寻找参数最大似然估计或者最大后验估计的算法。

28 第二十八章逻辑回归和搜索广告

搜索广告的三个问题：

1、预估搜索率，对新广告不合适

2、统计数据不足

3、广告的点击率和位置有关

在整合各个特征时候，采用逻辑回归模型预估点击率。

29 第二十九章各个击破算法

分治算法

30 第三十章人工神经网络

输入层，隐含层，输出节点，需要设计的有两部分，结构，包括网络层数，每层几个节点和节点之间如何转移；以及非线性函数的设计，常用的是指数函数。

人工神经网络和贝叶斯网络相似，人工神经网络更加标准化，贝叶斯网络函数更为复杂，同时贝叶斯网络考虑了上下文或者前后的相关性。

31 第三十一章大数据很重要很牛逼