文章目录

  • 第1章 文字语言VS数字信息
  • 第2章 自然语言处理——从规则到统计
  • 第3章 统计语言模型
  • 第4章 谈谈分词
  • 第5章 隐含的马尔可夫模型
  • 第6章 信息的度量和作用
  • 第7章 贾里尼克和现代语言处理
  • 第8章 简单之美—布尔代数和搜索引擎
  • 第9章 图论和网络爬虫
  • 第10章 PageRank-Google的民主表决式网页排名技术
  • 第11章 如何确定网页和查询的相关性
  • 第12章 有限状态机和动态规划—地图与本地搜索的核心技术
  • 第13章 Google AK-47的设计者——阿米特·辛格博士
  • 第14章 余弦定理和新闻的分类
  • 第15章 矩阵计算和文本处理中的两个分类问题

第1章 文字语言VS数字信息

开篇指出数学,文字和自然语言都一样,是信息的载体,它们之间有着天然的联系。通过两个原始人之间的交流和现在通信模型对比,得出两者之间并没有不同,都是传递方将信息进行编码传递,接收方将信息进行解码获取。
随着原始人生存条件的逐渐提高,简单的交流已经无法满足需求,于是出现了文字和计数。中国的甲骨文,埃及的象形文字,随着文字的增多,古代人已经无法记住所有的文字,出现类似于今天自然语言处理和机器学习中聚类的概念,以及通过上下文来解决歧义的问题。罗塞塔石碑证明了即使不同文明,不同语言的人们也可以相互交流,因为文字和语言都是信息的载体。其中,罗塞塔石碑中信息的冗余对今天的信道编码具有指导意义。中国和罗马都采用了明确的单位来表示数字的不同量级,采用了十进制,引入了编码的概念,都有自己的解码规则(中国是加法,罗马是减法)。从象形文字到拼音文字的转化,体验了信息论中最短编码原理。中国古代对语言进行文言文编码以节约纸张,犹太人抄写圣经使用校验码以防抄写错误等数学与信息之间的紧密联系。最后列举后人通过修改莎士比亚戏剧中病句的失败案例,阐明了语言学研究方法要坚持从真实的语句文本出发。同时,也为第2章“自然语言处理-从规则到统计”奠定了基础。
读完本章,作者用生动的事例讲述文字,数字和语言的发展历史,很自然的使我感受到文字,数字和语言作为记载信息的载体,具有天然的联系。
课外拓展:
聚类:将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。应用:模式识别中的语音识别和字符识别,机器学习中的图像分割和机器视觉,图像处理中的数据压缩和信息检索。

第2章 自然语言处理——从规则到统计

字母,中文的笔画,文字和数字实际上都是信息编码的不同单位,任何一种语言都是一种编码方式,语法就是编解码的算法。由机器智能引出自然语言处理。计算机科学之父阿兰·图灵提出了图灵测试,用于判断机器是否具有智能。

一次伟大的会议—达特茅斯夏季人工智能研讨会,作者认为:此次会议的意义超过10位图灵奖。
通过展示“飞鸟派”方法论的错误,可以看到机器翻译和语音识别都不开统计。通过举例,详细介绍了基于规则方法进行自然语言处理显现出来的弊端。随着计算能力和数据存储能力的提高,基于统计方法完成的建模更加复杂,Goolge基于统计方法的翻译系统全面超过基于规则方法的Systran翻译系统。基于统计的自然语言处理方法,在数学建模和通讯上是相同,使得数学意义上的自然语言的处理和语言的初衷-通信联系在一起。

第3章 统计语言模型

统计语言模型产生的初衷是为了解决语音识别问题,用数学的方法描述语言的规律。贾里尼克提出用可能性大小即概率来衡量语言是否合理,提出用以下公式计算S的可能性大小:

当涉及的变量n>=3时,P的计算量变得非常复杂。马尔可夫假设巧妙的解决这个难题,即假设 出现的概率只同于它前面的词 有关。

(上述公式对应的统计学语言模型称为二元模型)
计算条件概率的方法

然后作者通过三个事例证明了统计语言模型比任何已知的借助某种规则的解决方法更有效,介绍了n-1阶马尔可夫假设,对应的语言模型是n元模型。上述的二元模型是n=2的情况,即使高阶模型也不可能覆盖所有的语言现象。
通过对语料的统计,得到模型中所有条件概率的过程称为模型的训练。大数定理告诉我们要有足够的观测值,才能近似使得相对频率=概率。统计语言模型的零概率问题是无法避免的。古德-图灵估计:“对于没有看见过的事件,我们不能认为它发生的概率就是零,因此我们从概率的总量中,分配一个很小的比例给这些没有看见的事件。

语料的选取非常重要,根据需求选择一个合适的语料会使效果更好。看完本章,真正体会了数学的魅力在于将复杂的问题简单化及概率论和数理统计在实际应用中的重要性。

第4章 谈谈分词

将自然语言交给机器去处理,首先就要为机器找到一个合适的分词方法。最早出现的是查字典法,是由梁南元教授提出。由王晓龙博士将其发展成最少分词理论,但是这些方法始终无法解决二义性的问题。1990年郭进博士利用统计语言模型成功解决二义性的问题。假定一个句子有多种分词方法,计算这几种分词方式出现的概率有多大,采用出现概率最大的分词方式。虽然统计语言模型进行分词取得了比人工分词更好的结果,但也不可能做到百分之百准确。孙茂松教授解决了没有词典的情况下的分词问题,吴德凯教授较早将中文分词方法用于英文词组的分割,并且将英文词组和中文词在机器翻译时对应起来。分词在中文、韩文、手写英文识别中尤为重要。

不同分词器产生结果的差异远远小于不同人之间看法的差异,不一致的原因主要在于人们对词颗粒度认知的问题,中文分词的颗粒度应该随着应用的不同而不同。中文分词以统计语言模型为基础,今天基本上是一个已经解决的问题,读完本章,大致了解到整个分词发展的历史,从查字典法到现在基于统计语言模型建立的分词器,对于现在分词的主要工作应该是完善复合词表和补录社会在发展中新词汇,比如疫情期间出现的“逆行”,“共情伤害”等。个人感觉根据不同的用途建立专门的分词器是很有必要的,这样会提高特定用户的使用体验。

第5章 隐含的马尔可夫模型

隐含的马尔可夫模型被公认为是解决自然语言最快速有效的一种方法,利用相对简单的数学模型解决诸如语音识别,机器翻译等复杂问题。

通讯模型

几乎所有的自然语言处理问题都可以等价成通信的解码问题。根据接收端的观测信号o1,o2,o3来推测信号源发送的信息s1,s2,s3。
经过贝叶斯公式将上述公式进行等价转化

由于信息o1,o2,o3一旦产生,它就不会改变,即 P(o1,o2,o3)是一个确定的常数。故上述公式可以等价为:
假设在随机过程中,每一状态的出现都与前一状态有关,这个假设叫做马尔可夫假设,这个过程叫做马尔可夫链。
隐含马尔可夫模型是上述马尔可夫链的一个扩展:任一时刻t的状态St是不可见的。隐含马尔可夫模型在每个时刻t会输出一个符号Ot,而且Ot跟St相关且仅跟St相关。这个被称为独立输出假设。
隐含马尔可夫模型成功的应用最早是语音识别,后陆续成功应用于机器翻译、拼写纠错、手写体识别、图像处理、基因序列分析、股票预测和投资等。

第6章 信息的度量和作用

香农提出信息熵的概念解决了信息的度量问题并量化出信息的作用,信息熵公式如下:
一本书中重复内容越多,信息量就越小,冗余度就越大,在各种语言中,汉语的冗余度相对较小。信息的作用在于消除不确定性,自然语言处理的大量问题就是寻找相关的信息。

网页搜索本质上是利用信息消除不确定性,通过关键词在大量的网页中找到最相关的几个网页。要提高搜索引擎的质量,就应该挖掘新的隐含的信息,比如网页自身的质量信息。还可以请求用户添加新的信息,如相关搜索。试图通过对关键词用公式或机器学习算法等方式提高搜索质量是不正确的,因为没有额外的信息引入,这样做效果很差。
当获取的信息和研究的事物有关系时,这些信息才能帮助我们消除不确定性。两个随机变量x,y它们的互信息定义如下:
通过列举一些简单的例子,说明互信息也能够很好的解决词义二义性的问题。
本章拓展
相对熵,文献中也称交叉熵,定义如下:

1.对于两个完全相同的函数,它们的相对嫡等于零。
2.相对嫡越大,两个函数差异越大;反之,相对熵越小,两个函数差异越小。
3.对于概率分布或者概率密度函数,如果取值均大于零,相对熵可以度量两个随机分布的差异性。
信息熵不仅是对信息的量度,作为信息论的基础对通信,数据挖掘,自然语言处理都具有指导意义。

第7章 贾里尼克和现代语言处理

本章以作者的亲身经历,讲述贾里尼克等一批研究者在信息领域取得的成功,以下是整理的作者观点:
1:小学生和中学生的社会经验、生活能力以及所树立起的志向有益于一生,没有必要花太多的时间读书。
2:大学阶段的理解力会比之前强得多,中学阶段花很多时间学习的内容在大学用非常短的时间就可以读完,而一个学生在中小学阶段建立的一点点优势在大学很快会丧失殆尽。
3:学习是一个人一辈子的过程,因为兴趣而读书的学生读书的动力更强,表现会更好。
4:书本内容的获取可早可晚,但错过的成长阶段却无法补回来。
5:想要在自己的领域做到世界一流,身边必须要有很多世界一流的人物。
6:相信别人是非常聪明,不要告诉别人怎么做,只需要告诉别人不要做什么。
贾里尼克的成功之路以及在晚年创立的世界著名的CLSP实验室都使人惊叹不已,他对专业态度的严谨以及为人处世的态度都值得我们学习。

第8章 简单之美—布尔代数和搜索引擎

香农第一次使用简单的布尔代数来实现开关电路,使得布尔代数成为数字电路的基础。同时适用于所有的数学逻辑运算和搜索引擎,根据布尔代数的原理,将图书索引卡片发展成了数据库查询。由于现在词汇表的巨大和网页数目的庞大,索引要通过分布式的方式存储到不同的服务器上。接受查询时,这些服务器同时并行处理用户请求,并把结果送到主服务器上进行合并处理,最后将结果返回给用户。布尔运算虽然简单,但是它不仅使数学和逻辑相结合,而且为我们看待世界提供了一个新的视角,奠定了如今数字化时代的基础。

第9章 图论和网络爬虫

本章主要介绍了图论和网络爬虫之间的关系。在第8章如何建立搜索引擎中提到要尽可能多的下载互联网中所有的网页,这就要用到图论中的遍历算法。文中由“哥尼斯堡的七座桥”引出遍历算法,由后面拓展可知,“七座桥”是无法实现的,因为有多个顶点的度为奇数,无法从一个顶点出发,遍历每条边各一次然后在回到这个顶点。遍历算法包括广度优先搜索BFS和深度优先搜索DFS。
我们可以从一个网站出发,使用超链接,用图的遍历算法,自动地访问到每个网页并把它们存起来,完成这个功能的程序叫做网络爬虫。在网络爬虫的过程中,使用“哈希表”来记录网页是否被下载过。网络爬虫对网页遍历的次序不是简单的BFS或者DFS,而是有一个相对复杂的下载优先级排序的方法。以前的网页URL通常以静态方式写在页面中,这比较好解析。但现在许多页面的URL是JavaScript动态生成的,这就要求爬虫以模拟浏览器访问的形式获得URL。如果爬虫的解析程序不适用当前网页,那就无法获得动态的URL。读完本章认识到了建立问题模型的重要,只有抽象出问题的模型,才能更好的利用所学的知识去解决问题。

第10章 PageRank-Google的民主表决式网页排名技术

本章主要是介绍衡量网页质量的方法。从最早使用目录分类方式让用户通过互联网检索信息的雅虎公司,到DEC开发的AltaVista搜索引擎以及同时代的Inktomi,到最后的PageRank网页排名。PageRank的核心思想:在互联网上,如果一个网页被许多其他网页所链接,说明它受到了普遍的承认和信赖,那么它的排名就高。布林将网页本身排名问题变成了一个二维矩阵相乘的问题,并运用迭代的方法解决。随着互联网网页数量的增长,PageRank的计算量也越来越大。2003年,Goolge工程师发明了并行计算工具MapReduce,PageRank的并行计算完全自动化,缩短了计算时间和网页排名的更新周期。

第11章 如何确定网页和查询的相关性

本章开篇讲了影响搜索引擎质量的因素主要包括:完善的索引,对网页质量的量度,用户偏好,确定一个网页和某个查询的相关性的方法(本章主要内容)。
在搜索过程中,不同关键字在整个关键词中所占的地位不同,例如以“原子能的应用”为关键词,三者的地位应当是“原子能”>“应用”>“的”,即一个词预测主题的能力越强,权重越大,而对于“是”、“和”、“中”、“的”等停止词,其权重应当为零。如果一个关键词只在很少的网页中出现,通过它就很容易锁定搜索目标,它的权重也就应该大。反之,则权重较小。在信息检索中,使用最多的权重是IDF“逆文本频率指数”,它的公式为
,D指全部网页数,Dw是指关键字w在 个网页中出现的次数。加入权重后,相关性的计算由词频的简单求和变成了加权求和,即:

所谓IDF的概念就是一个特定条件下关键词的概率分布的交叉熵。

第12章 有限状态机和动态规划—地图与本地搜索的核心技术

地址的识别和分析是本地搜索不可或缺的技术,地址的文法是下上文有关文法中比较简单的,其中有限状态机的处理方法最有效。它是指一个特殊的有向图,包括一些节点和连接这个节点的有向弧。
每一个有限状态机都有一个开始状态和一个终止状态,以及若干中间状态,每一条弧上带有从一个状态进入下一个状态的条件。如果一条地址能从状态机的开始状态经过状态机的若干中间状态,走到终止状态,则这条地址有效,否则无效。在对地址识别和分析时,要进行模糊匹配,并给出一个字符串为正确地址的可能性,基于概率的有限状态机和离散的马尔可夫链基本等效。前AT&T实验室的科学家编写的基于概率的有限状态机C语言工具库最为成功。Google Now的引擎和AT&T的有限状态机工具库从功能上讲完全等价。
全球导航的关键是计算机科学图论中的动态规划算法。例如图论中的最小路径问题,可以将其分解成一个个寻找局部最短路径的小问题,分解到最后即是所求的最优解,选择一个正确的数学模型可以将一个计算量看似很大的问题的计算复杂度大大降低。
有限状态机和动态规划不仅应用于识别地址,导航等地图服务相关领域。它们在语音识别,拼写和语法纠错,工业控制和生物序列分析等领域都有极其重要的作用。

第13章 Google AK-47的设计者——阿米特·辛格博士

在计算机科学领域,一个好的算法应该像AK-47冲锋枪那样:简单,有效,可靠性好而且易操作。本章主要讲了阿米特·辛格博士在Goolge期间的成就,工作态度和处事方式等,以第三人称介绍了一个成功人士的工作和日常生活。辛格做事情的哲学,即先帮助绝大多数的用户解决问题,再慢慢解决剩下的问题,是在工业界成功的秘诀之一。辛格奉行简单原则,坚持寻找简单有效的解决方案。辛格坚持选择简单方案的另一个原因是容易解释每一个步骤和方法背后的道理。这不仅便于出了问题时差错,而且容易找到今后改进的目标。他之所以总能找到那些简单有效的方法,不是靠直觉,更不是撞大运,这首先是靠他丰富的研究经验。他非常鼓励年轻人要不怕失败,大胆尝试。

第14章 余弦定理和新闻的分类

本章讲的是计算机对新闻的分类和余弦定理之间的联系。为了让计算机能够快速的对新闻进行分类,首先要求我们先把文字的新闻变成一组可计算的数字,然后再设计一个算法来算出任意两篇新闻之间的相似性。用到了在“如何确定网页和查询的相关性”这章中提到的TF-IDF值,新闻主题有关的那些实词的频率高,TF-IDF的值就大。
新闻中强调特定主题用到的描述词出现的频率反应在每一篇新闻的特征上,如果两篇新闻属于同一类,它们的特征向量在某个维度的值比较大,其它维度的值就会比较小。如果两篇新闻不属于同一类,由于用词不同,它们各个维度大小的相似度就会很低。利用余弦定理可以计算两个向量之间的距离,即两篇新闻之间的相似度。通过设置阈值来将所有相似程度高的新闻分成许多小类,再将这些小类中所有的新闻看做一个整体,计算小类各个新闻之间的相似程度,然后再合并,不断迭代,便可以完成分类。余弦定理就这是这样通过新闻的特征向量和新闻的分类联系在一起。
大数据量时余弦计算数量级很大,计算速度慢,迭代周期长。它可以通过以下方式进行简化:首先分母部分可以不用重复计算,其次在计算两个向量内积时,只考虑向量中的非零因素,最后可以删除虚词。这种方法只适用于新闻归类,对于更大规模文本处理,则需要采取其它方法。

第15章 矩阵计算和文本处理中的两个分类问题

本章主要讲的是利用矩阵运算中的奇异值分解来解决新闻的数量和词表都很大时,两篇新闻之间相似度的问题。首先用一个大矩阵来描述成千上万文章和几十上百万个词的关联性。奇异值分解,就是将组成的大矩阵分解成三个小矩阵相乘,如下图:

其中,第一个矩阵X是对词分类的一个结果,每一行表示一个词,每一列表示一个语义相近的词类。第二个矩阵B表示词的类和文章的类之间的相关性。第三个矩阵Y则表示对文本的分类结果。2007年,中国(谷歌)的张智威博士团队实现了奇异值分解的并行算法,解决了如何利用计算机进行奇异值分解。
本章介绍的奇异值分解的优点是能较快地得到结果,它不需要进行迭代,适用于处理大规模文本的粗分类。在实际应用中,可以先进行奇异值分解,得到粗分类,再利用计算向量余弦的方法,在粗分类的基础上惊醒几次迭代,能得到比较精确的结果,既可以充分利用这两种方法的优势,节省时间,又能获得很好的准确性。

数学之美读书感悟01相关推荐

  1. 数学之美读书感悟03

    文章目录 第25章 条件随机场,文法分析及其他 第26章 维特比和他的维特比算法 第27章 上帝的算法-期望最大化算法 第28章 逻辑回归和搜索广告 第29章 各个击破算法和Google云计算的基础 ...

  2. 数学之美读书感悟02

    文章目录 第16章 信息指纹及其应用 第17章 由电视剧<暗算>所想到的-谈谈密码学的数学原理 第18章 闪光的不一定是金子-谈谈搜索引擎的反作弊问题和搜索结果的权威性问题 第19章 谈谈 ...

  3. 数学之美-读书笔记6-10章

    文章目录 数学之美 第六章 信息的度量和作用 1信息熵 2信息的作用 3互信息 4延伸阅读 第7章 贾里尼克和现代语言处理 1早年生活 2 从水门事件到莫妮卡·莱文斯基 3一位老人的奇迹 第八章 简单 ...

  4. 数据分析?他们早就开始用了——数学之美读书笔记

    数据分析?他们早就开始用了? 标题取得很好听,其实就是<数学之美>这本书的读书笔记.这是每一个想学编程了解计算机的人都不应该错过的好书,必须推荐 光 看这个名字,你可能以为它就是一本讲数学 ...

  5. 数学之美-读书笔记11-15章

    文章目录 数学之美 第十一章 如何确定网页和查询的相关性 1搜索关键词权重的科学度量-TF-IDF 第十二章 有限状态机和动态规划-地图与本地搜索的核心技术 1地址分析和有限状态机 2全球导航和动态规 ...

  6. 度量相似性数学建模_数学之美读书笔记

    2020年6月读,先通读一遍,随后为写读书笔记又重新读了一遍,收获颇丰,虽然没有很多数学或者编程方面的知识,但正如作者所说,这本书讲述的是道,而非术. 读这本书让我领略到了科学的趣味,并不是枯燥的敲代 ...

  7. 数学之美读书笔记--摘抄

     "系列一: 统计语言模型" "利用统计语言模型进行语言处理" "假定任意一个词wi的出现概率只同它前面的词 wi-1 有关(即马尔可夫假设)&quo ...

  8. 数学之美读书笔记第一章

    通信的原理和信息传播的模型 原理:信息被编码,再被解码的过程. 信息传播的模型: 传播人 => 信息 -> 编码信息 ->信道(声音介质,双绞线介质等) -> 解码信息 =&g ...

  9. java 对数取反_数学之美读书笔记-拼音输入法的数学原理

    从理论上分析,输入汉字到底能有多快?这里需要用到信息论中的香农第一定理.假定在国标GB2312里面,一共有6700多个常用的汉字.如果不考虑汉字频率的分布,用键盘上的26个字母对汉字进行编码,两个字母 ...

最新文章

  1. 通用权限管理系统组件 给信息管理系统加一个初始化的功能,调用存储过程
  2. 微软正式发布XAML Standard与.NET Standard 2.0:现已提供下载
  3. Python的配置文件模块yaml的使用
  4. hasp运行不成功_提问:程序无报错或警告,但总是运行不成功,会卡住没反应...
  5. win10饥荒服务器未响应,win10系统玩饥荒联机很卡如何解决[多图]
  6. Redis持久化配置
  7. 【Scheme归纳】4 高阶函数
  8. 近期生活中将会发生的一点变化!
  9. CAD迷你看图V9.5版
  10. 计算机毕设项目论文介绍(Java智慧物业管理系统为例)
  11. 数据库候选关键词怎么求_如何选取关键词?
  12. PS怎么做出水彩油画喷溅效果图片
  13. Flink StreamingFileSink 文件到hdfs 文件一直处于inprogress状态无法生成正式文件
  14. 《数字图像处理》题库3:判断题
  15. 猜字游戏python程序_python 猜字游戏
  16. 有限合伙税收“优惠”:上市公司股东大举入疆或为避税
  17. android 源码下载 1.6到6.0都有 百度盘下载
  18. 开发一个 Chrome 浏览器插件,拢共分几步?
  19. [Kaggle]图片去噪题解阅读笔记
  20. 【OUTLOOK管理】 如何标记某个发件人的邮件

热门文章

  1. Python实现base64编码文件转化为jpg/png/jpeg/格式图片
  2. Air724UG 4G LTE 模块AT指令连接服务器
  3. uni-app 超好用的时间选择器组件(起止时间)
  4. pywifi破解密码
  5. Photoshop文字特效——炫彩效果文字
  6. a15仿生芯片和a15有什么区别
  7. 基于正交设计的折射反向学习樽海鞘群算法
  8. QQmm无处藏 2.1
  9. 魔域服务器修改和宝宝数据,宝宝属性与真实值之间的公式计算关系
  10. uniapp实现生成海报功能