文章目录

  • 第25章 条件随机场,文法分析及其他
  • 第26章 维特比和他的维特比算法
  • 第27章 上帝的算法—期望最大化算法
  • 第28章 逻辑回归和搜索广告
  • 第29章 各个击破算法和Google云计算的基础
  • 第30章 Google大脑和人工神经网络
  • 第31章 区块链的数学基础--椭圆曲线加密原理
  • 第32章 大数据的威力--谈谈数据的重要性
  • 第33章 随机性带来的好处--量子密钥分发的数学原理
  • 第34章 数学的极限--希尔伯特第十问题和机器智能的极限
  • 总结

第25章 条件随机场,文法分析及其他

1.基于规则的句子文法分析有一个无法避免的问题,就是选择不可能一次就对。查尼阿克和拉纳帕提在连接数学和文法分析做出来巨大的贡献。拉纳帕提建立了统计模型 ,他是真正将句子的文法分析和数学模型联系起来的关键人物。
2.条件随机场是隐马尔可夫模型的一种扩展,是一种特殊的概率图模型。它与贝叶斯网络的不同之处在于,条件随机场是无向图,贝叶斯网络是有向图。状态节点的集合Y和观察变量节点的集合X,这两个集合的联合概率分布模型不可能获得足够多的数据来用大数定理直接估计。根据最大熵原则找到了符合所有边缘分布的模型即指数函数,将指数函数的特征应用到模型中,就得到如下公式:
3.条件随机场是一个非常灵活的用于预测的统计模型,本章主要强调它在自然语言处理,特别是在句子分析中的应用,它还可以应用于模式识别,机器学习,生物统计,甚至预防犯罪等方面。

第26章 维特比和他的维特比算法

维特比算法是一个特殊但应用最广的动态规划算法。利用动态规划,可以解决任何一个图中的最短路径问题。而维特比算法是针对一个特殊的图—篱笆网络的有向图的最短路径问题而提出的。它之所以重要,是因为凡是使用隐含马尔可夫模型描述的问题都可以用它来解码,包括今天的数字通信、语音识别、机器翻译、拼音转汉字、分词等。
频分多址是指对频率进行切分,每一路通信使用一个不同的频率,对讲机采用的就是这个原理。时分多址是将同一频带按时间分成多份。每个人的通信数据在压缩后只占用这个频带传输的1/N时间,这样同一个频带可以被多个人同时使用。码分多址,根据不同的密码区分发送。
维特比的财富来自于他将技术转换成商业的成功。维特比不仅提供了关键性的发明,而且为了保障这项关键性的发明的效益在全社会得到最大化,他解决了所有配套的技术。

第27章 上帝的算法—期望最大化算法

本章主要讲的是在机器学习中最重要的一个方法–期望最大化算法。
文本的自收敛分类步骤如下:1.随机挑选K个点,作为起始的中心。2.计算所有点到这些聚类中心的距离,将这些点归到最近的一类中。3.重新计算每一类的中心。4.重复上述过程,直到每次新的中心和旧的中心之间的偏移非常小,即过程偏移。
EM算法只需要有一些训练数据,定义一个最大化函数,剩下的事情就交给了计算机。经过若干次迭代,需要的模型就训练好了,所以被称之为上帝的算法。

第28章 逻辑回归和搜索广告

本章刚开始介绍了搜索广告的发展,第一阶段是以早期Overture和百度的广告系统为代表,按广告主出价高低来排名广告。第二阶段并不是简单根据出价高的广告放前面,而是预测到哪个广告可能被点击,综合出价和点击率等因素决定广告的投放。第三阶段是第二阶段进一步的全局优化。
逻辑回归模型是指一个事件出现的概率逐渐适应到一条逻辑曲线上。逻辑曲线是一条S形曲线,特点是一开始变化快,逐渐减慢,最后饱和。
一个广告系统中,点击率预估机制的好坏决定了能否提高单位搜索的广告收入。逻辑回归模型是一种将影响概率的不同因素结合在一起的指数模型。除了在信息处理中的应用,还广泛应用于生物统计。

第29章 各个击破算法和Google云计算的基础

云计算的关键之一是把一个非常大的计算问题,自动分解到许多计算能力不是很强大的计算机上,共同完成。针对这个问题Google给出了一个解决工具叫做MapReduce的程序,根本原理就是分治算法即“各个击破”算法。
分治算法的基本原理:将一个复杂的问题,分成若干个子问题进行解决,对子问题的结果进行合并,得到原有问题的解。
MapReduce 在工程上所做的事情主要有大矩阵自动拆分,保证各个服务器负载均衡,合并返回值等,将一个大任务拆分成小的子任务,并且完成子任务的计算,这个过程叫做 Map,将中间结果合并成最终结果,这个过程叫做 Reduce。

第30章 Google大脑和人工神经网络

本章刚开始由Google大脑引出人工神经网络,它的本质是一种特殊的有向图,特殊性主要包括:1.所有节点都是分层的,每一层节点可以通过有向弧指向上一层节点,同一层节点之间没有弧互相连接,而且每一个节点不能越过一层连接到上上层的节点上。2.每一条弧上有一个值,根据这些值,可以用一个非常简单的公式算出它们所指节点的值。
人工神经网络所擅长的是模式分类,主要应用于语音识别,机器翻译,人脸图像识别,癌细胞的识别,疾病的预测和股票走向的预测等。
在人工神经网络中,规定神经元函数只能对输入变量线性组合后的结果进行一次非线性转换。人工神经网络是一个分层的有向图,第一层输入节点 接收输入的信息,也称为输入层。第二层的节点照此将数值向后传递,直到第三层节点,如此一层层传递,直到最后一层,最后一层又被称为输出层。
在神经网络中,需要设计的部分只有两个,一个是它的结构,即网络分几层,每层几个节点,节点之间如何连接等;第二就是非线性函数f(*)的设计,常用的函数是指数函数,即

人工神经网络是一个形式非常简单但分类功能强大的机器学习工具,从中可以体会到数学中的简单之美。在现实生活中,真正能够通用的工具在形式上必定是简单的。

第31章 区块链的数学基础–椭圆曲线加密原理

区块链技术可以从根本上解决信息安全的问题并且支持合约的自动生成,这都取决于它的不对称,不透明之美。它可以做到在特定授权的情况下,不需要拥有信息也可以使用信息;在不授予访问信息的权限时,也能验证信息。区块链可以比喻成一个不断更新的账本。首先,以比特币为例,从比特币产生之初,记录其原始信息的区块链就产生了,这个区块链里的信息无法更改且会随着所有者的变更持续更新。其次,相应区块链里的某些信息,外界可以确认其真伪,但是无法得知里面的具体内容。最后,区块链可以称为一种按照约定自动执行的智能合约,而且这些合约一旦生成就无法更改。由比特币所用到的区块链协议引出了椭圆曲线加密。
在实现区块链加密时,采用了非常简单的椭圆曲线,通过在一条椭圆曲线上一次次求交点,来发明一种简单而漂亮的算法。通过分析讨论比特币背后的数学原理,可以看到不对称性所带来的好处。它不仅可以解决信息安全问题,而且能够将信息的访问和确认这两步分开,从根本上解决保护隐私的问题。

第32章 大数据的威力–谈谈数据的重要性

本章作者主要通过列举一系列的事例来阐述了数据对于人们日常生活的重要性。随着云计算的逐渐普及和计算机处理数据的能力逐渐增强,大数据这一概念也逐渐出现在人们的视野中。
人类的文明与进步,从某种意义上讲是通过对数据进行收集,处理和总结而达成的。在远古时期人们已经能得根据不同的条件(输入数据)把未来的吉凶归纳成8种或64种可能的结果(输出数据)。近代自然科学萌芽阶段,许多科学家做实验的目的就是采集数据,如开普勒根据第谷老师搜集的大量天文观测数据提出了开普勒三大定律,中国医学家李时珍编写的《本草纲目》,实际上是对药物数据的归纳整理,由此可见数据在科学研究中的重要性。数据也渗透到了我们生活的方方面面,数据可以帮助我们知道世界上人口最多的10大城市,可以说明我们在估计一些未知事件时偏差有多大,也可以说明人们在没看到数据之前总是倾向于高估自己,或者夸大一件事情的正面效果,而忽视它的负面影响。
统计学可以通过搜索,整理,分析数据的手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科学。在第3章“统计语言模型”中,对语言模型中所有参数的估计需要“足够多”的语料,这样才能得到一个比较有意义的结果。盖洛普连续三次预测对美国总统大选的结果说明了统计样本代表性的重要性。在有关网页搜索领域的竞争,数据成为了搜索引擎好坏的第一要素,算法排在第二位。大量的数据可以使得奥科利用一年的时间开发出了世界上最好的机器翻译系统,领先第二名整整一代人的水平。在语音识别方面,能够提高语音识别的错误率。
对于现在的社会,大数据对于我们日常生活至关重要。可以通过百度词条的搜索,看出不同地区饮食习惯的变化,对于调查的统计更加反应真实。大数据的好处不止是成本和准确度的问题,它的优势还在多方位。可以通过数据分析,发现很多新的规律,比如医疗保健。通过收集大量的基因数据发现人类基因与疾病之间的关系。作者举了一位女高中生的例子,它通过大数据大大提高了乳腺癌活检位置的准确性。她统计了上百万份病例,写了一个程序,在X光片和CT图像上圈出那些可疑的部位,准确率达到了98%,远远大于传统方法的准确性,李文森博士认为人类无法克服癌症主要有两个方面的原因:1.每个人的基因不同,抗癌药有效性也大不相同,研制针对个人特定的抗癌药,成本巨大不易实现。2.癌细胞在不断的变化。李文森博士提出了用大数据的方法,对人类共性的地方进行统计,技能为每一位患者量身定制,也能够减少成本。
在我们日常生活中都离不开数据,很多工作都是围绕着数据展开,能够善于掌握处理和利用数据方法的人也必将成为新时代的成功者。

第33章 随机性带来的好处–量子密钥分发的数学原理

本章主要讲的是利用随机性带来的好处保证信息的安全。首先介绍了数据泄露主要两种可能性:1.在数据存储的地方被盗取2.在数据传输的过程中被截获。由此引出近年非常热门的量子通信,主要介绍的是量子密钥分发技术。它利用了光子的偏振特性,可以通过发送方调整光的振动方向来传递信息,但是发送方以特定角度的偏振方向发送信息,接受方也无法正确识别。在这里可以利用随机性设计一种量子密钥分发的协议,以保证通信的安全。
首先发送方和接收方约定好有两组信息编码方式,其次,发送方随机采用一种编码方式,而且交替进行,它并不告诉接收方。接收方根据猜测来调整偏振镜的方向。发送方用明码将它调制偏振方向的基传给对方,这样接收方就知道哪些信息它设置对了,哪些错了,然后用明码把它设置对的信息位告诉发送方即可。最后用这些位的信息做密钥,这便是从不确定又到确定的过程。
在使用上述协议通信的过程中,发送方和接收方需要通过几次通信彼此确认密钥,而这个密钥只使用一次。如果继续通信,就需要产生和确认新的密钥。这种做法实际上就是用时间来换取通信的安全性。中国科学技术大学潘建伟教授为首的团队在量子通信领域取得了巨大的成就。
量子通信是靠光量子的偏振特性承载信息,靠数学和信息论的基础原理保证它的保密性。一次性密码永远是一种最安全的信息加密,也引导我们去探索更加安全有效简便的加密算法。

第34章 数学的极限–希尔伯特第十问题和机器智能的极限

本章主要讲解了图灵规定计算机可计算问题的边界和希尔伯特划定有解数学问题的边界。现在的机器智能之所以如此强大,靠的是人们找到了让机器拥有智能的正确方法,即大数据,摩尔定理和数学模型这三个支柱。通过举例的方式说明了图灵对计算机可计算问题边界的思考。图灵思考了三个本源问题:第一,世界上是否所有的数学问题都有明确的答案;第二,如果一个问题有答案,能否通过有限步的计算得到答案;第三,对于那些可以在有限步计算出来的数学问题,能否有一种机器,让它不断运转,最后当机器停下来的时候,哪个数学问题就解决了。
如果对希尔伯特第十问题普遍的回答是否定,那么就说明很多数学问题其实大家都不知道答案是否存在,因为不定方程求解问题还只是数学问题中很小的一部分。苏联天才数学家尤里·马蒂亚塞维奇在大学毕业的第二年解决了第十问题,今天对该问题结论的表述,也被称为马蒂亚塞维奇定理。他严格的证明了,除了极少数特例,在一般情况下,无法通过有限步的运算,判定一个不定方程是否存在整数解。世界上只有一部分问题可以转化为数学问题,而在这些数学问题中,也只有一部分问题可以判定有无答案。今天的人工智能无论多么强大,都不应觉得它们无所不能,因为它们的边界已经清清楚楚地由数学的边界规定了。对于《数学之美》这本书的学习意义就是培养我们如何将生活中一些应用场景转化为计算机能够解决的数学问题的思想。
通过希尔伯特和图灵等人对于计算这件事情边界的思考,我们发现一种不同于常人的思维方法–不是一点点地向前试探边界的位置,而是通过一个理论找到一个不可能越过的硬边界。这样就可以集中精力在边界内解决问题,而不是把精力耗费在寻找边界之外可能并不存在的答案。

总结

看完之后最大的感受就是:一个好的数学模型可以推动着新技术的发展,技术很大的作用是用来解决实际问题的,书中提到的各个数学模型、各种方法都是为了解决人们的需求或者业务的需求。这本书使我重新认识到了数学的魅力,一个复杂的语言识别过程,用统计语言模型就可以轻松解决了。另一个对我影响比较大的就是余弦定理和新闻的分类。有时候我们可能改变一下思路,改变一下方法,就可以把复杂的问题给解决了。透过《数学之美》,作者在传递一种正确的思维方式,无论多复杂的问题,化繁为简总是关键。正如文中一句话所说,“好的方法在形式上总是简单的”。

数学之美读书感悟03相关推荐

  1. 数学之美读书感悟01

    文章目录 第1章 文字语言VS数字信息 第2章 自然语言处理--从规则到统计 第3章 统计语言模型 第4章 谈谈分词 第5章 隐含的马尔可夫模型 第6章 信息的度量和作用 第7章 贾里尼克和现代语言处 ...

  2. 数学之美读书感悟02

    文章目录 第16章 信息指纹及其应用 第17章 由电视剧<暗算>所想到的-谈谈密码学的数学原理 第18章 闪光的不一定是金子-谈谈搜索引擎的反作弊问题和搜索结果的权威性问题 第19章 谈谈 ...

  3. 数学之美-读书笔记6-10章

    文章目录 数学之美 第六章 信息的度量和作用 1信息熵 2信息的作用 3互信息 4延伸阅读 第7章 贾里尼克和现代语言处理 1早年生活 2 从水门事件到莫妮卡·莱文斯基 3一位老人的奇迹 第八章 简单 ...

  4. 数据分析?他们早就开始用了——数学之美读书笔记

    数据分析?他们早就开始用了? 标题取得很好听,其实就是<数学之美>这本书的读书笔记.这是每一个想学编程了解计算机的人都不应该错过的好书,必须推荐 光 看这个名字,你可能以为它就是一本讲数学 ...

  5. 数学之美-读书笔记11-15章

    文章目录 数学之美 第十一章 如何确定网页和查询的相关性 1搜索关键词权重的科学度量-TF-IDF 第十二章 有限状态机和动态规划-地图与本地搜索的核心技术 1地址分析和有限状态机 2全球导航和动态规 ...

  6. 度量相似性数学建模_数学之美读书笔记

    2020年6月读,先通读一遍,随后为写读书笔记又重新读了一遍,收获颇丰,虽然没有很多数学或者编程方面的知识,但正如作者所说,这本书讲述的是道,而非术. 读这本书让我领略到了科学的趣味,并不是枯燥的敲代 ...

  7. 数学之美读书笔记--摘抄

     "系列一: 统计语言模型" "利用统计语言模型进行语言处理" "假定任意一个词wi的出现概率只同它前面的词 wi-1 有关(即马尔可夫假设)&quo ...

  8. 架构之美读书笔记03

    1. 系统的伸缩性需求.如大型在线游戏,需要满足大量用户.在线用户数量短时间内可能有很大的变化. 这其中隐含的需求是: 多用户并行分布式系统,系统运行在多台机器上 高可扩展性(用于加入新的故事情节,意 ...

  9. 数学之美读书笔记第一章

    通信的原理和信息传播的模型 原理:信息被编码,再被解码的过程. 信息传播的模型: 传播人 => 信息 -> 编码信息 ->信道(声音介质,双绞线介质等) -> 解码信息 =&g ...

最新文章

  1. pandas使用sort_values函数将dataframe按照指定数据列的内容对dataframe的数据行进行排序(sort dataframe rows by a specific column
  2. 解决Http响应内容中文乱码问题
  3. github打开出错
  4. 多核 CPU 和多个 CPU 有何区别
  5. 智能风控平台核心之风控决策引擎(二)
  6. 瀑布式开发、迭代式开发、螺旋开发、敏捷开发四种开发模式的区别
  7. Keras Data augmentation(数据扩充)
  8. 惠普10代的服务器有哪些型号,英特尔官方科普:秒懂十代酷睿型号怎么认!
  9. 某个元素的距离页面的左边距_如何提高办公写作效率?先设置好页面上的这4类数据,准没错...
  10. [LeetCode] Valid Anagram
  11. php同学录网站设计_基于PHP的校友录系统的设计与实现
  12. 2018-09-14
  13. 擦地机器人毕业设计_救援机器人毕业设计
  14. ② 判断语句、循环语句
  15. php踩过的那些坑(2) strpos引发的血案
  16. WebSocket实现在线人数统计
  17. ibm是被联想收购了吗_联想收购IBM之后为什么出现品牌危机
  18. thinkphp 实现汉字转换成拼音
  19. docker- health check
  20. linux无线usb网卡,Linux下USB无线网卡WL-167G驱动安装过程

热门文章

  1. DMap(谛听)——实战Vue百万条数据渲染表格组件开发
  2. PBOC APUD指令学习--SELECT命令
  3. 记录一次最坑的微信会员卡 跳转型开发时的bug errcode72011
  4. 解决 Idea 下 Tomcat 乱码(淇℃伅璀﹀憡)问题
  5. 【图像处理】相机、透镜、人眼、小孔成像原理
  6. 题目 1441: 幸运数
  7. Android 屏幕尺寸、屏幕分辨率(px)、屏幕像素密度(dpi)、密度无关像素(dp/dip)、屏幕适配
  8. 吉时利源表软件Kickstart与纳米NS-SourceMeter源表软件各有何特点
  9. MacDroid for Mac v1.4 安卓手机文件传输助手
  10. 量化投资界的“Q Quant”和“P Quant