小编看的书吴军博士的《数学之美》第二版,最近看完了前七章,做个小总结吧,毕竟本书的知识还是很值得去细细品味(虽然很多看不懂。。。。),算是读书笔记吧,但是本书个人认为不是很适合不知道基础知识的读者去读例如:概率论、计算机基础知识,毕竟本书很多地方都是用他们进行推导和计算的。下面小编就简单说(xia)说(bian)自然语言出理这一块吧。本文按照章节来,主要简介一下章节内的一些基本的知识点(权当做笔记),如果您是打算了解一下自然语言处理方面的一些关键词,或者该方向的一些技术或者其起源的话,希望本文对你会有所帮助,小编写本文旨在如果日后小编想简单的回顾一下《数学之美》的内容的话,可以有一个简单的文章让小编顺一下内容。
第一章 文字和语言 VS 数字和信息:

①古人的通信方式和当今我们的通信方式在原理上没有任何差别。原始人们通过怪叫声将信息发送到信道中(编码),听到的人们将听到的声音转换为自己能理解的语言(解码)。

②古埃及人发明了最早得到保存信息的方式——用图形表示事物,即最早的象形文字。中国发现最早的甲骨文的时候,此前几千年尼罗河流域已经有了高度的文明。
③在古埃及的象形文字中,读音相同的词可能用同一个符号记录,这种概念的聚类,在原理上与今天自然语言处理或者机器学习的聚类有很大的相似性。
④之所以能够达成翻译这件事,仅仅是因为不同的文字系统在记录信息的能力上是等价的
⑤罗塞塔石碑:一个中尉在一个叫罗塞塔的地方发现了一块破碎的古埃及石碑,上面有三种语言:埃及象形文字、埃及的拼音文字、古希腊文。我们可以发现,信息的冗余是信息安全的保障,该石碑上的内容是将统一信息重复三次,因为只要有一份内容完好的保留下来,原有的信息就不会丢失,这对信道编码有指导意义。知道了罗塞塔石碑的历史,我们就能理解为什么现在很多翻译软件和服务器都叫做“罗塞塔”,其中包括Google的机器翻译和世界上销量最大的PC机上的翻译软件。
⑥我们为什么使用十进制呢?很简单,我们有十个手指,所以十进制很方便,那么有没有文明使用二十进制呢?答案就是:玛雅文明,因此,玛雅人的一个世纪,他们称之为太阳纪,是四百年。因此2012年正好是目前这个太阳纪的最后一年。
⑦对于不同数字的表示,我们现在知道的就是罗马数字和中国数字来表示数字的不同量级,中国人用个十百千,罗马人用X表示十, L表示50, C表示100。这两种表示法都不自觉的引入了朴素的编码概念,首先,他们使用不同的符号代表了不同的数字概念,其次,他们分别制定了解码的规则。就解码来讲,中国的方式要比罗马的简单很多,中国的使用的是乘法,比如200是用2 * 100,罗马的数字 IX 的解码为10 - 1 = 9, IV表示的是5 - 1 = 4,由此我们可以看到如果要表示数量级很大的数字的话,罗马数字会比中国数字麻烦很多。
⑧阿拉伯数字的发明者并不是阿拉伯人,而是古印度人,而是由阿拉伯人传入欧洲之后,马上得到了普及,因此欧洲人就认为该数字是阿拉伯人发明的。他的革命性不仅在于他的简洁有效,而且意味着数字和文字的分离。客观上让自然语言的研究和数学在很多年里没有重合的轨迹。
⑨当人类第二个文明的中心在两河流域的美索不达米亚建立的时候,一种新型文字建立了——楔(xie)形文字。古希腊文字母的拼写和读音已经紧密的结合起来了,这种语言相对来讲容易学习,之后,随着马其顿人以及之后罗马人的扩张,这种只需要几十个字母的语言成为了欧亚非大陆语言体系的主体,因此我们把所有西方拼音文字成为罗马式的语言。
⑩在通信时,如果信道较宽,信息不必压缩就可以直接传递,如果信道较窄,信息在传递之前需要尽可能的压缩,然后再接收端进行解压缩。编码可以理解为从字母到词的构词法,解码规则可以理解为语法。
第二章 自然语言处理——从规则到统计:

①图灵测试:让人和机器进行交流,如果人无法判断自己交流的对象是人还是机器,就说明这个机器有智能了。
②达特茅斯夏季人工智能研讨会议:由麦肯锡、明斯基、罗切斯特和香浓等人在达特茅斯学院开了一个头脑风暴式的研讨会,人工智能这个提法就是在这次会议上提出的。参加这个会议的人后来都是IT领域最优秀的科学家。
AI和自然语言处理等全是靠的数学,更准确的说是靠统计
④上世纪70年代,基于规则的句法分析(包括文法分析或者语义分析)很快就走到了尽头,之后科学家们就开始采用基于统计的句法分析,其核心模型是通信系统加隐含马尔科夫模型。统计语言模型就成为了今天所有自然语言处理的基础。
⑤句法分析的问题很复杂,因为一个语法成分对于另一个语法成分的修饰关系不一定相邻,而是中间隔了很多短语,只有基于有向图的统计模型才能很好的解决复杂的句法分析。可以且只需运用数学的方法给出现在所有自然语言处理相关的问题的全部答案。
第三章 统计语言模型:

(我们在这里就不再赘述对应的数学公式,学习过概率论的同学一定都知道这些公式,如果没有概率论基础的话,大家看这一块也是有些费劲的)
马尔科夫假设:假设任意一个词出现的概率直通他前面的词有关。
②事实证明:统计语言模型比任何一支的借助某种规定的解决方案都要有效。
③N - 1阶马尔科夫假设:假定文本中的每一个词和前面的N - 1个词有关,而与更前面的词无关,这样,当前词的概率只取决于前面N - 1个词。该假设对应的语言模型称为N元模型。实际上,应用最多的是N = 3的三元模型,跟高阶的模型就很少使用了。因为首先,N元模型的大小几乎是N的指数函数,使用N元模型的速度(或者说时间复杂度)也几乎是一个指数函数,当N从 1 到 2 ,再从 2 到 3 ,模型的效果上升显著,但是当从 3 到 4 的时候效果的提升就不是很显著了而资源的耗费却增加的很快。,马尔科夫假设的局限性就体现在这里。
④使用语言模型需要知道模型中所有的条件概率,我们称之为模型的参数通过对语料的统计得到这些参数的过程成为模型的训练
⑤在数理统计中,我们对采样数据进行观察的结果来预测概率,因为有大数定理的支撑,他要求有足够的观察值
Zipf定律:出现一次的词的数量比出现两次的词的数量多,出现两次的比出现三次的数量多。
⑦在实际的自然语言处理中,一般对出现次数超过某个阈值的词,频率不下调,只对频率出现次数低于这个阈值的词,频率才下调,下调得到的频率总和给未出现的词。于是,对于频率超过一定阈值的词,他们的概率估计就是他们在语料库中的相对频度,对于频率小于这个阈值的词,他们的概率估计就小于他们的相对频度,出现次数越少,折扣越多。对于未看见的词,也给予了宇哥比较小的概率吗,这样所有词的概率估计都很平滑了。
第四章 谈谈分词:

①首先要对句子进行分词,才能做进一步的自然语言处理。在工业界,只要采用基本的统计语言模型,加上一些业界熟知的技巧就可以得到很好的分词结果。
第五章 隐含马尔科夫模型:

①通信的本质就是一个编解码和传输的过程。

②隐含马尔科夫模型:并不是俄罗斯数学家马尔科夫发明的,而是美国数学家鲍姆等人在一篇发表的论文中提出的。
③马尔科夫假设:随机过程中各个状态的概率分布只与他的前一个状态有关,符合这个假设的随机过程称为马尔科夫过程也叫马尔科夫链。
④有监督的训练前提是需要大量的人工标注的数据。
⑤训练马尔科夫模型更实用的方式仅仅是通过大量观测的信号来推算模型的参数,这类方法称为无监督的训练学习方法。主要使用的是鲍姆-韦尔奇算法。
第六章 信息的度量和作用:

(本章大部分内容在信息论或者通信原理中均可见,故不赘述)
①一个比特是一位二进制数,在计算机中,一个字节是 8 比特

第七章 贾利尼克和现代自然语言处理:

本章主要介绍了一下贾里尼克的生活的一些概述,个人觉得没有什么技术方面的知识

浅谈《数学之美》①——自然语言处理相关推荐

  1. 计算机思维在数学中的应用,浅谈数学思维方式在计算机教学中的应用

    浅谈数学思维方式在计算机教学中的应用 (5页) 本资源提供全文预览,点击全文预览即可全文预览,如果喜欢文档就下载吧,查找使用更方便哦! 19.90 积分 浅谈数学思维方式在计算机教学中的应用高一微机组 ...

  2. 数学在计算机科学上的应用文献,浅谈数学在计算机科学及应用中的作用

    论文编号:SXJY040论文字数:5690,页数:06 浅谈数学在计算机科学及应用中的作用 [摘要]:数学作为伴随人类历史发展长期积累的智慧结晶,是学习和运用科学技术的语言,代表着人类智慧的最高成就. ...

  3. 浅谈数学中的化归原则

    浅谈数学中的化归原则 泸职院信息工程学院 华卫(1999.6.6) 摘要: 能力比知识更重要:数学教育中使学生掌握数学思想方法,对于促进他们能力的发展至关重要:化归原则是数学中一种很重要的思想方法:本 ...

  4. c语言在数学方面的应用编程,浅谈数学在C语言编程中的应用.doc

    浅谈数学在C语言编程中的应用 浅谈数学在C语言编程中的应用 [][]C语言对学习者的数学基础要求较高对一部分学生来说学好C语言有一定的困难.本文就本专业知识和自身对C语言的学习经验对数学在C语言编程中 ...

  5. 数学在计算机科学发展中起到的作用,浅谈数学在计算机科学及应用中的作用_计算机毕业论文...

    全文字数:3518 浅谈数学在计算机科学及应用中的作用 [摘要] 本文简要探讨数学在计算机科学及应用中的作用,初步了解计算机的工作及其原理.数学是计算机发展的基础,几个重要的数学分支在计算机发展中起着 ...

  6. 浅谈数学在计算机科学中的应用,浅谈计算机科学技术在数学思想中的应用(原稿)...

    <浅谈计算机科学技术在数学思想中的应用(原稿).doc>由会员分享,可免费在线阅读全文,更多与<浅谈计算机科学技术在数学思想中的应用(原稿)>相关文档资源请在帮帮文库(www. ...

  7. 联系生活实际计算机的应用领域都有哪些,浅谈数学在我们日常生活的实际应用...

    李汶龙 摘要:数学与我们的日常生活有着密切的联系,在各个领域中数学均有着相当广泛的应用.进入高中以后,我们所学习的数学从难度方面和深度方面都有所增加.本文通过对日常生活中数学实际应用的分析,主要对数学 ...

  8. 谈 数学之美 和 看见

    两本书本来是没有什么交集的. 而对于我而言,交集可能是我最近这两本书都买了.闲暇的时间还是会翻一翻的.看见这本书是今天中午到的.发现现在的当当比以前在书的保养上比以前好像好了一点.几本书都是给包住了, ...

  9. 3.2.4.3 降压电路输出电容上的纹波电压——也谈数学之美

    我是"余生死磕电源,致力于成为电源大师"的"电源先生". 0 关键字 直流转换器(DC-DC),降压型开关转换器(Buck SMPS),降压电路,纹波电流(Ri ...

  10. 浅谈数学、数学建模与人工智能(机器学习,深度学习)之间的关系?

    前言:         说来也巧合,我在大学里加入的第一个社团就是数学建模,各种各样的社团对我没有完全没有吸引力,什么舞蹈.爱心.创业.英语等,加入数学建模的原因有二:一是可以参加比赛,二是可以认识更 ...

最新文章

  1. 调用系统函数向进程发信号core
  2. java 字典 引用_java中数据字典的使用
  3. 安装mysql最后一步第二个打叉_Mysql安装到最后一步时。出现start service红叉   亲朋好友帮忙指导一下!谢谢! 百...
  4. JAVA敏捷开发环境搭建
  5. java中properties作用,Java中Properties的使用详解
  6. 大数据分析如何助力企业发展
  7. 肢解诺兰的逻辑:当科幻背离科学
  8. 台式计算机显卡最高温度多少,笔记本/台式机显卡核心多少度正常?GPU温度过高该如何处理?...
  9. vim中使用color_coded为c/cpp文件配色
  10. Android Intent 机制解析 - Intent 是什么?作用是什么?
  11. oracle12c 日志分析,【案例】Oracle 12C日志大量Resize operation completed for file信息
  12. 对大学计算机课程的认识 感想,大学计算机基础学习感想复习课程.pdf
  13. Nginx 根据链接参数动态代理配置
  14. uniapp ios 真机调试
  15. 【GANs学习笔记】(十六)CGAN、TRIPLEGAN
  16. C#.NET PrintDocument 自定义报表数据打印
  17. 跳楼程序员让我们思考:程序员中年危机都有哪些?
  18. 写作者网新浪微博通过认证加V
  19. nfc java_NFC 开发
  20. 如何实现小投资大回报?

热门文章

  1. 2022年大学应届生破千万,就业形势严峻,打工人准备好了吗?
  2. ChatGPT实现编程语言转换
  3. 巴斯卡(Pascal)三角形
  4. Qt中使用QByteArray读文件得到的数据后转成int
  5. adreno660 gpu相当于mali 什么型号的gpu
  6. 北京的平房出租,作者亲自跑过的地方,平房攻略,百度LJ,贴吧已经不能正常发了,生发很多黑中介
  7. CHIL-SQL-通配符
  8. java 项目启动初始化_Spring项目启动时执行初始化方法
  9. 查看及修改微软Edge浏览器用户数据保存位置(包括详细历史记录(页面停留时间,页面访问次数,最后访问时间,下载历史等),Cookie,书签等)
  10. CSP-J复赛2022题解