2019独角兽企业重金招聘Python工程师标准>>>

自然语言的处理,主要是实现人与计算机之间用自然语言进行有效通信的方法和理论,它经历了从规则到统计的阶段,所谓规则,是指根据定义的语法进行语言的处理,所谓统计,是指IBM为解决语音识别问题提出的自然语言处理的方法,基于统计学。

1946年,现代计算机诞生,人类开始考虑通过计算机来处理自然语言,主要涉及两个认知方面的问题:第一,计算机是否能处理自然语言;第二,如果能,它处理自然语言的方法是否和人类一样。现代自然语言处理的高速发展,说明了这两个问题的答案都是肯定的。

计算机科学之父阿兰·图灵最早提出了机器智能的设想,同时也提出了一种来验证机器是否有智能的方法:让人和机器进行交流,如果人无法判断自己交流的对象是人还是机器时,就说明这个机器有智能了。这就是著名的图灵测试(Turing Test)。

1956年夏,28岁的约翰·麦卡锡,以及同年龄的马文·明斯基,37岁的罗切斯特和40岁的香农,他们4人提议在麦卡锡工作的达特茅斯学院开了一个被他们称为“达特茅斯夏季人工智能研究会议”的头脑风暴式的研讨会。参加会议的还有6位年轻的科学家,包括40岁的赫伯特·西蒙和28岁的艾伦·纽维尔。

在这次研讨会上,这10个人讨论当时计算机科学尚未解决的问题,包括人工智能、自认语言处理和神经网络等。人工智能这个提法便是在这次会议上提出的。这10个人中,后来出了4位图灵奖获得者(麦卡锡、明斯基、西蒙和纽维尔)和信息论的发明人香农。

达特茅斯会议的意义超过10个图灵奖。遗憾的是,受历史的局限,这10个世界上最聪明的头脑一个月的火花碰撞,并没有产生什么了不起的思想。这是因为在当时,全世界对自然语言处理的研究都陷入了一个误区。

基于规则的自然语言处理,指的是对自然语言的语法规则、词性和构词法等给这,使用计算机语言进行描述。而对于语义的研究和分析,语义比语法更难在计算机中表达出来。科学家们设计了一种简单的自然语句的语法分析器,希望通过对自然语言语法全面的概括,来逐步解决自然语言理解的问题。

但很快就出现了问题,一些语句在不同的使用环境下有不同的语义。这就需要不断的增加新的语法规则,而且即使写出了涵盖所有自然语言现象的语法规则集合,通过计算机来解析也非常的困难。在20世纪70年代,基于规则的自然语言处理遇到了瓶颈,这么多年的努力也被认为是失败的。

1970年以后统计语言学的出现使得自然语言处理重获新生。有一段关键的历史,IBM为了解决语音识别的问题,提高当时的语音识别率,采用了基于统计的方法,这使得语音识别从实验室走向了实际应用。在基于统计的语言处理出现之后,基于规则和基于统计的争论一直持续了15年左右,随着网页搜索和数据挖掘技术的出现,在客观上大大加速了自然语言处理研究从基于规则的方法到基于统计的方法的转变,最终以基于规则的自然语言处理获得了胜利。

转载于:https://my.oschina.net/realfighter/blog/420985

数学之美札记:自然语言处理——从规则到统计相关推荐

  1. 浅谈《数学之美》①——自然语言处理

    小编看的书吴军博士的<数学之美>第二版,最近看完了前七章,做个小总结吧,毕竟本书的知识还是很值得去细细品味(虽然很多看不懂....),算是读书笔记吧,但是本书个人认为不是很适合不知道基础知 ...

  2. 《数学之美》第2章自然语言处理从规则到统计

    1 机器智能 自然语言处理60多年的发展过程,基本上可以分为两个阶段.早期的20多年,从20世纪50年代到70年代,是科学家走弯路的阶段.局限:用电脑模拟人脑.直到20世纪70年代,找到了基于数学模型 ...

  3. 《数学之美》读书笔记和知识点总结(一)

    早在前几个月我在台湾的时候,就听说<数学之美>是一本非常不错的书,也正好是我喜欢的类型,一直想买.回到北京之后的第一件事就是把我这半年积攒的书单全部兑现,其中包括<数学之美>和 ...

  4. 《数学之美》-吴军 读书笔记

    从吴军的<数学之美>找到了伽莫夫的<从一到无穷大>,前段时间先整理了<从一到无穷大>的笔记.现在整理下<数学之美>以巩固下. 近段时间AlfaGo 与人 ...

  5. 《数学之美》——吴军#读书笔记

    <数学之美> 吴军 第一章:文字和语言vs数字和信息 主要内容概述:"语言和数学的产生都是为了同一个目的--记录和传播信息".科技是伴随着人类的不断进化而发展进步的.信 ...

  6. 吴军《数学之美》第二版阅读整理

    吴军的<数学之美>第一版于2012年出版,并获得国家图书馆第八届文津图书奖.我读的是第二版(再版),作者在第一版的基础上又增加了一些内容. 作者大有来头(IT行业),吴军博士,毕业于清华大 ...

  7. 数学之美读书感悟01

    文章目录 第1章 文字语言VS数字信息 第2章 自然语言处理--从规则到统计 第3章 统计语言模型 第4章 谈谈分词 第5章 隐含的马尔可夫模型 第6章 信息的度量和作用 第7章 贾里尼克和现代语言处 ...

  8. ​ 每周一书《数学之美 第二版》分享!

    内容简介 几年前,"数学之美"系列文章原刊载于谷歌黑板报,获得上百万次点击,得到读者高度评价.读者说,读了"数学之美",才发现大学时学的数学知识,比如马尔可夫链 ...

  9. 读书笔记——数学之美

    读完数学之美,收获很多,在这里我对我的收获进行简要的总结,这些总结中不包括对具体算法和模型的详解,详解请参考其他资料,这里只进行简要的总结. 1 文字和语言 vs 数字和信息 文字.数字.语言和数学是 ...

最新文章

  1. 独家 | 11步转行数据科学家 (送给数据员/ MIS / BI分析师)
  2. 信息抽取(一)机器阅读理解——样本数据处理与Baseline模型搭建训练(2020语言与智能技术竞赛)
  3. 前端学习(799):根据位置返回字符
  4. 手把手教你如何下载大厂页面的字体——开发
  5. 程序员必备的10大健康装备!——我们要工作更要健康!
  6. 全国大学校园网—拓扑图欣赏
  7. 以太坊可更新智能合约研究与开发综述
  8. 【最详细】Tcpdump使用实验
  9. 《锁王创造营》 第一关:初出茅庐
  10. 获取字符串中不重复的第一个字符
  11. eclipse 2018 安装html、jsp、JavaScript编辑器
  12. Unity 模拟鼠标点击
  13. (基于matlab)蒙特卡罗法 之 布丰投针实验 (1/10)
  14. Exception thrown from ApplicationListener handling ContextClosedEvent
  15. 【技巧】Unity 获取Android设备系统语言
  16. 计算机文字环绕图片的方式有哪些,Word2003文字环绕图片方式怎么设置
  17. android 版本更新忽略,安卓微信7.0.14 正式版更新,几个被你忽略的微信小技巧
  18. 甬矽电子科创板首发获通过:拟募资15亿元,技术来源遭到质疑
  19. 关于小程序订单中心页设置的公告
  20. 用excle插入自定义两列(行)数据作为X、Y轴生成图表

热门文章

  1. 奇偶排序(OddEven Sort)----(排序算法十一)
  2. 在线蚂蚁文,菊花文生成工具
  3. c语言任意位数逆序数,C语言求助!一个三位数的逆序数,总是编不对
  4. RabbitMQ学习之Work Queues(2)
  5. Hyper-V 3.0网络虚拟化PART 3:内部交换机
  6. 查看CentOS系统版本,Linux内核版本,32位还是64位
  7. 乔布斯《我生命中的三个故事》
  8. C++ VS2012 内存泄露检测
  9. HTML中的IE条件注释
  10. Office 365身份认证管理-安装并配置活动目录同步