1 教父马库斯

马库斯发现存在两大难题:可以用于研究的统计数据明显不够;其次,各国科学家因为使用的数据不同,论文里发表的结果无法互相比较。

马库斯比很多同行更早地发现了建立标准语料库在自然语言处理研究中的重要性。建立了数百个标准的语料库组织(LDC)。

马库斯的主张一贯是建立几个世界上最好的专业。而不是专业最齐全的系。

2 从宾夕法尼亚大学走出的精英们

2.1 柯林斯:追求

柯林斯成功的关键在于将文法分析的每一个细节都研究得很仔细。

2.2 布莱尔:简单才美

布莱尔的成名作是基于变换规则的机器学习方法。

1. 把每个拼音对应的汉字中最常见的找出来作为第一遍变换的结果,当然结果有不少错误。比如,“常识”可能被转换成“长识”;

2. 可以说是“去伪存真”,用计算机根据上下文,列举所有的同音字替换的规则。

3. “去粗存精”,将所有的规则应用到事先标识好的语料库中,挑出有用的,删除无用的。然后重复二三步,直到找不出有用的为止。

《数学之美》第22章 自然语言处理的教父马库斯和他的优秀弟子们相关推荐

  1. 数学之美 系列二十 -自然语言处理的教父 马库斯

    数学之美 系列二十 -自然语言处理的教父 马库斯 2007年4月13日 下午 07:03:00 <script language=javascript> uT("time1176 ...

  2. 数学之美系列二十:自然语言处理的教父 马库斯

    我们在前面的系列中介绍和提到了一些年轻有为的科学家,迈克尔·柯林斯,艾里克·布莱尔,大卫·雅让斯基,拉纳帕提等等,他们都出自宾夕法尼亚计算机系米奇·马库斯(Mitch Marcus)名下.就像许多武侠 ...

  3. 【数学之美 系列二十】自然语言处理的教父 马库斯

    2007年4月13日 下午 07:03:00 发表者:Google 研究员,吴军 我们在前面的系列中介绍和提到了一些年轻有为的科学家,迈克尔·柯林斯,艾里克·布莱尔,大卫·雅让斯基,拉纳帕提等等,他们 ...

  4. 数学之美 第3章 统计语言模型

    数学之美 第3章 统计语言模型 回顾一下: 前面两章都是基础知识,告诉我们自然语言的起源基础,和一些发展过程遇到的问题,第二章告诉我们规则:理解自然语言(即分析语句和获取语义)这种处理方法不可能实现智 ...

  5. 《数学之美》选章精读

    曾经花了一个月的时间阅读受推荐的书籍<数学之美>,对基于统计的自然语言处理的历史作一个大致的了解,每周精读一章,做下了一些粗略的笔记,算是有个交代吧. 第9章-图论和网络爬虫 概念 图论起 ...

  6. 《数学之美》——第一章 个人笔记

    数学之美 最近在读<数学之美>这本书,做一下个人笔记.看的是PDF,看完后会买一本的哦!版权意识还是有的. ps:图片文字都是这本书中的内容,侵权立删.会有点自己的理解. 第一章    文 ...

  7. 《数学之美》——第九章 个人笔记

    数学之美 最近在读<数学之美>这本书,做一下个人笔记.看的是PDF,看完后会买一本的哦!版权意识还是有的. ps:图片文字都是这本书中的内容,侵权立删.会有点自己的理解. 第九章    图 ...

  8. 《数学之美》第一章读后感

    第一章分别讲述了早期信息的传播,文字和数字的发展,文字和语言背后的数学三个部分. 我从中了解到了信息传递,不论是早期的远古社会,还是如今快速发展的互联网时代,其规律都是异曲同工的.比如信息传播的模型都 ...

  9. 【读书笔记】数学之美(下)

    作者:LogM 本文原载于 https://segmentfault.com/u/logm/articles,不允许转载~ 本文为旧博客文章,数学公式显示不正常,请至 https://segmentf ...

最新文章

  1. 100c之50:到底谁在说谎
  2. FPGA基础知识极简教程(6)UART通信与移位寄存器的应用
  3. SQL链表查询 数据库为空
  4. Reverse Words in a String
  5. js删除数组中的某一个元素
  6. 如何使用 Node 后端创建 React 应用程序:完整指南
  7. bat批处理for /f命令
  8. Codeforces Round #519 by Botan Investments翻车记
  9. 07网络发展趋势:风险和机遇并存
  10. 一个按照行来截取显示文章摘要的函数
  11. 关于计算机技术职业资格那些事
  12. 在黑客攻击之前软件安全检测是重点,软件安全检测机构怎么找?
  13. 三分钟明白 Activity工作流 -- java运用
  14. CCIE培训分解实验内容
  15. QML 全屏 输入法无法显示
  16. weblogic相关问题
  17. 【论文解读】Mining Dual Emotion for Fake News Detection
  18. 如何用命令关闭/启动mysql服务
  19. “四位一体 扬升计划”横空出世 用友全面释放ISV伙伴创新原力
  20. 淘宝店铺的运营思路和宝贝描述的要素与量子分析,开店必须要学的

热门文章

  1. 在Flex控件中使用XMLListCollection
  2. TensorFlow练习26: AI操盘手
  3. 梯度下降原理及线性回归代码实现(python/java/c++)
  4. 独家 | 基于新闻标题的股价走势分析(附链接)
  5. 独家 | 在R中使用LIME解释机器学习模型
  6. 大盘点 | 2020年21篇医学影像算法最佳综述
  7. 独家 | ARIMA/Sarima与LSTM的时间序列数据集成学习(附链接)
  8. 收藏!15000个Python开源项目中精选Top30!
  9. 某程序员哀叹:二本计算机,4年开发,年包才40多万。二本真的不如985/211吗?...
  10. ACL Fellow 2021名单出炉!华为刘群、中科院自动化所宗成庆当选!