采用计算机技术来研究和处理自然语言是20世纪40年代末期和50年代才开始的,60多年来,这项研究取得了长足的进展,成为了现代语言学中一门重要的新兴学科,叫做“计算语言学”(ComputationalLinguistics,简称CL),这门学科同时也属于计算机科学的一个分支,叫做“自然语言处理”(Natural LanguageProcessing,简称NLP)。

我认为,计算机对自然语言的研究和处理,一般应经过如下四个方面的过程:

第一,把需要研究的问题在语言学上加以形式化,使之能以一定的数学形式,严密而规整地表示出来;

第二,把这种严密而规整的数学形式表示为算法,使之在计算上形式化,建立自然语言处理的形式模型;

第三,根据算法编写计算机程序,使之在计算机上加以实现;

第四,对于所建立的自然语言处理系统进行评测,使之不断地改进质量和性能,以满足用户的要求。

因此,计算语言学在研究自然语言处理的形式模型的同时,还要把这些形式模型在计算机上加以实现,建立机器翻译、信息检索、信息提取、数据挖掘、自动问答、文本自动分类、语音合成、语音识别等不同类型应用系统。对于这些应用技术和应用系统有兴趣的读者,可以阅读我写的《机器翻译研究》(中国对外翻译出版公司出版)《自然语言处理简明教程》(上海外语教育出版社出版)《自然语言处理的形式模型》(中国科学技术大学出版社出版)《数理语言学(增订本)》(商务印书馆出版)以及我和孙乐翻译的《自然语言处理综论》(电子工业出版社出版)。

在计算语言学的发展过程中,曾经在计算机科学、电子工程、语言学、心理学、认知科学等不同的领域分别进行过研究。之所以出现这种情况,是由于计算语言学包括了一系列性质不同而又彼此交叉的学科,具有突出的跨学科性质。

在“计算语言学”这个术语出现之前,就有一些具有远见卓识的学者研究过语言的计算问题,他们从计算的角度来研究语言现象,揭示语言的数学面貌。关于语言计算的思想和研究是源远流长的。

有四项基础性的研究特别值得注意:

一项是马尔可夫(A.Markov)关于马尔可夫模型的研究;

一项是图灵(A. M.Turing)关于算法计算模型的研究;

一项是香农(C. E.Shannon)关于概率和信息论模型的研究;

一项是乔姆斯基(N.Chomsky)关于形式语言理论的研究。

早在1913年,俄罗斯著名数学家马尔可夫就注意到俄罗斯诗人普希金的叙事长诗《欧根·奥涅金》中语言符号出现概率之间的相互影响,他试图以语言符号的出现概率为实例,来研究随机过程的数学理论,提出了“马尔可夫链”(Markovchain)的思想,他的这个开创性的成果用法文发表在俄罗斯皇家科学院的通报上。

后来马尔可夫的这一思想发展成为在计算语言学中广为使用的马尔可夫模型(Markovmodel),是当代计算语言学最重要的理论支柱之一。

在计算机出现以前,英国数学家图灵就预见到未来的计算机将会对自然语言研究提出新的问题。

1936年,图灵向伦敦权威的数学杂志投了一篇论文,题为《论可计算数及其在判定问题中的应用》。在这篇开创性的论文中,图灵给“可计算性”下了一个严格的数学定义,并提出著名的“图灵机”(Turingmachine)的数学模型。

“图灵机”不是一种具体的机器,而是一种抽象的数学模型,可制造一种十分简单但运算能力极强的计算装置,用来计算所有能想象得到的可计算函数。

1950年10月,图灵在《机器能思维吗》一文中指出:“我们可以期待,总有一天机器会同人在一切的智能领域里竞争起来。但是,以哪一点作为竞争的出发点呢?这是一个很难决定的问题。许多人以为可以把下棋之类的极为抽象的活动作为最好的出发点,不过,我更倾向于支持另一种主张,这种主张认为,最好的出发点是制造出一种具有智能的、可用钱买到的机器,然后,教这种机器理解英语并且说英语。这个过程可以仿效小孩子说话的那种办法来进行。”

图灵提出,检验计算机智能高低的最好办法是让计算机来讲英语和理解英语,进行“图灵测试”。他天才地预见到计算机和自然语言将会结下不解之缘。

20世纪50年代提出的自动机理论来源于图灵在1936年提出的可计算性理论和图灵机模型,图灵的划时代的研究工作被认为是现代计算机科学的基础。

图灵的工作首先导致了麦库洛克-皮特(McCulloch-Pitts)的神经元(neuron)理论。一个简单的神经元模型就是一个计算的单元,它可以用命题逻辑来描述。

接着,图灵的工作还导致了克林(Kleene)关于有限自动机和正则表达式的研究。

1948年,美国学者香农使用离散马尔可夫过程的概率模型来描述语言的自动机。他的另一个贡献是创立了“信息论”(informationtheory)。

他把通过诸如通信信道或声学语音这样的媒介传输语言的行为比喻为“噪声信道”(noisychannel)或者“解码”(decoding)。

香农还借用热力学的术语“熵”(entropy)作为测量信道的信息能力或者语言的信息量的一种方法,并且他用概率技术首次测定了英语的熵。

1956年,美国语言学家乔姆斯基从香农的工作中吸取了有限状态马尔可夫过程的思想,首先把有限状态自动机作为一种工具来刻画语言的语法,并且把有限状态语言定义为由有限状态语法生成的语言。这些早期的研究工作产生了“形式语言理论”(formallanguagetheory)这样的研究领域,采用代数和集合论把形式语言定义为符号的序列。乔姆斯基在研究自然语言的时候首先提出了“上下文无关语法”(Context-FreeGrammar,简称CFG),后来,计算机科学家巴库斯和瑙尔等在描述ALGOL程序语言的工作中,分别于1959年和1960年也独立地发现了这种上下文无关语法。这些研究都把数学、计算机科学与语言学巧妙地结合起来。

乔姆斯基在计算机出现的初期把计算机程序设计语言与自然语言置于相同的平面上,用统一的观点进行研究和界说。

他在《自然语言形式分析导论》一文中,从数学的角度给语言提出了新的定义,指出:“这个定义既适用于自然语言,又适用于逻辑和计算机程序设计理论中的人造语言”。

在《语法的形式特性》一文中,他专门用了一节的篇幅来论述程序设计语言,讨论了有关程序设计语言的编译程序问题,这些问题,是作为“组成成分结构的语法的形式研究”,从数学的角度提出来,并从计算机科学理论的角度来探讨的。

他在《上下文无关语言的代数理论》一文中提出:“我们这里要考虑的是各种生成句子的装置,它们又以各种各样的方式,同自然语言的语法和各种人造语言的语法二者都有着密切的联系。我们将把语言直接地看成在符号的某一有限集合V 中的符号串的集合,而 V就叫做该语言的词汇......,我们把语法看成是对程序设计语言的详细说明,而把符号串看成是程序。”在这里乔姆斯基把自然语言和程序设计语言放在同一平面上,从数学和计算机科学的角度,用统一的观点来加以考察,对“语言”、“词汇”等语言学中的基本概念,获得了高度抽象化的认识。

马尔可夫,图灵,香农和乔姆斯基这四位著名学者对于语言和计算关系的探讨,是早期计算语言学研究的最重要的成果,为计算语言学的理论和技术奠定了坚实的基础。

机器翻译是计算语言学最重要的应用领域。1949年,美国洛克菲勒基金会副主席韦弗(W.Weaver)在一篇以《翻译》为题目的《备忘录》中,认为翻译类似于解读密码的过程。他说:“当我阅读一篇用汉语写的文章的时候,我可以说,这篇文章实际上是用英语写的,只不过它是用另外一种奇怪的符号编了码而已,当我在阅读时,我是在进行解码。”

早期机器翻译系统的研制受到韦弗的这种思想的很大影响,许多机器翻译研究者都把机器翻译的过程与解读密码的过程相类比,试图通过查询词典的方法来实现词对词的机器翻译,因而译文的可读性很差,难于付诸实用。

由于学者的热心倡导,实业界的大力支持,美国的机器翻译研究一时兴盛起来。1954年,美国乔治敦大学在国际商用机器公司(IBM公司)的协同下,用IBM-701计算机,进行了世界上第一次机器翻译试验,把几个简单的俄语句子翻译成英语。接着,苏联、英国、日本也进行了机器翻译试验,机器翻译出现热潮。

1952年,在美国的麻省理工学院(MIT)召开了第一次机器翻译会议,在1954年,出版了第一本机器翻译的杂志,这个杂志的名称就叫做MachineTranslation(《机器翻译》)。尽管人们在自然语言的计算方面进行了很多的研究工作,但是,直到20世纪60年代中期,才出现了computationallinguistics(计算语言学)这个术语,而且,在刚开始的时候,这是术语是偷偷摸摸地、羞羞涩涩地出现的。

1965年Machine Translation杂志改名为Machine Translation and ComputationalLinguistics(《机器翻译和计算语言学》)杂志,在杂志的封面上,首次出现了“ComputationalLinguistics”这样的字眼,但是,“and ComputationalLinguistics”这三个单词是用特别小号的字母排印的。这说明,当时学者们对于“计算语言学”是否能够算为一门真正的独立的学科还没有把握。计算语言学刚刚登上学术这个庄严的殿堂的时候,还带有“千呼万唤始出来,犹抱琵琶半遮面”那样的羞涩,以至于学者们不敢用MachineTranslation同样大小的字母来排印它。当时MachineTranslation杂志之所以改名,是因为在1962年美国成立了“机器翻译和计算语言学学会”(Association formachine Translation and ComputationalLinguistics),通过改名可以使杂志的名称与学会的名称保持一致。

根据这些史料,我们认为,远在1962年,就出现了“计算语言学”这个学科了,尽管它在刚出现的时候还是偷偷摸摸的,显示出少女般的羞涩。但是,无论如何,计算语言学这个新兴的学科终于萌芽了,她破土而出,悄悄地登上了学术的殿堂。

经过将近60年的发展,计算语言学的研究出现了空前繁荣的局面。这主要表现在如下三个方面。

第一,概率和数据驱动的方法几乎成为了计算语言学的标准方法。句法剖析、词类标注、参照消解、话语处理、机器翻译的算法全都开始引入概率,并且采用从语音识别和信息检索中借过来的基于概率和数据驱动的评测方法。

第二,由于计算机的速度和存储量的增加,使得在计算语言学的一些应用领域,特别是在语音合成、语音识别、文字识别、拼写检查、语法检查这些应用领域,已经进行了卓有成效的商品化开发。自然语言处理的算法开始被应用于“增强交替通信”中,语音合成、语音识别和文字识别的技术已经应用于“移动通信”中。

第三,随着网络技术的发展,互联网逐渐变成一个多语言的网络世界,互联网上多语言的机器翻译、跨语言信息检索正在迅猛地发展,计算语言学的各种应用技术事实上已经成为了互联网技术的重要支柱。

现在计算语言学正处于激动人心的时刻。普通计算机用户可以使用的计算资源正以惊人的速度迅速增长,互联网的兴起并且成为了无比丰富的信息资源,移动通信日益普及并且日益增长起来,这些都使得计算语言学成为了当前科学技术的热门话题,有着无限广阔的应用前景。

我们禁不住欢呼:“大哉,计算语言学之为用!”

(本文载于《中国社会科学报》,2012年12月,A7版)

大哉,计算语言学之为用!(冯志伟)相关推荐

  1. 计算机语言学家,著名计算语言学家冯志伟为人文学院师生作专题讲座

    (通讯员 乐琦 何伟)4月28日,著名计算语言学家冯志伟先生应邀到访人文学院,为学院师生带来一场题为"词向量与语言学"的学术讲座.讲座通过线下线上方式同时进行.线下讲座由我院何伟副 ...

  2. 句子深度假说——冯志伟

    1960年英格维(Yngve)在<语言结构的模型与假说>中,把人们在构造一个句子时需要存储的最多的符号叫做句子深度(the depth of sentence),对于句子深度,他提出如下的 ...

  3. 《自然语言处理——冯志伟》学习记录(一)

    A. M.  Turning算法计算模型的研究 N. Chomsky形式语言理论的研究 C. E. Shannon概率和信息论模型的研究 结构化数据.非结构化数据 正则表达式 有限自动机:一般我们会用 ...

  4. 孔维滢201771010110 / 冯志霞《面向对象程序设计(java)》第十一周学习总结

    理论知识部分     1.数据结构:一般将数据结构分为两大类:线性数据结构和非线性数据结构. 线性数据结构:线性表.栈.队列.串.数组和文件. 非线性数据结构:树和图. 2.JAVA的集合框架: JA ...

  5. 对话湖湘精英会冯志刚:深度结合产业,完整拥抱资本

    孵化器是初创公司成长的摇篮,为初创的中小型企业提供一系列办公服务设施,管理咨询指导,帮助创业团队拉到第一笔投融资. 例如美国的YC培育出了著名新闻网站Reddit.全球最大社交内容共享平台Scribd ...

  6. 36晋级12第五场:冯志刚决胜入围(节目视频)

    视频地址:[url]http://win.cn.yahoo.com/070613/16/mn53.html[/url] 比赛时间:2007年4月17日 选手:王阳.冯志刚.刘恩霞.王嵩 评委: 熊晓鸽 ...

  7. 大数据信息资料采集:武志红公众号心理学历史文章采集评论搜集

    大数据信息资料采集:武志红公众号心理学历史文章采集评论搜集 公众号历史文章评论内容采集,导出表格格式. 采集到的内容包含:文章标题,发布时间,所属栏目,评论ID,评论内容,该评论得到的点赞数,号主评论 ...

  8. 对话钉钉音视频专家冯津伟:大模型不是万能的

    策划:LiveVideoStack 在音视频技术领域,ICASSP 大会是行业的风向标会议,也是语音学界从业者研究下一代技术发展的盛宴.近期,国内外各大企业陆陆续续放出论文入顶会的消息,钉钉蜂鸣鸟音频 ...

  9. 阿里巴巴跨物理界招人,世界级音频专家冯津伟入职人工智能团队iDST

    原文链接:点击打开链接 摘要: 11月30日阿里巴巴正式宣布,前Polycom(宝利通)声学设计和信号处理首席工程师(Principal Engineer)冯津伟入职人工智能核心团队iDST,担任智能 ...

最新文章

  1. 设置显示Git的修改历史History快捷键Alt+H,方便多人开发的时候快速查看谁修改了代码
  2. OSC源创会往期图文回顾链接地址收藏
  3. 关于近期对Lucene.Net应用研究学习的总结
  4. 文件分割器,一个读取流,相应多个输出流,并且生成的碎片文件都有有序的编号...
  5. poj 2528_2
  6. MYSQL数据库安装记
  7. java实现面向对象编程_java实现面向对象编程
  8. 现代电子计算机诞生理论基础是什么,《计算机应用基础》习题集2
  9. win11错误代码0xc1900101怎么解决 windows11错误代码0xc1900101的解决方法
  10. Ubuntu 20.04 安装多个版本 php 并应用到 nginx
  11. 小白ARM平台移植 USB 蓝牙、交叉编译 bluez-4.95
  12. EasyUi入门教程01
  13. python爬虫进阶-每日一学(图片反爬-雪碧图)
  14. 冰蝎(Behinder)双击无法打开
  15. python通过什么对象连接数据库步骤_Python连接MySQL数据库方法介绍(超详细!手把手项目案例操作)...
  16. ActiveX控件之制作图片属性页
  17. 详解ZStack高级功能--裸金属服务
  18. Redis 的 RDB 和 AOF
  19. hadoop的fs shell命令
  20. js 将空格和换行符转换成HTML标签

热门文章

  1. js点击删除最后一个元素节点
  2. 芒果iOS开发之百度魔图面试题
  3. ReactNative进阶(三十五):应用脚手架 Yo 构建 RN 页面
  4. [刷题]leetcode\167_两数之和Ⅱ
  5. 农林牧渔行业S2B2B系统高效链接上下游需求,加速平台供应链周转
  6. oracle的left join和inner join的区别
  7. compare用法示例•选项摘要
  8. 区块链开发者观点:来自 Carbon 的 Nick Pai
  9. usaco4.4.1 Shuttle Puzzle
  10. uniapp 做的一个房贷计算器