周锡令
xlzhou@btamail.net.cn
2001-11-8

在大多数情况下,我习惯于研究远离我们主观世界的客体。典型的例子是“天体”。在研究的过程中,使用的方法是“建立模型”。研究的进展过程主要表现为“模型的逐步求精”。

比如说,最开始只对两个天体组成的系统模型进行研究,研究的结果与实际的数据基本符合,但是有微小的差异。于是,我们进一步考虑距离较远的第三个星体所产生的摄动作用,如此这般,使得我们建立的模型越来越接近实际情况。

对于力学世界,也有类似的现象,最开始建立牛顿力学,它和常规的世界符合得很好;但是当物体的运动速度逐渐接近光速时,又很多现象无法解释,于是进入了相对论修正。

在自然语言处理工作中,我们好像也是采用类似的方法。我们建立了一个又一个语法模型,希望将尽可能多的语发现象笼括在内。但是和力学、电学等领域相比,所得的结果总是很不能令人满意。对此,我们总是把原因归结为:自然语言太复杂!

我们好像忽略了一个很重要的事实,那就是:像“天体”、“集成电路”……这类客体是“完全自立于我们主观世界之外”的,我们用来研究它们的大脑和这些被研究的对象是完全分开的。研究它们时,用不着为我们自己的大脑的工作过程建立模型。而和“天体”、“集成电路”……这些客观对象不同,自然语言本身似乎够不上一个完整的研究对象。作为一个有价值的完整的研究对象,参与其运行机制的主要方面都应该包含在内。

举例来说,如果有以下一个通讯系统:

图中的车载计算机通过无线电讯号向接收设备发送讯息。由于各种原因,信号经常受到干扰。因此发送时在信号中添加了误差校正码,而接收设备则拥有根据误差校正码校正错误的设施。我们在研究这个系统时,一定会整体地从信号的发送、传输、干扰、接收、校正的所有环节来考虑。如果抛开接收这头的校正环节,单纯研究信号的格式、统计规律,一定会得出千奇百怪、没有太多价值的结果。

然而在研究自然语言时,我们正是采取了这种奇怪的研究方式。自然语言是在人群中为了交流思想而产生和不断发展的。语言传递思想或信息的机制既蕴藏在语言内部的结构,也隐含在人的大脑解读语言中所包含的符号系列的过程中。可是我们只研究语言本身!

因此对于自然语言传递信息的运行机制,不能单单研究语言本身。原则上,应该把“人的大脑的处理语言的过程”也包含在所研究的系统内,这样才能有结果。

当然,研究大脑解读语言的过程很困难。但是,如果我们因此就完全放弃这一十分重要的方面,只是在语言的形式结构方面越钻越细,我们会不会永远也得不出结果?

目前我们当然还不可能提出大脑的全部模型。但是可以为大脑在理解自然语言时最重要的一个环节先拿出来研究,这就是解惑:补充语句中的缺失部分、纠正结构中的倒错部分。展开来说,就是:

把自然语言中的语句或者句群看成“含有多处含糊性”,“可以有多种解读方式”的符号系列,然后利用“知识”,借助“语义合理性准则”从中选出最合乎情理的一种解读方式,可以看成是为“大脑解读语言的过程”所建立最初级的模型。

“语法”和“语义”的第一个结合点是不是就在这里?

根据我现阶段的理解,HNC团队一直在这个方向上努力。当然,这个任务决不是轻而易举的。由于这条道路涉及全体人类在全部历史上积累下来的知识的表达和应用,沿着这条道路前进的工作着好像面临着数学上令人生畏的无穷大问题。因此,要在这个方向上获得进展、并能得到社会的承认,十分关键的一点就是:充分意识到任何工程都是有边界的,任何技术手段所能解决的问题都是有限的;从而明确有限目标,并睿智地划分工程的不同实现阶段。

最后,我们不妨来对比一下计算机编程语言。在发展这类语言时,从来就是把计算机对语言的处理能力联系在一起研究的。由于现阶段的计算机基本上没有解惑能力,所以这类语言基本上不允许有含糊性,书写出来的程序在语法上不能有丝毫差错。样样事情都要交代的明确,没有不符合语法或者模棱两可的地方。我说“基本上”是因为当代的计算机也不是绝对没有一点解惑能力。例如,很多人书写HTML程序的时候,往往没有严格遵从语法的规定。对于这种情况, 实际的HTML解释程序往往能够“正确地加以理解”,也即可以在一顶程度上自动加以补充或改正。而不同公司开发的HTML解释程序的解惑能力也有程度上的差异。

转载于:https://www.cnblogs.com/weiyinfu/p/8449482.html

[转]对当前自然语言处理方法论中的一个疑惑相关推荐

  1. 七桥问题属于计算机科学方法论中的,计算机科学与技术方法论-计算学科中的科学问题ppt...

    PPT内容 这是一个关于计算机科学与技术方法论-计算学科中的科学问题ppt,主要介绍科学问题是指一定时代的科学认识主体,在已完成的科学知识和科学实践的基础上,提出的需要解决且有可能解决的问题.欢迎点击 ...

  2. 大数据分析深度学习在自然语言处理NLP中的应用

    通过深度学习的先进技术,自然语言处理取得了令人难以置信的进步.了解这些强大的模型,并发现这些方法与人类水平的理解有多近(或遥远). 人类有很多感觉,但我们的感官体验通常以视觉为主.考虑到这一点,现代机 ...

  3. 人工智能领域中的一个重要方向:自然语言处理

    人工智能作为新一轮科技革命和产业变革的重要驱动力量,正在深刻改变世界.而自然语言处理(Natural Language Processing,简称NLP)已成为人工智能领域中的一个重要方向,它推动着语 ...

  4. NLP:自然语言处理技术中常用的文本特征表示方法(整数编码、one-hot编码法、BOW法、TF-IDF法、N-Gram法等)及其代码案例实现

    NLP:自然语言处理技术中常用的文本特征表示方法(整数编码.one-hot编码法.BOW法.TF-IDF法.N-Gram法等)及其代码案例实现 目录 自然语言处理技术中常用的文本特征表示方法(整数编码 ...

  5. 《基于深度学习的自然语言处理》中/英PDF

    向AI转型的程序员都关注了这个号???????????? 机器学习AI算法工程   公众号:datayx <基于深度学习的自然语言处理> Neural Network Methods in ...

  6. 七桥问题属于计算机科学方法论中的,华中科技大学-计算机科学与技术方法论-2计算学科中的科学问题.ppt...

    华中科技大学-计算机科学与技术方法论-2计算学科中的科学问题.ppt 第二章 计算学科中的科学问题 文坤梅 E-Mail:kunmei.wen@ 智能与分布计算实验室 Intelligence and ...

  7. 《俞军产品方法论》:一个产品学派的诞生

    www.pmcaff.com 本文为作者 一只特立独行的Eric 于社区发布 "我有时下班打个顺风车,周围几大公司(滴滴.百度.新浪.网易)的产品经理都会来接我.因为我用的是真名." ...

  8. 如何让你在潜在客户的心智中与众不同?《定位》每个公司必须在潜在客户的心智中建立一个位置,这就是所谓的定位。...

    <定位>每个公司必须在潜在客户的心智中建立一个位置,这就是所谓的定位.杰克.特劳特 你如何赢得心智?定位理论经过四个重要的发展阶段如下: 如何让你在潜在客户的心智中与众不同? 定位四步法: ...

  9. 学习在Unity中创建一个动作RPG游戏

    游戏开发变得简单.使用Unity学习C#并创建您自己的动作角色扮演游戏! 你会学到什么 学习C#,一种现代通用的编程语言. 了解Unity中2D发展的能力. 发展强大的和可移植的解决问题的技能. 了解 ...

最新文章

  1. lib和dll文件的区别和联系
  2. 金额转换,阿拉伯数字的金额转换成 面试编程题
  3. Microsoft Enterprise Library 4.0 for Visual Studio 2008
  4. Android之MediaPlayer播放音乐并实现进度条实例
  5. Linux新建yaml文件,yaml文件创建pod和deployment
  6. Android中应用百度地图API开发地图APP实例-显示百度地图
  7. python的xlwt模块的常用方法
  8. 勒索病毒傀儡进程脱壳
  9. 去除标题_你真的会写标题吗?企优托教您打造黄金标题离不开这三步
  10. 【API进阶之路】逆袭!用关键词抽取API搞定用户需求洞察
  11. 如何判断一个变量是数组还是对象
  12. keepalived配置参数官方文档中文翻译版
  13. unix和linux命令_在Linux / UNIX中查找命令
  14. 一位区域销售经理百条经验手记
  15. Flash,EEPROM差别
  16. opencv3中camshift详解(一)camshiftdemo代码详解
  17. 【晶体管电路设计】二、射极跟随器及其应用
  18. GPRS DTU是什么?其工作原理是什么? (转自aerkate)
  19. 《企业财务报表分析》学习笔记
  20. 欧洲杯赛场“中国元素”引观众热议;万达两家酒店在延安红街开业窑洞房最具特色 | 美通社头条...

热门文章

  1. dubbo源码-服务发现
  2. 夯实Java基础(十九)——集合
  3. 逆向破解之160个CrackMe —— 007
  4. [MySQL] - MySQL连接字符串总结 (转)
  5. maven私服的使用
  6. vijos p1782——借教室(noip2012提高组第2题)
  7. 这是一个关键……可是这个门槛我上不去了
  8. 【Java从0到架构师】Zookeeper - 系统高可用、分布式的基本概念、Zookeeper 应用场景
  9. 走进我的交易室08_有条理的交易者
  10. 1年经验却拿总监薪资?看到他做的数据可视化报表,我彻底服了