中文信息处理技术发展简史

张华平

(中国科学院计算技术研究所软件实验室北京100080)

E-mail: zhanghp@sof〔ware?

Homepage: ; hMp://pipy_ 摘要:真正意义上的中文信息处理迄今已经有20余年的历史了,随着计算机的普及和 Internet的蓬勃发展,中文信息处理技术实实在在的改变了人们的生活。本文根据目前所能 收集的文献资料,集中整理了中文信息处理技术发展的简史,并从自身专业的角度,针对重 大的研究工作做了粗浅的评述,旨在提供一个中文信息处理技术发展的脉络,达到“以史为 鉴”或者“温故而知新”的效果。

关 键词:中文信息处理技术,简史

1\引言

在我国,中文信息处理己经不是什么新鲜事物了,随着科学技术的发展,中文信息处理 技术已经深入到了社会生活的各个方面。所谓“屮文信息处理”,指的是用计算机对汉语(包 括口语和书面语)进行转换、传输、存贮、分析等加工的科学。它是一门与语言学、计算机 科学、心理学、数学、控制论、信息论、声学、自动化技术等多种学科相联系的边缘交叉性 学科,是自然语言信息处理的一个分支,需要以大量的语言知识、背景知识为依据,对屮文 信息的人脑处理过程进行模拟。其中,“中文”是指中国通用的所有语言种类,包括汉语及 其他少数民族的语言;但一般都是指汉语。“信息”是指能通过视觉、听觉、嗅觉、味觉、 触觉等器官或仪器获取,并有一定交际功能的东西,“信息”是不确定性的减少,是负爛。 所谓“处理”,是指用计算机对信息进行各种加工,主要的是图像信息和语言信息的识别、 模拟、分析、转换和传输。严格意义上讲,“汉语计算机自动分析”比“中文信息处理”更 加确切,为表述的习惯,在这里,我们依然沿袭这一称呼。

2002年9月,笔者有幸参加了在台北市举行的第十九届国际计算语言学学术会议(The 19,h International Conference on Computational Linguistics) SIGHAN (Special Interest Group on HAN)研究兴趣组关于“十年后的中文处理”的讨论,台北“中研院”的黄居仁教授详尽 的冋顾了中文信息处理在台北的二十年发展史。实际上,祖国大陆的中文信息处理历史更加 悠久、而且取得了许多实实在在的、改变了人们生活的成就,然而境外的研究群体、我们国 家非屮文信息处理领域的人员、乃至从事这一方向研究的人员也知Z甚少。因此,笔者依据 目前所能收集的文献资料,整理出中文信息处理二十年的科学发展史,并从自己专业的角度 出发,予以评述,希望能对投身这一领域的研究人员或者工程技术人员提供一些历史参考资 料,并盼望有心人能够“以史为鉴”或者“温故而知新”。

本文的第一部分将综述中文信息处理的难点,第二部分按照发展的各个阶段,阐述中文 信息处理的发展史,最后探讨目前屮文信息处理的问题及应对方案。

2、中文信息处理的难点

汉语在世界上属于汉藏语系,是一种孤立语。汉语在历史上先后吸收和同化了匈奴、鲜 卑、突厥、契丹、满、蒙古、梵语等语言里面的许多成分⑴。其主要特点有:

汉语的独一无二的特色是:完全使用由象形文字演化而来的方块汉字;

词语没有形态标记;

汉语是以字为基本单位,词之问没有明显的标记,词本身也没有明显的形态标志。 所以屮文信息处理的基础课题和特有的问题就是屮文分词,分词本身的也有一定的错误 率⑵,这无疑降低了后续处理的实际效果。

结构松散,比如:我上街买菜,看见一个人,穿着一件军大衣,打了卖菜的一巴掌, 脸都肿了。

语法灵活,即缺乏狭义的形态,汉语句子中各个成分之间的关系一靠词序,二靠“意 合”,三靠虚词。⑶

语义灵活,一方面语法的灵活主要来源于语义的灵活;另一方面同一结构可以表达 不同的意思,同一意思可以用不同结构表达。⑶

另外?现有的自然语言处理理论和技术大多都是以英语为研究对象语言发展起來的.而汉 语无论在语音、文字表示,还是在词汇,语法,语义及其语用等各个层面上都与之存在着很 人的差异?这使得无法直接套用西方已成熟的理论和技术,汉语无疑是计算模型比较不发达 的语言。这对从事中文信息处理的研究者来说是一个巨大的挑战和压力。

3、中文信息处理发展史

从我国早在1956年的开始了俄汉机译研究,并于1959年取得成功,至今差不多有50年的 历史,但当时的技术主要是词与词翻译和模式匹配,缺乏句法和语义分析⑷,儿乎谈不上 真正的中文信息处理。下面笔者依据时间顺序,根据当时的主流研究方法和研究的主要问题, 将屮文信息处理技术的发展史分为如下6个阶段进行阐述。

3.1学习和理论探索的萌芽阶段

这一阶段以介绍国外计算语言学领域的理论方法为主。

对国外相关领域的介绍,理论内容相对较少,主要偏重在各种上机实现的系统方面。范 继淹⑸、徐志敏

计算机信息处理技术的发展历程,中文信息处理技术发展简史.docx相关推荐

  1. 计算机技术应用发展历程,浅析计算机应用技术发展的历程与方向

    浅析计算机应用技术发展的历程与方向 作者:闻红 来源:<科技创新与应用>2014年第35期 摘 要:在科技飞速发展的今天,计算机应用技术已不可替代的角色广泛的应用到了各个行业领域中.文章从 ...

  2. 一文读懂云计算:发展历程、概念技术与现状分析

    掐指一算,云计算已经有了十年的历史,发展到今天几乎可以算是近十年最伟大的技术进步之一. 「云计算」这个术语,也早已从一个新鲜词汇,成为了妇孺皆知的流行语. 任何事物的诞生和发展一定有其前提条件和土壤, ...

  3. Java语言的出现背景、主要特点、发展历程以及Java技术的应用

    一. Java的由来 当1995年SUN推出Java语言之后,全世界的目光都被这个神奇的语言所吸引.那么Java到底有何神奇之处呢? Java语言其实最是诞生于1991年,起初被称为OAK语言,是SU ...

  4. 操作系统的发展历程及linux的发展

    操作系统的发展经历了一个慢长的过程,今天我就带大家看看哈 1.手工操作(无操作系统) 手工操作阶段 过程:用户把程序写在纸带上(其实就是在纸带上打孔),然后输入到计算机中,计算机随后会处理这个程序,把 ...

  5. 计算机控制发展历程,电气控制技术的发展历程

    在机床调速技术发展的同时,电气控制技术也逐步向自动控制方向发展.其经历的发展阶段如下: ① 手动控制 采用一些手动电器(如刀开关.控制器等)来控制执行电器.这种控制方式仅适合那些容量小.动作单一.不需 ...

  6. 中文信息处理——纵览与建议

    中文信息处理--纵览与建议 (2007-04-11 22:25:49) 转载▼ 分类: 技术视野 2004年10月写的一个材料. ----------------------------------- ...

  7. 1 计算机组成原理第一章 计算机系统概述 计算机发展历程、层次结构、性能指标

    文章目录 1 计算机发展历程 1.1 软硬件发展 1.2 分类以及发展方向 2 计算机系统层次结构 2.1 计算机系统组成 2.1.1 硬件的基本组成 2.1.2 软件系统 2. 2 CPU及其工作过 ...

  8. SDN — 网络虚拟化技术的发展历程

    目录 文章目录 目录 网络虚拟化技术 网络虚拟化技术的类型 网络虚拟化的发展历程 网络虚拟化技术 网络虚拟化是指虚拟网络节点之间的连接并不使用物理线缆连接,而是依靠特定的虚拟化链路相连.其主要是对网络 ...

  9. 技术动态 | AIGC时代知识图谱技术的发展与最佳实践

    转载公众号 | DataFunTalk 2023年3月18日,DataFunSummit2023:知识图谱在线峰会将如约而至.本次峰会由2位主席与3位专家团成员和6位论坛出品人精心策划而成,共包含了: ...

最新文章

  1. jquery mobile资源
  2. [ofbiz]less-than (lt;) and greater-than (gt;) symbols
  3. 字符串匹配算法(KMP)
  4. 9 WM配置-主数据-定义物料分阶段的范围(Staging Area)
  5. 访问量冲破1000大关,截图庆祝!
  6. 远程控制软件用户群分析
  7. 云计算项目实战——系统API模块
  8. RobotFramework教程使用笔记——Selenium2Library库
  9. 老毛桃u盘装系统linux,老毛桃U盘装系统教程详细步骤
  10. 用12星座看人的性格准吗?
  11. 分段函数求法(if和switch)
  12. 建立FAT文件系统学习笔记
  13. 用正则表达式抓取电话号码
  14. 持续使用KimJongRAT和PCRat发动攻击:BabyShark恶意软件分析
  15. git@gitlab.com: Permission denied报错
  16. 增值税发票管理解决方案
  17. 10款数据恢复软件测评对比
  18. 复现Nature图表 ggplot做面积图(折线面积图)
  19. 【Web开发】Python实现Web服务器(web2py)
  20. 实现全国组织机构代码校验

热门文章

  1. ubuntu提示根目录存储空间不足的解决办法
  2. 【回顾】巨杉数据库中标东莞农商银行非结构化内容管理平台项目
  3. 【SQLserver】使用openrowset方法导入EXCEL表格数据
  4. 市场上各种深度摄像头测试之华捷艾米A100
  5. 利用阿里云ECS制作个人简历网站
  6. 看古人如何养颜:散落在历史中的美容秘方
  7. Turbo Pascal简介
  8. win10 win+shift+s 截图存哪里去了
  9. html里怎样返回首页,返回上一页-html页面返回上一页面怎么写
  10. 2022讯飞——糖尿病遗传风险检测挑战赛解决方案