2019独角兽企业重金招聘Python工程师标准>>>

  在世界范围内,机器翻译的研究与开发已经走过了50年的历史。我国机器翻译的研究开始于1956年。1959年,中国的机器翻译研究者成功地进行了中国首次 机器翻译试验表演。中国是世界上第五个进行这种实验的国家。今年应是中国的机器翻译研究的40周年。在这时刻来作一番世纪回顾,更有其纪念的意义。

  在进行技术层面的回顾之前,我愿就宏观方面做点介绍。首先,中国的机器翻译研究从一开始就得到了国家的高度重视。早在1956年它便以"机器翻译 "/"自然语言的数学理论"列入了当时的《科学发展纲要》。以后则列为"六五"、"七五",以及"863"等重大科 研项目。中国的机器翻译研究虽然也有过10年的停滞,但与国外不同,并不是由于对机器翻译研究本身的中断投资引起的。其次,中国的机器翻译研究从一开始 就具有多单位,多方面不同知识结构人员的协同攻关的特点。这是这项研究自身的特点所决定的,它需要至少计算机科学、数学、语言学等多方面知识。

  70年代中期,我国机器翻译研究从停滞走向了复苏,是协同攻关的特点体现最充分的时期。当时在中国科技情报所的组织下集中了许多部委的研究人员在社 科院语言所的专家的具体指导下协同攻关。当时的理想是通过这样的大协作,开发出系统,培养一批人材,然后把系统带回各自的单位投入使用,并在使用过程 中继续完善。虽然遍地开花的良好愿望后来没有实现,但通过五年多的通力合作,开发出了系统,培养了人才和积累了经验。在这一时期,还开始向国外派出人 员学习和引进技术,并与当时已在国际享有盛名的机译研究机构进行了交流。社科院语言所开始培养机器翻译专业研究生。在这时期在情报学会和后来中文信息 学会下成立了专业委员会,并曾定期地举行全国性的学术研讨会,还曾出版机器翻译专刊。

  80年代中期到90年代初期是我国的机器翻译研究自复苏以来第二个重要时期。在这一时期里,产生过两个在中国机译史上具有重要意义的实用化系统。它们 分别是军事科学院研制的"KY-1"英汉机译系统,它获得了国家科技进步二等奖,后来被开发为"译星",成为中国第一个商品化系统,另一 个是中科院计算所研制的"863-IMT"英汉机译系统,它获得了国家科技进步一等奖,它的技术带来了十分可观的效益。这两个系统也是多单位、多方面 人材通力合作的结果。在这一时期里还有一个机译系统是不应被遗忘的。它就是由邮电科研院研制的"MT-IR-EC",这是一个非常实用的通讯题录系统, 人们利用它翻译出版通讯题录刊物,从而使刊物的发行效率得到很大的提高,它因此成为了第一个荣获国家科技进步奖的机译系统。在这一时期里,中国参加了由 日本发起的亚洲五国机器翻译研发的合作项目。国内近10个单位参加了这一长达7年的国际项目。这次的大协作对于培养人才、传播技术、积累资源(如词典等), 以及使中国的机译研究走向世界,都有着深远的影响。另外,这个时期又正值"七五",它给了更多的单位和研究人员参与机译研究的机会。在此期间, 清华大学和南京大学研制了实用的日汉机译系统。中国科大在机译通用工具方面进行了富有成果的研究。北京大学研制成功了机译系统自动评估系统,这在国内外 尚属首例。

  90年代初期至今,中国的机器翻译走入了快速发展的时期,出现了许多商品化系统。近期的机译系统大体上有这样一些特点:多数配有大规模的多种领域的 专业词典,多数能在网上运行,有相当不错的方便用户的界面。新的应用领域的机器翻译研究,如对话翻译系统的研发等也已开始。中国的机译研究的水平在总 体上从一开始就不低,如今在PC产品、网上系统的开发方面与世界上机译研究发达的国家相比并不逊色。

  中国机器翻译的占主流地位的技术策略和技术路线是:转换法,基于规则的,尤其是实用型机器翻译。世界其它地方也是如此。在回顾总结半个世纪的经验 时,我想对于实用系统来说,有一些基本技术现在应是可以肯定的。

  1. 机译归根结底是一个语言处理问题,系统需要强大的语言知识的支持;首先机器词典要有足够的词汇量,常用词语以英语或汉语论应不低于4万;为词典中 每个词语给出的信息愈丰富愈好,一般分为词法、句法和语义信息。我国甚至早期的系统在这方面已有明确的体现,如当时有"类属组"三级信息。

  2. 语言规则的获取来自真实的、尽可能多的语料,而不只限于教科书的例句。中国的具有代表性的系统都是这样做的,如70年代在中国科技情报所开发的两个 题录系统是以5000条双语冶金题录为调查语料的。邮电科研院系统的词语和语法规则都来自于对INSPEC磁带数据的调查。随着近10年来语料库利用的发展, 更加充分地但又是清醒地利用好语料库,善于从中获取知识的方法是很可取的。另外,大规模语料库对于机器翻译所必需的词语正确搭配的遴选也是很有效 的资源。

  3. 描写性的语言规则会比过程性的语言规则更好。后者由于同加工过程紧密相关,会增加编写规则的难度和系统调试的难度。

  4. 源语言分析中采用多结点、多叉树、多标记的中间表达被证明是可取的,它优于简单标记的方法。

  5. 把语言数据同程序分开,是普遍采用的方法。这样做便于系统的调试、完善,有利与系统的扩充。

  6. 系统的友好界面是系统的重要的组成部分,虽然它不算是机译系统的核心,但它是不应该被轻视的。

  随着因特网的出现和发展,机器翻译的应用前景将更为诱人,也会带来更好的商机。但应该提醒的是:今天机译系统的翻译质量还很差。50年来译文质量应该 说还未取得实质性的突破,这在世界范围内都如此。机器翻译不但是一个语言处理问题,也可以说是一个知识处理问题。没有点点滴滴的、艰苦的知识和经验的积 累,是不可能开发出实用的机译系统的。现在之所以有的开发周期缩短了,一则是因为开发者有长期的经验积累,一则是得到可以共享的资源,而绝不是有什么 "绝招"。实际上机器翻译要能真正满足人们的需求,还有很长的路要走。展望下一个世纪,我们做这样的预测,实际上也可以说是我们应该争取的突破 点。

  1. 源语言分析将是大语境的、基于理解的。如今的分析都是孤立的一个句子一个句子进行的,即单个句子为处理的基本单位。未来的分析将是以句群为单位 的。如今的分析求出的是句法关系树,充其量是概念的语义关系图,而不是对文本给出的意思的求解。有人说,简单的都做不到,那么复杂的就更不可能 了。其实不然,正是"简单"了,有些问题才变得无法解决的。现在认为"简单"的,几十年前,不是很复杂的吗?

  2. 加强基础研究,特别是常识性知识库的建设。有的学者提出建设知识词典,利用它进行基于理解的分析。

  3. 机译系统将出现高度专业化的趋势。这种系统是为某个特定领域进行调试的,它实际上具备较充分的专业知识,而不仅仅是只有一本专业词典而已。

  4. 基础性资源的共享,对于类似于机器翻译这样的研究来说是大趋势。如今我们可以在网上获得许多很宝贵的有关英语的、日语的资源,也有简体中文繁体中文 的资源。因特网提供了一种知识资源共享和知识产权保护的全新的概念和方式。在近两次世界机器翻译高峰会上日本各大 计算机公司都介绍了它们如何共享共建机译系统的专业词典的做法,值得我们借鉴。在当今网络时代,陈旧的知识资源保护手段到头来封杀的不是别 人而是我们自己。

  5. 机器翻译系统的高度模块化将有可能带来未来的机译系统的组件化。这样机器翻译系统的研发周期有可能大大缩短。开发者可以把更多的力量放在突出 自己的特色上和专门化上。

转载于:https://my.oschina.net/apdplat/blog/419511

中国机器翻译的世纪回顾相关推荐

  1. 李彦宏登上《时代》封面:他正帮中国在21世纪赢得胜利

    价值君注:1月19日消息,百度创始人.董事长兼CEO李彦宏登上最新一期<时代周刊>亚洲版封面,这是中国互联网企业家首次登上<时代周刊>封面,该刊给予李彦宏"The I ...

  2. 2018中国C++大会精彩回顾

    12月22日,TEG技术事业工程群联合Purecpp开源社区共同举办了2018中国C++大会,大会诚邀四位modernC++国内技术先锋带来modern c++应用.最新标准以及未来发展趋势,更有腾讯 ...

  3. 中国 SaaS 二十年的回顾

    (1)2000年:第一次互联网热潮 1995年,全球互联网爆发.电子商务Amazon,资讯门户雅虎成立,他们都于1997年上市,市值高企. 1997年,Oracle技术副总裁出去创业,NetSuite ...

  4. 中国星际争霸历史回顾(重写版)

    作者:[AOQ]Cat -------------------------------------------------------------------------------- 这个事情并非说 ...

  5. 2019年第九届中国教育机器人大赛回顾与总结

    文章目录 前言 一.机缘巧合的参赛 二.充实紧张的培训 1.培训前 2.培训中 3.培训完 三.意义非凡的比赛 1.赛前准备 2.比赛开始 3.赛后总结 收获满满 前言 今天是2021年2月26日,元 ...

  6. 中国数学发展历史回顾

    ​    ​    ​120年前,1902年在江苏南京成立了"两江师范大学"(专科学校),只讲授算学(初等算术),不开设高等数学课程. ​    ​辛亥革命之后,1921年9月1日 ...

  7. 中国电子商务知识产权保护回顾与展望 | 连载(二)

    电子商务所特有的广域性.即时性.虚拟性.互动性等特点给知识产权保护带来了巨大挑战,为应对这些挑战,包括司法机关.行政机关.电子商务平台.权利人.消费者等在内的相关主体积极探索符合市场规律.创新.高效. ...

  8. 2021年中国综艺赞助情况回顾及未来发展趋势:品牌更乐于与成熟的综N代合作,未来合作方式更多元化[图]

    一.综艺节目发展现状 2019-2021年中国综艺市场遇冷,上线综艺数量越来越少,2021年中国上线综艺428部,较2020年减少22部,其中:电视综艺213部,与2020年持平:网络综艺215部,较 ...

  9. 中国电子游戏机发展回顾 游戏机手柄从未被禁止

    上周早些时候有消息称中国考虑解除长达12年的游戏机手柄禁令,当时还尚不清楚此消息的可靠性,但是东京股票市场立竿见影吸收了这条消息,在传言发布后,Bloomberg注意到日本游戏机提供商索尼和任天堂股价 ...

最新文章

  1. 在统一软件开发过程中使用UML
  2. java取number长度_Java中常用方法(NumberMath)
  3. guice注入带参构造器_带有Guice的富域模型
  4. JAVA WEB篇1——初识JAVAWEB
  5. 计算机桌面上的声音图标没了怎么办,Win7电脑右下角声音图标不见了怎么办?...
  6. HDU 1698 Just a Hook 线段树
  7. cocos2d-2.0-x-2.0.3 批处理文件create-android-project.bat 创建工程缺失lib解决方法
  8. Windows无法安装到这个磁盘。请确保在计算机的BIOS菜单中启用了磁盘控制器
  9. oracle的简单命令
  10. JAVA“类”数组的创建与调用
  11. java 练手小项目
  12. Mysql数据库详解
  13. Android ndk下载和环境配置
  14. c++项目 生成dll文件
  15. 用在线RaxML构建系统发育树
  16. vue 左侧菜单可拖动
  17. MySQL随机生成六位数验证码
  18. java程序猿高考试卷,请注意查收!
  19. 微软 文档转换服务器,文档转换器
  20. 灾害应急管理信息化建设“四步走”——以水旱灾害为例

热门文章

  1. 微服务架构下静态数据通用缓存机制
  2. 直观讲解一下RPC调用和HTTP调用的区别
  3. Java中的锁原理、锁优化、CAS、AQS详解
  4. SpringBoot第二十三篇: 异步方法
  5. GBDT 算法如何用于分类问题
  6. 新冠最凶变种出现!突变量德尔塔两倍,专家称感染率超原毒株500%,引发全球股市震荡...
  7. 深度学习“三部曲”重磅资源、python、DL理论、工程实战全覆盖(附免费下载)...
  8. Redis源码分析:AOF策略与时间触发任务
  9. Flask-RESTful之响应处理
  10. Flask-RESTful之请求处理