摘要

本文介绍了跨语言信息检索(CLIR)、多语言信息检索(MLIR)、机器翻译方法和技巧。跨语言信息检索(CLIR)处理用一种语言查询和用另一种语言检索文档。多语言信息检索(MLIR)处理以一种或多种语言提问和以一种或多种不同语言检索文档。机器翻译是实现跨语言信息检索(CLIR)和多语言信息检索(MLIR)系统的重要组成部分。

跨语言信息检索(CLIR)允许用户查询不同语言的文档集。它允许用户以一种语言输入他们的查询,并以其他语言重新获得文档集。跨语言信息检索(CLIR)的主要优点是用户可以在不受语言障碍限制的情况下搜索信息。在跨语言信息检索中,查询语言与文档语言不同。跨语言信息检索(CLIR)系统是一种用户不仅仅局限于一种语言,还可以用一种语言进行查询,然后再用另一种语言进行文档返回的系统。与双语系统相同的跨语言信息检索(CLIR)简化了对多语言用户的搜索过程,并使那些只知道单一语言的人能够以他们的语言提供查询,然后利用机器翻译检索其他语言的文档。

一、跨语言信息检索(CLIR)系统中的术语

1.机器翻译

机器翻译是计算语言学中语言处理的一部分。机器翻译方法通过使用机器翻译系统翻译文档或查询。机器翻译(MT)指的是利用计算机自动完成人类语言之间的部分或全部翻译任务。谷歌在线翻译目前支持108种语言的机器翻译服务。然而,从最终用户的角度来看,这些搜索引擎本质上是一个单语搜索引擎的数据库。没有一家大型搜索引擎将MLIR技术作为一项服务。机器翻译的主要缺点是计算费用昂贵。

2.双语词典

可以使用双语词典将文本和单词从一种语言翻译成另一种语言。基于词典的方法使用双语词典。通过在双语词典中查找术语,用于查询和翻译。由于它的简单性和机器可读字典的广泛可用性,这是最受欢迎的方法。

3.平行语料库

与基于字典的翻译相比,基于语料库的翻译通常具有更好的性能。平行语料库的形成既复杂又昂贵。为某些语言找到并行语料库可能是非常复杂的,或者是足够大到可以使用的。无论是基于语料库还是基于词典的翻译,其主要问题是翻译的覆盖面和质量。糟糕的类语料库和字典会极大地降低系统的性能。双语机器可读字典比平行语料库更容易获得。

4. 类型分析器

分析给定文本的语言类型被称为类型分析器,它是一个软件组件。它感知输入词的语言类型。类型分析器通过结合统计POS标记器和Chunker来检查其对性能的影响,从而确认其作为NLP应用基础的可用性。

5.音译

如果查询词在双语字典中找不到,那么必须用音译。对于音译,基于规则的方法可以用于像Devanagari这样的语言,因为它是一个语音脚本。对于查询的音译/翻译结果,基于术语共现信息的迭代页面排名样式算法产生最可行的翻译。

6.词义消歧

在词义消歧中,一个词的词义是根据它所保留的词语来推断的,也就是根据与它共存的词语来推断的。类似地,查询中的单词为选择正确的翻译/音译提供了重要的思路,尽管数量较少。例如,对于印地语查询“nadi jal”,这里nadi的翻译是{river},而jal的翻译是{water, to burn}。在这里,根据上下文,我们可以看到第二个词的翻译选择是water,因为它更有可能与river同时出现。

二、机器翻译方法

机器翻译(MT)方法分为基于规则的、基于语料库的、基于词典的、基于示例的

1.  基于规则的

通过使用基于规则的简单方法,可以翻译词典中未找到的单词的音译。基于规则的机器翻译(RuleBased Machine Translation, RBMT)与源语言和目标语言的句法、形态和语义信息密切相关。根据这些信息制定语言规则。另外,该语言对使用了数百万本双语词典。基于规则的机器翻译(RuleBased Machine Translation, RBMT)是处理各种语言现象,具有可扩展性和可维护性。然而,增加了系统语法异常的困难,因此,研究过程需要高投资。基于规则的机器翻译(RBMT)的主要任务是将源语言(语义和句法)结构转换为目标语言(语义和句法)结构。这一方法可以有若干办法,如图1所示。

图1.基于规则的机器翻译的不同方法

2. 基于语料库的方法

基于语料库的翻译方法,通过分析比较语料库或并行语料库来构建统计翻译模型。为了克服基于规则的机器翻译的知识获取问题,基于语料库的机器翻译又称数据驱动机器翻译,是机器翻译的一种替代方法。基于语料库的机器翻译使用双语并行语料库,获取输入语言的翻译。在CBMT中使用了大量的并行语料库形式的原始数据。这些原始数据包含文本及其翻译。这些语料库用于获取翻译知识。基于实例的机器翻译方法是一种基于语料库的机器翻译方法。

3. 基于词典的机器翻译

这种翻译方法基于语言词典的条目。为了发展经翻译的诗歌,使用了这个词的同等词。机器可读或电子词典是第一代机器翻译的基础。在某种程度上,这种方法仍然可以完全翻译短语,但不能完全翻译句子。最后,在或多或少利用双语词典和语法规则的基础上,提出了大多数翻译方法。

4.  基于示例的机器翻译

机器翻译是以并行语料库为主要知识的双语语料库,以类比翻译为主要思想实现了EBMT系统的点到点映射。它把源语言中的一组句子和目标语言中每一个句子对应的翻译产生。这些例子是用来把源语言中相似类型的句子翻译成目标语言的。在EBMT中,有四个任务:示例获取、示例库与管理、示例应用与合成。在基于实例的机器翻译的基础上提出了类比翻译的思想。类比翻译规则被编码为基于实例的机器翻译。

结论

以上是多语种和跨语种信息检索中的机器翻译技术。跨语种和多语种信息检索(IR)为全世界不同语种检索文档提供了新的范式,不仅可以作为两种语言检索的基础,而且可以作为多种语言检索的基础。机器翻译是人工智能和信息检索系统的一个研究热点。机器翻译(MT)是一个难题,因为自然语言非常复杂。很难说,一种办法足以处理翻译过程,因为语言本质上是进化的。以上是各种跨语言信息检索(CLIR)和多语言信息检索(MLIR)系统实现的机器翻译方法。

跨语言、多语言信息检索相关推荐

  1. python语言-Python语言的特点有哪些?

    python是一种解释性.交互式.面向对象的跨平的语言.近年来,热持续上涨,人才需求量也祝年攀升,备受程序员的追捧.那么python语言的特点有哪些呢?我们下面来说一下. Python语言主要有以下9 ...

  2. 教师语言表达-语言互动

    系列文章目录 第一章 师生语言互动中文文献阅读整理 文章目录 系列文章目录 前言 一.语言是什么? 二.教学语言分析 1.弗兰德斯分析法 2.等级指标法 3.协商互动分类 4.课堂教学质量分析 5.课 ...

  3. 强国的语言与语言强国

    <强国的语言与语言强国> 作者:教育部语言文字信息管理司司长 教育部语言文字应用研究所所长 中国社会科学院研究生 李宇明 理论上语言是一律平等的,现实中语言是有强有弱的.语言的强弱与语言所 ...

  4. 最近写了一个简单的面向对象的脚本语言 Q 语言

    最近写了一个简单的面向对象的脚本语言 Q 语言,语法类似于 Javascript, 加入了一些 python 的语法功能. 同时实现了部分的 Javascript prototype 的功能 (个人觉 ...

  5. 深入浅出C语言——C语言简介

    文章目录 编程语言: 一.C语言 二.C语言程序案例 三.数据类型 四.变量和常量 五.字符串 六.转义字符 七.注释 八.选择语句 九 .循环语句 十.函数 十一. 数组 十二.操作符 十三.常见关 ...

  6. 为什么我们需要一门新语言——Go语言

    编程语言已经非常多,偏性能敏感的编译型语言有 C.C++.Java.C#.Delphi和Objective-C等,偏快速业务开发的动态解析型语言有 PHP.Python.Perl.Ruby.JavaS ...

  7. 职工信息管理程序设计c语言,C语言程序设计职工信息管理系统.docx

    C语言程序设计职工信息管理系统.docx 1 数信学院数信学院 课程设计报告课程设计报告 课程名称课程名称C C 语言程序设计语言程序设计_ _ 题目名称题目名称职工信息管理系统职工信息管理系统 学生 ...

  8. c语言 python-C语言、Java语言和python语言的区别在哪里

    原标题:C语言.Java语言和python语言的区别在哪里 我们经常听到C语言.Java语言和python语言,那么这三者的区别在哪里呢?随着科技的进步以及新技术的推进,编程语言的种类也是越来越多,随 ...

  9. 程序设计语言python语言概述

    程序设计语言 什么是程序设计语言 程序设计语言是人类与计算机交流和沟通的语言.人们通过使用程序语言,来书写计算机程序,以达到设计的程序满足需求的目的. 程序语言的发展历史 程序语言经历了从低级语言到高 ...

  10. c语言吗 程序语言,编程语言为什么从c语言开始,那有没有a语言b语言呢?

    实际上没有A语言叫法. B语言 B语言是贝尔实验室的计算机先驱Ken Thompson 和 Dennis Ritchied与1969年设计开发.他们的主要其他功绩还有Unix操作系统和C语言.可以说C ...

最新文章

  1. C语言,统计0~9出现次数。_只愿与一人十指紧扣_新浪博客
  2. java校验ip格式_JAVA IP地址格式验证,使用正则表达式
  3. C# 连接数据库 Sql Server
  4. main 函数解析(二)—— Linux-0.11 学习笔记(六)
  5. 德州扑克里的专业术语你知道几个?
  6. 一道题决定去留:为什么synchronized无法禁止指令重排,却能保证有序性?
  7. 判空,空字符串,空对象,判null,判undefined等
  8. Linux下超大硬盘分构(GPT分区)
  9. jquer WdatePicker 使用 手册
  10. CentOS 6.0 下 VNC 配置方法
  11. JavaScript九九乘法口诀表
  12. html高德地图无法显示,关于高德地图不显示的问题
  13. Pollard rho 算法求解离散对数问题
  14. PostgreSQL汉字转拼音
  15. 架构 - 单点登录 - Springboot 模拟单点登录
  16. 利用计算机得到阻尼振动曲线的包络线公式,波尔共振实验阻尼系数的计算机拟合...
  17. MVC4 jquery 样式 主题 用法(案例)
  18. 手机更「绿」,芯片更强 ,苹果新品发布会你更看好哪一个?
  19. dataTable自定义搜索框位置
  20. javaWeb - 文件的上传下载

热门文章

  1. 光纤收发器的工作原理以及使用方法
  2. 飞畅科技——视频光端机用光模块的选型详解
  3. [渝粤教育] 西南科技大学 货币银行学 在线考试复习资料(1)
  4. 【渝粤题库】广东开放大学 标准化专题讲座 形成性考核
  5. 浅谈LTE技术及实际应用方案
  6. discuz和php的区别,discuz和phpwind优劣比较
  7. 蓝桥杯基础模块06_1:定时器计数器
  8. suse linux 查看内存,Suse linux查询内存大小的指令是什么?
  9. java option请求_java – 如何说服spring 4.2将OPTIONS请求传递给控制器
  10. 中奖名单模板_春分纪中奖名单出炉~才艺主公用“树叶阵法”致敬率土!