自然语言处理总复习(九)—— 机器翻译

  • 一、概述
    • 1. 定义
    • 2. 分类
    • 3. 发展历史
  • 二、机器翻译的技术路线
      • 实用化的策略
    • (一)基于规则
      • 1. 直接式翻译
      • 2. 转换式翻译
        • (1)通过句法分析得到某种内部的结果化表达
        • (2)变换句型
        • (3)目标语言的形态生成
    • (二)基于实例
      • 基于实例的机器翻译问题
    • (三)基于统计
      • 1. 基于统计的原因
      • 2. 要素
        • (1)数据
        • (2)学习
        • (3)搜索
      • 3. 例子
      • 4. 基于词的统计机器翻译(IBM Models)
        • (1)统计机器翻译系统
        • (2)贝叶斯规则
        • (3)统计机器学习的三个问题
          • 1)语言模型
            • a. 经典的语言模型 —— N-Grams模型
          • 1)翻译模型
  • 三、机器翻译的评价
  • 四、利用互联网获取双语预料

一、概述

1. 定义

用计算机实现从一种自然语言(源语言/source language)到另一种自然语言(目标语言/target language)文本的翻译。

2. 分类

  • Human Assisted Machine Translation (HAMT) 人助机译
  • Computer Aided Translation (CAT) 机助人译
  • Fully Automatic Machine Translation (FAMT) 全自动机器翻译

3. 发展历史

二、机器翻译的技术路线

  • 基于规则的机器翻译 —— 基于理性主义的方法;
  • 实例统计的机器翻译 ——经验主义的方法或者基于语料库的方法;

但是这种说法不是很确切。因为语料库已经用于所有的机器翻译开发中。只不过是直接应用还是间接应用。

实用化的策略

(一)基于规则

1. 直接式翻译

进行词汇的更换

2. 转换式翻译

(1)通过句法分析得到某种内部的结果化表达

(2)变换句型

(3)目标语言的形态生成

(二)基于实例

基于实例的机器翻译问题

(三)基于统计

1. 基于统计的原因

2. 要素

(1)数据

大规模的双语语料库 (比如107–109 词次) ,它用于训练统计翻译模型。大规模的单语数据库,它用于训练语言模型。

(2)学习

模型的学习(也叫训练),模型包括系统架构及其各项参数。在系统架构已经确定下,利用以上数据可以自动学习翻译模型的各项参数。

(3)搜索

翻译过程 (也叫解码过程或者搜索过程)。对一个新的句子,利用学习得到的模型产生多个候选句子,并且利用一种搜索方法,求得一个最好的译文。

3. 例子





4. 基于词的统计机器翻译(IBM Models)

(1)统计机器翻译系统

(2)贝叶斯规则

(3)统计机器学习的三个问题

1)语言模型
a. 经典的语言模型 —— N-Grams模型

模型目标: 选择哪一个句子更像一个句子

He is on the soccer field
He is in the soccer fieldIs table the on cup the
The cup is on the table

模型方法:

1)翻译模型

三、机器翻译的评价



四、利用互联网获取双语预料





自然语言处理总复习(九)—— 机器翻译相关推荐

  1. 自然语言处理总复习(十一)—— 信息检索

    自然语言处理总复习(十一)-- 信息检索 一.概述 1. 概念 2. IR系统的体系结构 (1)系统要素 (2)Web搜索 3. IR的历史 4. IR的困难 5. IR相关领域 6. 主要的搜索引擎 ...

  2. 自然语言处理总复习(六)—— 词汇获取

    自然语言处理总复习(六)-- 词汇获取 一.介绍 (一)相关概念和意义 1. 总体目标 2. 问题和挑战 3. 四个部分 (二)词汇获取的评价方法 1. 评价方法介绍 2. 该评价方法的优点 2. 其 ...

  3. 【软件工程习题(含参考答案)】总复习

    60多道题总复习题(含参考答案),希望对大家的软件工程期末复习有帮助,你值得收藏!(#^.^#) ☞原文:[软件工程-精选习题集(含参考答案)]总复习-60道简答题 第一题:名词解释 1.极限编程 ( ...

  4. Oracle笔记之期末总复习

    Oracle期末总复习 第一章 truncate table 与 delete 区别 (一)关于truncate table 与 delete 区别 第二章 表连接 (一)多个表的连接 (二)外连接 ...

  5. 深度学习与自然语言处理教程(6) - 神经机器翻译、seq2seq与注意力机制(NLP通关指南·完结)

    作者:韩信子@ShowMeAI 教程地址:https://www.showmeai.tech/tutorials/36 本文地址:https://www.showmeai.tech/article-d ...

  6. 初中计算机知识点结构图,初中信息技术总复习第一课 构建知识框架

    (一)设计思路: 本节课的教学内容根据课标和中考的要求,在教师的帮助下,引导学生梳理教材,构建知识框架.通过分工协作.探讨交流.归纳总结,能够构建三年来学过的知识框架,以便为后期的专项复习打下基础.在 ...

  7. Java总复习(二)

    总复习 1.抽象类和接口 2.异常处理 3.Object类中的方法 4.类加载 5.String类 1.抽象类和接口 接口和类是并列的结构 抽象类 接口 区别 abstract修饰 interface ...

  8. CISSP考前总复习

    CISSP考前总复习 转载于:https://blog.51cto.com/victorlau/59404

  9. 高等数学第七版-习题解答:总复习3

    习题解答:总复习3 18*. 已知f′′(x)f''(x)f′′(x)存在,证明 lim⁡x→x0f(x0+h)+f(x0−h)−2f(x0)h2=f′′(x0)\lim_{x \rightarrow ...

最新文章

  1. python 使用小知识总结(持续更新ing)
  2. oracle定时加载文件,采用sqlldr定时将文本文件加载进入数据库
  3. Query Layer介绍
  4. 土是独体字结构吗_毛笔楷书基础练习独体字部首的写法(左部)4
  5. realme Pad通过认证:搭载7100mAh大容量电池
  6. 十、Linux网络管理续集
  7. 在XCode工程中创建bundle文件
  8. 主进程退出后子进程还会存在吗?_[docker]从一个实例,一窥docker进程管理
  9. C++按位异或运算符
  10. oppoa1计算机记录删了怎么办,捡到oppoA1怎么解锁
  11. 用Excel拟合imu温度趋势线
  12. VB 串口编程 开发心得
  13. java 8 API 开发文档中文
  14. [转帖]CAPCOM的详细历史
  15. 如何给纸壳箱上装,#ps修图p图抠图视频教程小白入门基础课程
  16. 记录微信支付解密错误Tag mismatch
  17. IDEA重置maven配置的问题解决
  18. 【51单片机实验笔记】1. LED的初级控制
  19. (复现)CVE-2021-21985 Vmware vcenter远程代码执行RCE
  20. 华为服务器批量修改bmc地址,华为服务器批量修改bmc地址

热门文章

  1. Redis记录:Invalid argument during startup: Failed to open the .conf file
  2. 技术科普:虚拟现实系统
  3. 芒果改进YOLOv5系列:原创结合Conv2Formers改进结构,Transformer 风格的卷积网络视觉基线模型,超越ConvNeXt结构
  4. iOS开发-自定义相机(仿微信)拍照、视频录制
  5. 1253:抓住那头牛
  6. 科技 人文_以人文个性化应对认识论的不公正
  7. 如何申请开通个人邮箱?
  8. 第三届全国中医药院校大学生程序设计竞赛 (正式赛)
  9. 4星+|《赋能:打造应对不确定性的敏捷团队》:海豹突击队学习伊拉克“基地”组织的组织形式并且最终战胜对方的故事...
  10. 赋能 打造应对不确定性的敏捷团队 pdf_协会成长课堂|《赋能》:打造应对不确定性的敏捷团队...