自然语言处理总复习(九)—— 机器翻译
自然语言处理总复习(九)—— 机器翻译
- 一、概述
- 1. 定义
- 2. 分类
- 3. 发展历史
- 二、机器翻译的技术路线
- 实用化的策略
- (一)基于规则
- 1. 直接式翻译
- 2. 转换式翻译
- (1)通过句法分析得到某种内部的结果化表达
- (2)变换句型
- (3)目标语言的形态生成
- (二)基于实例
- 基于实例的机器翻译问题
- (三)基于统计
- 1. 基于统计的原因
- 2. 要素
- (1)数据
- (2)学习
- (3)搜索
- 3. 例子
- 4. 基于词的统计机器翻译(IBM Models)
- (1)统计机器翻译系统
- (2)贝叶斯规则
- (3)统计机器学习的三个问题
- 1)语言模型
- a. 经典的语言模型 —— N-Grams模型
- 1)翻译模型
- 三、机器翻译的评价
- 四、利用互联网获取双语预料
一、概述
1. 定义
用计算机实现从一种自然语言(源语言/source language)到另一种自然语言(目标语言/target language)文本的翻译。
2. 分类
- Human Assisted Machine Translation (HAMT) 人助机译
- Computer Aided Translation (CAT) 机助人译
- Fully Automatic Machine Translation (FAMT) 全自动机器翻译
3. 发展历史
二、机器翻译的技术路线
- 基于规则的机器翻译 —— 基于理性主义的方法;
- 于实例和统计的机器翻译 ——经验主义的方法或者基于语料库的方法;
但是这种说法不是很确切。因为语料库已经用于所有的机器翻译开发中。只不过是直接应用还是间接应用。
实用化的策略
(一)基于规则
1. 直接式翻译
进行词汇的更换
2. 转换式翻译
(1)通过句法分析得到某种内部的结果化表达
(2)变换句型
(3)目标语言的形态生成
(二)基于实例
基于实例的机器翻译问题
(三)基于统计
1. 基于统计的原因
2. 要素
(1)数据
大规模的双语语料库 (比如107–109 词次) ,它用于训练统计翻译模型。大规模的单语数据库,它用于训练语言模型。
(2)学习
模型的学习(也叫训练),模型包括系统架构及其各项参数。在系统架构已经确定下,利用以上数据可以自动学习翻译模型的各项参数。
(3)搜索
翻译过程 (也叫解码过程或者搜索过程)。对一个新的句子,利用学习得到的模型产生多个候选句子,并且利用一种搜索方法,求得一个最好的译文。
3. 例子
4. 基于词的统计机器翻译(IBM Models)
(1)统计机器翻译系统
(2)贝叶斯规则
(3)统计机器学习的三个问题
1)语言模型
a. 经典的语言模型 —— N-Grams模型
模型目标: 选择哪一个句子更像一个句子
He is on the soccer field
He is in the soccer fieldIs table the on cup the
The cup is on the table
模型方法:
1)翻译模型
三、机器翻译的评价
四、利用互联网获取双语预料
自然语言处理总复习(九)—— 机器翻译相关推荐
- 自然语言处理总复习(十一)—— 信息检索
自然语言处理总复习(十一)-- 信息检索 一.概述 1. 概念 2. IR系统的体系结构 (1)系统要素 (2)Web搜索 3. IR的历史 4. IR的困难 5. IR相关领域 6. 主要的搜索引擎 ...
- 自然语言处理总复习(六)—— 词汇获取
自然语言处理总复习(六)-- 词汇获取 一.介绍 (一)相关概念和意义 1. 总体目标 2. 问题和挑战 3. 四个部分 (二)词汇获取的评价方法 1. 评价方法介绍 2. 该评价方法的优点 2. 其 ...
- 【软件工程习题(含参考答案)】总复习
60多道题总复习题(含参考答案),希望对大家的软件工程期末复习有帮助,你值得收藏!(#^.^#) ☞原文:[软件工程-精选习题集(含参考答案)]总复习-60道简答题 第一题:名词解释 1.极限编程 ( ...
- Oracle笔记之期末总复习
Oracle期末总复习 第一章 truncate table 与 delete 区别 (一)关于truncate table 与 delete 区别 第二章 表连接 (一)多个表的连接 (二)外连接 ...
- 深度学习与自然语言处理教程(6) - 神经机器翻译、seq2seq与注意力机制(NLP通关指南·完结)
作者:韩信子@ShowMeAI 教程地址:https://www.showmeai.tech/tutorials/36 本文地址:https://www.showmeai.tech/article-d ...
- 初中计算机知识点结构图,初中信息技术总复习第一课 构建知识框架
(一)设计思路: 本节课的教学内容根据课标和中考的要求,在教师的帮助下,引导学生梳理教材,构建知识框架.通过分工协作.探讨交流.归纳总结,能够构建三年来学过的知识框架,以便为后期的专项复习打下基础.在 ...
- Java总复习(二)
总复习 1.抽象类和接口 2.异常处理 3.Object类中的方法 4.类加载 5.String类 1.抽象类和接口 接口和类是并列的结构 抽象类 接口 区别 abstract修饰 interface ...
- CISSP考前总复习
CISSP考前总复习 转载于:https://blog.51cto.com/victorlau/59404
- 高等数学第七版-习题解答:总复习3
习题解答:总复习3 18*. 已知f′′(x)f''(x)f′′(x)存在,证明 limx→x0f(x0+h)+f(x0−h)−2f(x0)h2=f′′(x0)\lim_{x \rightarrow ...
最新文章
- python 使用小知识总结(持续更新ing)
- oracle定时加载文件,采用sqlldr定时将文本文件加载进入数据库
- Query Layer介绍
- 土是独体字结构吗_毛笔楷书基础练习独体字部首的写法(左部)4
- realme Pad通过认证:搭载7100mAh大容量电池
- 十、Linux网络管理续集
- 在XCode工程中创建bundle文件
- 主进程退出后子进程还会存在吗?_[docker]从一个实例,一窥docker进程管理
- C++按位异或运算符
- oppoa1计算机记录删了怎么办,捡到oppoA1怎么解锁
- 用Excel拟合imu温度趋势线
- VB 串口编程 开发心得
- java 8 API 开发文档中文
- [转帖]CAPCOM的详细历史
- 如何给纸壳箱上装,#ps修图p图抠图视频教程小白入门基础课程
- 记录微信支付解密错误Tag mismatch
- IDEA重置maven配置的问题解决
- 【51单片机实验笔记】1. LED的初级控制
- (复现)CVE-2021-21985 Vmware vcenter远程代码执行RCE
- 华为服务器批量修改bmc地址,华为服务器批量修改bmc地址
热门文章
- Redis记录:Invalid argument during startup: Failed to open the .conf file
- 技术科普:虚拟现实系统
- 芒果改进YOLOv5系列:原创结合Conv2Formers改进结构,Transformer 风格的卷积网络视觉基线模型,超越ConvNeXt结构
- iOS开发-自定义相机(仿微信)拍照、视频录制
- 1253:抓住那头牛
- 科技 人文_以人文个性化应对认识论的不公正
- 如何申请开通个人邮箱?
- 第三届全国中医药院校大学生程序设计竞赛 (正式赛)
- 4星+|《赋能:打造应对不确定性的敏捷团队》:海豹突击队学习伊拉克“基地”组织的组织形式并且最终战胜对方的故事...
- 赋能 打造应对不确定性的敏捷团队 pdf_协会成长课堂|《赋能》:打造应对不确定性的敏捷团队...