【论文泛读161】低资源神经机器翻译调查
贴一下汇总贴:论文阅读记录
论文链接:《A Survey on Low-Resource Neural Machine Translation》
一、摘要
神经方法在机器翻译方面已经达到了最先进的准确性,但由于收集大规模并行数据的成本很高。因此,针对并行数据非常有限的神经机器翻译 (NMT) 进行了大量研究,即低资源设置。在本文中,我们对低资源 NMT 进行了调查,并根据它们使用的辅助数据将相关作品分为三类:(1)利用源语言和/或目标语言的单语数据,(2)利用辅助语言的数据,以及(3)利用多模态数据。我们希望我们的调查能够帮助研究人员更好地理解这个领域,启发他们设计更好的算法,帮助行业从业者为他们的应用选择合适的算法。
二、结论
在本文中,我们提供了低资源NMT的文献综述。不同的技术根据辅助数据的类型进行分类:来自源/目标语言的单语数据、来自其他语言的数据和多模态数据。我们希望这项调查能够帮助读者了解该领域,并为他们的应用选择合适的技术。
尽管在调查的低资源NMT上已经做了很多努力,但仍然存在一些悬而未决的问题:
- 在多语言和迁移学习中,使用多少辅助语言和哪些辅助语言尚不清楚。LANGRANK [Lin等,2019]训练模型选择一种辅助语言。直观来看,使用多种辅助语言可能优于只使用一种,值得探索。
- 培训包含多种richresource语言的多语言模型成本很高。将多语言模型转换为看不见的低资源语言是一种有效的方法,挑战在于如何处理看不见的语言的新词汇。
- 如何有效地选择中枢语言很重要,但还没有得到很好的研究。
- 双语词典既有用又容易得到。目前的工作主要集中在利用双语词典对源语言和目标语言进行分析。在多语言和迁移培训中,也可以在低资源语言和辅助语言之间使用双语词典。
- 就多模态而言,语音数据有潜力提升NMT,但这样的研究是有限的。例如,有些语言在语音上相近,但在文字上不同(如塔吉克语和波斯语)。
- 当前的方法已经对低资源语言做出了显著的改进,这些语言要么具有足够的单语数据,要么与一些资源丰富的语言相关。不幸的是,一些低资源语言(例如,Adyghe和Xibe)的单语数据非常有限,并且远离资源丰富的语言。如何处理这类语言具有挑战性,值得进一步研究。
三、概述
利用辅助语言数据的工作概述:
人类语言在几个方面有相似之处;
- (1)同一/相似语系或类型的语言可能有相似的书写文字、单词词汇、词序和语法
- (2)语言可以相互影响,来自另一种语言的外来词可以照原样融入一种语言(称为外来词)。
多语言数据利用到低资源NMT的方法可以分为几种类型:
- (1)多语言训练,其中低资源语言对在一个模型中与其他语言对联合训练
- (2)迁移学习[Zoph等人,2016],其中通常包含丰富资源语言对的父NMT模型首先被训练,然后在低资源语言对上被微调
- (3)枢轴翻译
【论文泛读161】低资源神经机器翻译调查相关推荐
- 【论文泛读】 Deep Learning 论文合集
[论文泛读] Deep Learning 论文合集 文章目录 [论文泛读] Deep Learning 论文合集 Batch Normalization: Accelerating Deep Netw ...
- 【论文泛读】 Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift
[论文泛读] Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift ...
- 【论文泛读】 ResNet:深度残差网络
[论文泛读] ResNet:深度残差网络 文章目录 [论文泛读] ResNet:深度残差网络 摘要 Abstract 介绍 Introduction 残差结构的提出 残差结构的一些问题 深度残差网络 ...
- 【论文泛读】4. 机器翻译:Neural Machine Translation by Jointly Learning to Align and Translate
更新进度:■■■■■■■■■■■■■■■■■■■■■■■|100% 理论上一周更一个经典论文 刚刚开始学习,写的不好,有错误麻烦大家留言给我啦 这位博主的笔记短小精炼,爱了爱了:点击跳转 目录 准备 ...
- 【工大SCIR】AAAI20 基于反向翻译和元学习的低资源神经语义解析
论文名称:Neural Semantic Parsing in Low-Resource Settings with Back-Translation and Meta-Learning 论文作者:孙 ...
- 论文浅尝 | 用于低资源条件下知识图谱补全的关系对抗网络
论文作者: 邓淑敏,浙江大学在读博士,研究方向为低资源条件下知识图谱自动化构建关键技术研究. Ningyu Zhang, Shumin Deng, Zhanlin Sun, Jiaoyan Chen, ...
- 云计算中微服务相关论文泛读
以下是最近对于云计算中微服务系统调度论文的泛读,欢迎一起探讨问题,如需要论文请私聊. Amoeba: QoS-Awareness and Reduced Resource Usage of Micro ...
- 论文浅尝 - EMNLP2020 | 低资源跨语言实体链接中的设计挑战
论文笔记整理:谭亦鸣,东南大学博士. 来源:EMNLP 2020 链接:https://arxiv.org/pdf/2005.00692.pdf 1.背景介绍 跨语言实体链接(XEL)旨在将任一非英语 ...
- 方面级情感分析论文泛读02:Syntax-Aware Aspect-Level Sentiment Classification with Proximity-Weighted Convolution
提示1:原文链接 提示1:代码链接 文章目录 前言 一.论文信息 二.笔记要点 2.1. 目前存在的问题 2.2. 目前解决方法: 2.3.本文方法和创新点 2.4. 实验效果 2.5. 模型结构 2 ...
最新文章
- wordpress 内网安装插件_Wordpress安装后必做的优化操作
- Nessus更新到8.6.0
- 大专python工资有多高-最新 | 2019年Python工程师的平均薪资是多少?
- Just another board game 博弈-vector套vector
- 推荐阅读《赢在下班后》
- java关闭通道_调用map方法后,Java 7文件通道未正确关闭
- python多进程用不了_python 多进程,实际上都没有运行,sleep
- 俄罗斯方块c语言代码 vc 6.0,VC++6.0俄罗斯方块代码
- Android mes系统源码,基于Android的MES监控系统设计与开发
- Android 鼠标键值列表,安卓键盘键值对照表
- 微信公众号文章编辑的几点经验
- java jbutton数组_java-JButton需要显示图像数组
- 短视频制作团队的工作流程分为5个步骤
- pkg-php,node打包工具Pkg(详细教程)
- pyqt5中sender方法介绍_PyQt5学习记录(二):Event sender
- 清华镜像源安装Pytorch
- SQL server和MySQL编号自动生成
- python3 的 md5加密
- ubuntu 18.04初安装
- 最佳下载酷壁纸的网站