贴一下汇总贴:论文阅读记录

论文链接:《A Survey on Low-Resource Neural Machine Translation》

一、摘要

神经方法在机器翻译方面已经达到了最先进的准确性,但由于收集大规模并行数据的成本很高。因此,针对并行数据非常有限的神经机器翻译 (NMT) 进行了大量研究,即低资源设置。在本文中,我们对低资源 NMT 进行了调查,并根据它们使用的辅助数据将相关作品分为三类:(1)利用源语言和/或目标语言的单语数据,(2)利用辅助语言的数据,以及(3)利用多模态数据。我们希望我们的调查能够帮助研究人员更好地理解这个领域,启发他们设计更好的算法,帮助行业从业者为他们的应用选择合适的算法。

二、结论

在本文中,我们提供了低资源NMT的文献综述。不同的技术根据辅助数据的类型进行分类:来自源/目标语言的单语数据、来自其他语言的数据和多模态数据。我们希望这项调查能够帮助读者了解该领域,并为他们的应用选择合适的技术。

尽管在调查的低资源NMT上已经做了很多努力,但仍然存在一些悬而未决的问题:

  • 在多语言和迁移学习中,使用多少辅助语言和哪些辅助语言尚不清楚。LANGRANK [Lin等,2019]训练模型选择一种辅助语言。直观来看,使用多种辅助语言可能优于只使用一种,值得探索。
  • 培训包含多种richresource语言的多语言模型成本很高。将多语言模型转换为看不见的低资源语言是一种有效的方法,挑战在于如何处理看不见的语言的新词汇。
  • 如何有效地选择中枢语言很重要,但还没有得到很好的研究。
  • 双语词典既有用又容易得到。目前的工作主要集中在利用双语词典对源语言和目标语言进行分析。在多语言和迁移培训中,也可以在低资源语言和辅助语言之间使用双语词典。
  • 就多模态而言,语音数据有潜力提升NMT,但这样的研究是有限的。例如,有些语言在语音上相近,但在文字上不同(如塔吉克语和波斯语)。
  • 当前的方法已经对低资源语言做出了显著的改进,这些语言要么具有足够的单语数据,要么与一些资源丰富的语言相关。不幸的是,一些低资源语言(例如,Adyghe和Xibe)的单语数据非常有限,并且远离资源丰富的语言。如何处理这类语言具有挑战性,值得进一步研究。

三、概述

利用辅助语言数据的工作概述:

人类语言在几个方面有相似之处;

  • (1)同一/相似语系或类型的语言可能有相似的书写文字、单词词汇、词序和语法
  • (2)语言可以相互影响,来自另一种语言的外来词可以照原样融入一种语言(称为外来词)。

多语言数据利用到低资源NMT的方法可以分为几种类型:

  • (1)多语言训练,其中低资源语言对在一个模型中与其他语言对联合训练
  • (2)迁移学习[Zoph等人,2016],其中通常包含丰富资源语言对的父NMT模型首先被训练,然后在低资源语言对上被微调
  • (3)枢轴翻译

【论文泛读161】低资源神经机器翻译调查相关推荐

  1. 【论文泛读】 Deep Learning 论文合集

    [论文泛读] Deep Learning 论文合集 文章目录 [论文泛读] Deep Learning 论文合集 Batch Normalization: Accelerating Deep Netw ...

  2. 【论文泛读】 Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift

    [论文泛读] Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift ...

  3. 【论文泛读】 ResNet:深度残差网络

    [论文泛读] ResNet:深度残差网络 文章目录 [论文泛读] ResNet:深度残差网络 摘要 Abstract 介绍 Introduction 残差结构的提出 残差结构的一些问题 深度残差网络 ...

  4. 【论文泛读】4. 机器翻译:Neural Machine Translation by Jointly Learning to Align and Translate

    更新进度:■■■■■■■■■■■■■■■■■■■■■■■|100% 理论上一周更一个经典论文 刚刚开始学习,写的不好,有错误麻烦大家留言给我啦 这位博主的笔记短小精炼,爱了爱了:点击跳转 目录 准备 ...

  5. 【工大SCIR】AAAI20 基于反向翻译和元学习的低资源神经语义解析

    论文名称:Neural Semantic Parsing in Low-Resource Settings with Back-Translation and Meta-Learning 论文作者:孙 ...

  6. 论文浅尝 | 用于低资源条件下知识图谱补全的关系对抗网络

    论文作者: 邓淑敏,浙江大学在读博士,研究方向为低资源条件下知识图谱自动化构建关键技术研究. Ningyu Zhang, Shumin Deng, Zhanlin Sun, Jiaoyan Chen, ...

  7. 云计算中微服务相关论文泛读

    以下是最近对于云计算中微服务系统调度论文的泛读,欢迎一起探讨问题,如需要论文请私聊. Amoeba: QoS-Awareness and Reduced Resource Usage of Micro ...

  8. 论文浅尝 - EMNLP2020 | 低资源跨语言实体链接中的设计挑战

    论文笔记整理:谭亦鸣,东南大学博士. 来源:EMNLP 2020 链接:https://arxiv.org/pdf/2005.00692.pdf 1.背景介绍 跨语言实体链接(XEL)旨在将任一非英语 ...

  9. 方面级情感分析论文泛读02:Syntax-Aware Aspect-Level Sentiment Classification with Proximity-Weighted Convolution

    提示1:原文链接 提示1:代码链接 文章目录 前言 一.论文信息 二.笔记要点 2.1. 目前存在的问题 2.2. 目前解决方法: 2.3.本文方法和创新点 2.4. 实验效果 2.5. 模型结构 2 ...

最新文章

  1. wordpress 内网安装插件_Wordpress安装后必做的优化操作
  2. Nessus更新到8.6.0
  3. 大专python工资有多高-最新 | 2019年Python工程师的平均薪资是多少?
  4. Just another board game 博弈-vector套vector
  5. 推荐阅读《赢在下班后》
  6. java关闭通道_调用map方法后,Java 7文件通道未正确关闭
  7. python多进程用不了_python 多进程,实际上都没有运行,sleep
  8. 俄罗斯方块c语言代码 vc 6.0,VC++6.0俄罗斯方块代码
  9. Android mes系统源码,基于Android的MES监控系统设计与开发
  10. Android 鼠标键值列表,安卓键盘键值对照表
  11. 微信公众号文章编辑的几点经验
  12. java jbutton数组_java-JButton需要显示图像数组
  13. 短视频制作团队的工作流程分为5个步骤
  14. pkg-php,node打包工具Pkg(详细教程)
  15. pyqt5中sender方法介绍_PyQt5学习记录(二):Event sender
  16. 清华镜像源安装Pytorch
  17. SQL server和MySQL编号自动生成
  18. python3 的 md5加密
  19. ubuntu 18.04初安装
  20. 最佳下载酷壁纸的网站

热门文章

  1. 融云 IM SDK 发送语音消息
  2. Tree后台实现代码以及运行结果
  3. 二叉树的高度和深度定义、回溯(个人学习记录)
  4. profile参数详解
  5. 爬取安居客租房信息,主要是获取电话号码
  6. 基于RFM模型的客户价值分析
  7. Linux下矢量字库应用
  8. (附源码)计算机毕业设计SSM基于的智慧校园安防综合管理系统
  9. RTOS 系统篇-统计任务的 CPU 使用率
  10. IT行业概念、岗位、职能