自从神经网络模型在机器翻译任务(Machine Transoformer,MT)得到了应用,该任务得到了飞速的发展,机器翻译的质量也在不断地提高。尽管如此,机器翻译的质量也难以与人类译者相提并论。但是,有不少工作证明由人工介入机器翻译过程对机器翻译质量有明显的帮助。本文提出了一种新的交互式机器翻译模型(Interactive Machine Translation, IMT)来提升机器翻译质量,相比于过去单向的IMT模型在测试集上达到了新的state-of-the-art。

论文地址:
暂无.

引言

交互式机器翻译(Interactive Machine Translation, IMT)是在机器翻译的基础上,引入人工操作改善机器翻译产生的翻译错误,从而通过将修改信息反馈给机器翻译模型达到提升机器翻译质量的效果。但从早前的IMT方法来看,IMT存在着两类问题。1)机器翻译模型通常是以从左往右解码的形式翻译的,这导致因为错误积累而产生的严重错误会出现在翻译结果的最右边。而在人工审查时,错误的修改顺序也是从左往右的,这使得最致命的错误无法第一实际得到修改。2)由于机器翻译的模型参数固定,在面对类似语境下的句子会产生相同的错误,而早前的IMT很少有关注修改的历史记录去避免相同错误。因此,如何优先处理致命错误以及如何利用修改记录避免相同错误成为了IMT研究中的难点。

数据集

https://drive.google.com/uc?export=download&id=0B_bZck-ksdkpM25jRUN2X2UxMm8

实验方法

论文针对性地提出了一种名为纠正-记忆交互式机器翻译框架(correct-and-memorize framework for interactive machine translation, CAMIT)。其主要方法包括:
1、在获得修改信息后,同时从两端对翻译句子进行解码,更新翻译;
2、从修改记录中学习相关信息提升翻译结果质量:
a)词级别。使用修改记忆(revision memory)存储修改过的单词;
b)句子级别。使用在线学习(online learning)通过修改后的句子精调翻译模型。
其主要流程如图1所示

论文提出使用两种解码器,包括前向解码器和后向解码器,通过共享一个编码器的方式进行翻译。论文将这种解码方式称为序列双向解码(Sequential Bi-directional Decoding, BiDiR)。整体结构如图2所示。

再通过结合网格束搜索(grid beam search)的方式重新生成经过修改后的翻译结果。

论文提出使用两种方法从人机交互历史中学习修改信息。
1)修改记忆。使用一对键-值对去保存先前的修改记录。如图3所示。

通过存储并复制先前的修改记录,可以有效地避免相同翻译错误的产生。
2)在线学习。从先前修改过后的句子中继续训练翻译模型。通过这种方式,翻译模型本身可以通过学习正确的样本有效地解决相同的翻译错误。

实验细节

论文使用了RNNSearch和Transformer分别作为baseline模型。
论文实验基于NJUNMT-pytorch。代码地址:https://github.com/whr94621/NJUNMT-pytorch
论文分别理想和实际实验条件下进行了测试。

实验结果

论文分别报道了基于RNNSearch和Transformer的实验结果。




从图7中可以看出,CAMIT在实际实验中达到了最好的效果。

结论

论文提出了CAMIT的模型架构,同时在解码和再训练方面增强了人机交互的效率,充分利用了人机交互带来的信息增强翻译模型的效果。随着翻译技术的不断进步,翻译模型不仅仅依赖于先进的模型结构和优质的数据,也要依赖于大量的通过人机交互得到的交互信息去补强自身的翻译能力。在未来的发展中,人机交互、相互学习会成为机器翻译技术甚至时人工智能技术进步的关键。


扫码识别关注,获取更多新鲜论文解读

IJCAI 2019 | 通过交互提升机器翻译质量相关推荐

  1. IJCAI 2019 | 为推荐系统生成高质量的文本解释:基于互注意力机制的多任务学习模型...

    编者按:在个性化推荐系统中,如果能在提高推荐准确性的同时生成高质量的文本解释,将更容易获得用户的"芳心".然而,现有方法通常将两者分开优化,或只优化其中一个目标.为了同时兼顾二者, ...

  2. EMNLP2018论文解读 | 利用篇章信息提升机器翻译质量

    <使用篇章上下文提升 Transformer 翻译模型>是搜狗和清华大学天工研究院合作发表在 EMNLP 2018 的工作.机器翻译在搜狗公司的多个产品线得到广泛应用,包括搜狗英文搜索.搜 ...

  3. IJCAI 2019:中国团队录取论文超三成,北大、南大榜上有名

    作者 | 神经小姐姐 来源 | HyperAI超神经( ID: HyperAI ) [导读]AI 顶会 IJCAI 2019 已于 8 月 16 日圆满落幕.在连续 7 天的技术盛会中,与会者在工作坊 ...

  4. AAAI2023 | 基于课程学习的机器翻译质量评估去噪预训练

    每天给你送来NLP技术干货! 来自:南大NLP 点击这里进群->加入NLP交流群 01 研究动机 机器翻译质量评估(Quality Estimation, QE)任务指在没有参考译文的情况下,仅 ...

  5. IJCAI 2019 论文:中国团队占 38%,北大南大榜上有名

    By 超神经 场景描述:AI 顶会 IJCAI 2019 已于 8 月 16 日圆满落幕.在连续 7 天的技术盛会中,与会者在工作坊了解了 AI 技术在各个领域的应用场景,聆听了 AI 界前辈的主题演 ...

  6. IJCAI 2019精选论文一览,从底层到应用都有了

    作者 | 神经小姐姐来源 | HyperAI超神经(ID: HyperAI) 导语:为期一周的 IJCAI 第一天议程已经圆满结束.在前三天的工作坊上,全球各地人工智能行业人士,在此讨论 AI 在各个 ...

  7. STAR-GCN:用于推荐系统的图卷积神经网络 IJCAI 2019

    论文链接:https://www.ijcai.org/Proceedings/2019/0592.pdf 代码链接:https://github.com/jennyzhang0215/STAR-GCN ...

  8. python应用内部审计_基于大数据技术提升内部审计质量的路径

    龙源期刊网 http://www.qikan.com.cn 基于大数据技术提升内部审计质量的路径 作者:彭德锦 方智 来源:<中国内部审计> 2019 年第 07 期 [ 摘要 ] 随着大 ...

  9. 提升代码质量的方法:领域模型、设计原则、设计模式

    点击上方"服务端思维",选择"设为星标" 回复"669"获取独家整理的精选资料集 回复"加群"加入全国服务端高端社群「后 ...

最新文章

  1. Ubuntu下ssh免password登录安装
  2. 【枚举】【SPFA】Urozero Autumn Training Camp 2016 Day 5: NWERC-2016 Problem I. Iron and Coal
  3. 算法与数据结构之二分查找
  4. Catalysing food-tech: How the UK‘s EIT Food Accelerator Network can accelerate your journey
  5. jdk11换jdk8版本_在JDK 9(以及8)以及更高版本中,所有内容都可以作为一个流
  6. 20道做完信心嫉妒膨胀的前端测试题
  7. 程序员新年要实现的10个愿望
  8. SpringBoot实战总汇--详解
  9. EBU 4202数电 LAB2 答案与解析
  10. 计算机创新设计2大赛获奖作品3Done,走向3D创意世界——3Done创客设计比赛
  11. Lync 2013安装要点
  12. 由对称性知定点一定在x轴上_2021版江苏高考数学一轮复习讲义:第8章 第10节 圆锥曲线中的证明、探索性问题 Word版含答案...
  13. mysql增删查改------插入与查询数据
  14. MIT6.828 Part B: Copy-on-Write Fork
  15. 恢复出厂设置和格式化SD卡
  16. 民间秘术——镇鬼送神
  17. redis工具 :springboot使用redis
  18. Linux网卡丢包分类整理(1)——网卡篇
  19. 交叉引用跳转不到后面_参考文献如何正确标注引用而不会变红?
  20. python打开图片文件-Python怎么读取图片

热门文章

  1. 志愿者服务系统php,志愿者服务系统
  2. 转载自杭电大牛的博客 线段树 绝对经典
  3. 驼峰命名法(camelCase)
  4. 客户信息的收集办法有哪些 如何进行客户信息管理
  5. 月光女神Sarah Brightman 莎拉·布莱特曼视频集锦
  6. 看看电销外呼系统排行,选择哪家外呼公司靠谱?
  7. cv2.warpAffine 参数详解
  8. 如何规划2023高企申报?
  9. Java实现word文档转换为pdf,jodconverter
  10. 华为 畅享5 android,华为畅享5手机评测:青春就要这样长待!