原文来源:arXiv

作者:Paul Michel、Graham Neubig

「雷克世界」编译:嗯~是阿童木呀

导语:现如今,随着人工智能的发展,机器翻译在一定程度上取得了很大的进展,但是大家都知道,语言的产生取决于演讲者或作者,它可能会反映诸如工作、性别、角色、方言等个人特征,也可能涉及诸如技术、法律、宗教等将要谈及的话题。而对于当前的神经机器翻译(Neural Machine Translation,NMT)系统来说,其中不包含关于演讲者的任何明确信息,从而这迫使模型隐式地学习这些特征。最近,美国卡耐基梅隆大学(Carnegie Mellon University)的Paul Michel和Graham Neubig教授提出了一种新型的自适应技术,能够显著提高神经机器翻译的精确度,并能够在目标文本中更好地反映演讲者的特征,从而实现“个性化神经机器翻译”。

在世界上,可以说每个人都会说或会写自己的母语,但受很多因素的影响,他们所倾向于谈论的内容大多是有关他们的性别、社会地位或地理来源。当试图执行机器翻译(Machine TranslationMT)的时候,这些变化对系统应该如何执行翻译有着重大影响,但是这并不能被标准的“一体适用”(one-size-fits-all)模型很好地捕捉到。在本文中,我们提出了一种简单且参数有效的自适应技术,它只需要直接或通过因式近似(factored approximation)来将输出softmax的偏差适应于MT系统的每个特定用户。用三种语言进行TED演讲的实验结果表明了翻译精确度的提高,并能够在目标文本中更好地反映演讲者的特征。

一般来说,语言的产生取决于演讲者或作者,它是否反映了个人特征(例如工作、性别、角色、方言)或倾向于讨论的话题(例如技术、法律、宗教)。当前的神经机器翻译(Neural Machine Translation,NMT)系统不包含关于演讲者的任何明确信息,而这迫使模型隐式地学习这些特征。这是一种用于捕捉个人间差异的相对来说比较困难和间接的方式,在某些情况下,如果没有外部上下文,这是不可能实现的(见表1,Mirkin等人于2015年提出)。

表1:样本展示,其中演讲者的信息会影响英语-法语的翻译

在最近的一些研究中包含了关于作者的个人信息,如个性(Mirkin等人于2015年提出)、性别(Rabinovich等人于2017年提出)或礼貌文雅性(Sennrich等人于2016年提出),但这些方法只能处理哪些特征具有明确标签的现象。我们的研究调查了我们该如何有效地对与说话者相关的变化进行建模以改进NMT模型的性能表现。

特别地,考虑到对于任何特定的演讲者来说都只提供少量的训练样本,所以我们有意向对我们的NMT系统加以改进。我们提议将这个任务作为一个域自适应问题加以处理,其中,里面包含了大量的域,而每个域中拥有非常少量的数据,在这样的环境中,我们可以期望域自适应的传统方法能够将所有模型参数调整为次优。我们所提出的解决方案涉及将演讲者的特定变化建模为softmax层中的附加偏差向量,在其中,我们可以直接学习这种偏差,或者通过一个将每个用户视为几个原型偏向量混合的因式分解模型来进行学习偏差。

图1:我们针对softmax层的不同自适应模型的图形表示 从上到下依次为:基本softmax、完全偏差softmax、事实偏差softmax

为了更好地进行实验,我们构建了一个新的带有演讲者注释的TED演讲数据集(SATED),用以对我们所提出的方法加以验证。自适应实验结果表明,将演讲者信息明确地纳入到模型中可以提高翻译质量和演讲者特征的精确度。

可以这样说,用于MT的域自适应技术通常依赖于数据选择(Moore和Lewis于2010年、Li等人于2010年、Chen等人于2017年、Wang等人于2017年提出)、调优(Luong和Manning于2015年、Miceli Barone等人于2017年提出),或者将域名标签添加到NMT输入中(Chu等人于2017年提出)。除此之外,还有一些方法可以对测试集中每个句子的模型参数进行微调(Li等人于2016年提出),以及对根据人类后期编辑进行自适应的方法(Turchi等人于2017年提出)。尽管这些方法遵循我们的基线自适应策略来调整所有参数。对于迁移学习,也有部分更新方法,尽管语言对之间的迁移任务非常不同(Zoph等人于2016年提出)。

图2:我们连续的n-gram模型的演讲者分类精确度。

Mima等人(于1997年进行)的开创性研究引入了多种方法以便将各种关于演讲者角色、等级、性别和对话域的信息整合到基于规则的MT系统中。在数据驱动系统的上下文中,以往的研究将特定的特征(如礼貌文雅性或性别)视为域自适应模型中的“域”,并应用了自适应技术,例如在温和的礼貌中加入“礼貌标签”(Sennrich等人于2016年提出),或者做数据选择以创建用于训练的性别特定语料库(Rabinovich等人于2017年提出)。可以说,上述方法与我们的方法大有不同,不同之处在于它们需要明确的信号(性别、礼貌等等),它们需要标记(手动或自动),并且还要处理有限数量的“域”(≈2),而我们的方法需要对演讲者进行注释,并且必须将其扩展到更多的“域”中(≈1,800)。

在本文中,我们已经解释并激发了在NMT系统中对演讲者进行明确建模的挑战,然后提出了两个模型以参数有效的方式来实现这一点。我们把这个问题作为一种极端的域自适应形式,并且表明,即使在自适应一小部分参数(softmax偏差,小于所有参数的0.1%)时,也能够使得该模型通过翻译更好地反映个人语言的变化。

我们通过进一步的实验结果表明,特定于任何人的参数数量可以减少到10个,而仍然能够保留比某些语言对的基线更好的分数,从而使其在具有潜在数百万不同用户的实际应用中加以应用。

相关代码资源

该存储库包含《用于个性化神经机器翻译的极端自适应技术》论文中所涉及的相关代码。

数据

本文中所使用的数据是SATED数据集,可点击链接查看。

此外,论文中所涉及的附加实验是在来自于论文《个性化机器翻译:保留原作者特征》中性别注释的europarl语料库,可点击链接查看。

你可以通过运行下面的代码下载所有数据:

# SATED

wget http://www.cs.cmu.edu/~pmichel1/hosting/sated-release-0.9.0.tar.gz

tar xvzf sated-release-0.9.0.tar.gz

# Europarl

https://www.kaggle.com/ellarabi/europarl-annotated-for-speaker-gender-and-age/downloads/europarl-annotated-for-speaker-gender-and-age.zip

unzip europarl-annotated-for-speaker-gender-and-age.zip

要求

该项目是用Dynet进行编码的。它应该用的是2.0.3版本,你可以通过运行下面的代码安装该版本:

pip install dynet==2.0.3

原文链接:https://arxiv.org/pdf/1805.01817.pdf

未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

卡耐基梅隆大学提出新型「自适应」技术,可提高「个性化神经机器翻译」质量...相关推荐

  1. 又一恐怖技能!卡耐基梅隆大学发布超强智能体,炸翻科研圈

    文 | 小戏 一名普通博士生的工作日常是什么?上网查查资料?读读文献?根据各种完善工具的 API 或者文档写两行代码,然后再输给实验机器完成高精度的实验?仔细思考一下我们这些所谓"科研工作者 ...

  2. 【专业认知】留学卡耐基梅隆大学计算机硕士

    2023.2.17 一. 瞿李傲学长分享--本科经验分享 1 简介 大数据18级 GPA:3.82/4.0,排名:1/26 数学与应用数学双学位 卡耐基梅隆大学硕士,专业为电子及计算工程(Electr ...

  3. 卡耐基梅隆大学计算机金融专业,卡耐基梅隆大学计算机金融硕士申请要求及专业优势...

    卡耐基梅隆大学计算机金融硕士申请要求 背景要求:要求申请者本科毕业,拥有数学.计算机科学.工程或经济学专业背景,修读过至少2个学期的微分方程和积分课程,要求学生拥有强大的数学和概率论背景,熟练掌握计算 ...

  4. 卡耐基梅隆大学计算机工程录取率,卡内基梅隆大学2020新生数据出炉!计算机学院录取率堪比藤校...

    提起CMU,想必各位小伙伴肯定都不陌生,坐落在美国宾夕法尼亚州匹兹堡的它,可是美国25所新常春藤盟校之一.最近卡内基梅隆大学2020年秋季录取数据出炉!跟着学霸君来看看到底什么样的人才会被它录取吧! ...

  5. 卡耐基梅隆大学CMU Brandon Amos博士论文《可微优化机器学习建模》

    Brandon Amos简介 Brandon Amos是卡耐基梅隆大学博士,主要研究机器学习和优化的基础问题和应用,包括强化学习.计算机视觉.语言.统计学和理论.导师是济科·科尔特(Zico Kolt ...

  6. 卡耐基梅隆大学计算机工程录取率,热点:卡内基梅隆大学爆出2020年新生数据,计算机学院录取率堪比藤校...

    原标题:热点:卡内基梅隆大学爆出2020年新生数据,计算机学院录取率堪比藤校 卡内基梅隆大学(Carnegie Mellon University),简称CMU,坐落在美国宾夕法尼亚州的匹兹堡,美国2 ...

  7. 加州伯克利本科学计算机好吗,美国加州大学伯克利分校和卡耐基梅隆大学计算机科学CS专业哪个好?...

    近些年,网络已成为人们日常生活中不可或缺的一部分,计算机技术也成为了各行各业中的核心,从而对计算机科学人才的需求量持续上涨,美国可以说是计算机领域的鼻祖,拥有着非常先进的互联网技术,且开设计算机科学专 ...

  8. 客户案例|围观!卡耐基梅隆大学用上中国造?要玩转自主导航机器人领域?

    近日,卡耐基梅隆大学 Safe AI Lab (人工智能安全实验室) 赵鼎教授团队分享了其在自主导航机器人领域的最新研究方向,该项目以开源自主连接和自动化研究车辆平台(OpenCAV Platform ...

  9. 博士申请 | 卡耐基梅隆大学陈贝迪老师课题组招收机器学习方向博士生

    合适的工作难找?最新的招聘信息也不知道? AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职! 卡耐基梅隆大学 我们组将来会致力于以发展 (advance) 和普及人工智 ...

最新文章

  1. 关于Activity onNewIntent方法的调用时机
  2. CSS 实现左侧固定,右侧自适应两栏布局的方法
  3. 2019牛客暑期多校训练营(第七场)D Number(思维)
  4. C# Lambda 和 匿名函数的GC总结
  5. 深圳南山区法院受理11人集体诉腾讯案
  6. Hadoop入门基础教程 Hadoop之单词计数
  7. 比特币在推特上的活跃度正接近2017年水平
  8. The prefix p for attribute p:message associated with an element type bean
  9. Openstack+Kubernetes+Docker微服务实践之路--基础设施
  10. 2017 5月12日上午
  11. 美赛小队集训-2019年D题O奖讨论
  12. GridView排序
  13. 一键清除系统垃圾文件的bat批处理命令
  14. R包安装--以4.1.2安装DMwR为例
  15. 自由职业一段时间后的感悟
  16. mysql模糊搜索 like_Mysql必知必会(3):模糊查询(LIKE)
  17. 蓝桥杯-算法训练-跳马
  18. win7如何开启Telnet服务
  19. 实验三matlab实现,实验三matlab程序设计.docx
  20. “凡客好声音”摇滚派对专场 正火热抢票中!

热门文章

  1. 福利 | 零基础学习Python量化交易 !(深圳)
  2. 姚振宇:在数据科学培养下,我成为了那个不安分的“细菌” | 优秀毕业生专访...
  3. 精选NLP、CV领域论文TOP10(附链接)
  4. 最落寞的C9高校:从未没落
  5. Keras正式从TensorFlow分离:结束API混乱与耗时编译
  6. 【经典书单】NLP秘笈汇总,从入门到进阶
  7. Nature:13个维度,手把手教“研究er”如何做报告
  8. SAP PI 适配器引擎
  9. 他是娱乐圈最低调的人,甘当多年绿叶,没想到竟是鲁迅的侄子
  10. 干货 | 拒当调参师工程师:超参数搜索算法一览