摘要

风格样式迁移任务中取得进展的主要障碍是训练数据的不足。在本文中,我们研究如何扩充平行数据,并为此任务提出了简单的数据扩充方法,以通过易于访问的模型和系统获得有用的句子对。实验表明,当我们使用增强的平行数据对模型进行预训练时,它们在很大程度上有助于改善风格样式的迁移,从而在GYAFC基准数据集中提供了最新的结果。

1.介绍


  风格样式迁移(FST)的定义是将一种风格样式的文本自动转换为另一种风格的文本的任务。例如,在给定非正式句子的情况下,FST旨在保留与样式无关的内容并输出正式句子。
  先前的工作倾向于利用诸如seq2seq模型之类的神经网络来应对这一挑战,因为它们功能强大,且相对于传统基于规则的方法具有巨大性能提升。但是,神经网络方法的性能仍然受到训练数据不足的限制:用于FST训练的公共平行语料库GYAFC仅包含约10万个句子对,很难满足具有数百万个参数的神经模型的需要。
  为了解决FST的数据缺失的问题,我们提出使用三种特定的数据增强方法来增强平行数据,以帮助提高模型的泛化能力并减少过拟合的风险。除了将机器翻译(MT)中广泛使用的反向翻译(BT)方法应用于FST之外,我们的数据扩充方法还包括风格判断(F-Dis)和多任务迁移(M-Task) 。它们在生成平行数据方面既新颖又有效,该平行数据引入了无法从原始训练数据中获得的其他风格迁移的知识。具体来说,F-Dis从跨语言MT生成的释义对中识别有用的对; 而M-Task任务则利用语法错误校正(GEC)任务的训练数据来改善风格,如图1所示。
  实验结果表明,我们提出的数据增强方法可以为FST收集大量的增强平行数据。事实证明,增强的平行数据很有用,并且在用于模型的预训练时,可以极大地帮助改善风格样式的迁移,从而使模型可以在GYAFC基准数据集中获得最新的结果。

2.方法

2.1 风格样式迁移的数据增强

我们研究了三种用于风格样式迁移的数据增强方法:反向翻译,风格判断和多任务迁移。我们专注于由【非正式→正式】风格的迁移,因为它在实际应用场景中更为实用。

2.1.1 反向翻译

反向翻译(BT)的最初想法是训练一个目标到源的seq2seq模型并使用该模型从目标单语句子生成源语言句子,建立合成的平行句子。我们将其概括为我们的基本数据扩充方法,并使用原始平行数据在形式到非正式方向上训练seq2seq模型。然后,我们可以向该模型提供正式的句子,该句子应该能够产生非正式的对应语句。正式输入和非正式输出语句可以配对以建立增强的平行数据。

2.1.2 风格判断


  根据观察,非正式语句在MT模型进行往返翻译后,非正式语句趋于成为正式语句,这时因为MT模型主要接受新闻等正式文本的训练,我们提出了一种新的方法,称为风格判别,用于通过跨语言MT模型的方式生成非正式源句的正式改写。一个典型的示例如图2所示。
  为此,我们收集了许多可能非正式的英语句子(例如,从在线论坛中)。形式上,我们将收集的句子表示为S={si}i=1∣S∣\mathcal S=\{\textbf s_i\}^{|S|}_{i=1}S={si​}i=1∣S∣​,其中si\textbf s_isi​表示第iii个句子。我们首先将它们翻译成主要语言(例如法语),然后再将其翻译回英语,如图2所示。这样,我们为每个句子si∈S\textbf s_i∈\mathcal Ssi​∈S获得了一个重写的句子si′\textbf s'_isi′​。
  为了验证si′\textbf s'_isi′​是否比si\textbf s_isi​更为正式,我们引入了风格判别器,在我们的实验中是使用卷积神经网络(CNN)来量化句子的正式水平。我们在FST语料库(例如GYAFC)中使用句子及其风格标签对风格判别器进行了训练。从而选择其中si′\textbf s'_isi′​大大改善si\textbf s_isi​正式性的平行句对(si,si′)(\textbf s_i,\textbf s'_i)(si​,si′​)作为扩充数据。结果数据集Taug\mathcal T_{aug}Taug​是这样的一组平行句对:
Taug={(si,si′)∣P+(si′)−P+(si)≥σ}(1)\mathcal T_{aug}=\{(\textbf s_i,\textbf s'_i)|P_+(\textbf s'_i)-P_+(\textbf s_i)\ge \sigma\}\tag{1}Taug​={(si​,si′​)∣P+​(si′​)−P+​(si​)≥σ}(1)
其中P+(x)P_+(\textbf x)P+​(x)是判别器预测的句子x\textbf xx是正式的概率,而σσσ是增强数据选择的阈值。这样,我们可以获得有用的平行数据,这些数据包含不在原始并行数据中的有价值的重写知识。

2.1.3 多任务迁移

除了使用人工生成的句子对进行反向翻译和风格判别的数据增强之外,我们还引入了多任务迁移,该迁移使用了来自其他seq2seq任务的带标注句子对。我们观察到非正式文本通常是不合语法的,而正式文本几乎在语法上是正确的。因此,理想的FST模型应具有检测和重写非语法文本的能力,该能力已由先前的经验研究验证,表明使用最新的语法错误校正(GEC)模型对FST模型的输出进行后处理可以改善结果。受此观察的启发,我们建议通过利用GEC训练数据作为增强的平行数据来帮助从形式上将知识从GEC转移到FST。图1中显示了一个示例,其中GEC的带标注的数据提供了知识,以帮助模型重写包含错误语法化的非正式句子。

2.2 使用增强数据进行预训练

通常,大量的增强平行数据可以帮助seq2seq模型更好地学习上下文表示,句子生成和源-目标对齐。当增强的平行数据可用时,先前对seq2seq任务的研究倾向于使用原始训练数据和增强数据同时训练seq2seq模型。但是,增强数据通常比原始训练数据更嘈杂且价值较低。在同步训练中,海量扩充数据往往会使原始数据的知识被稀释,并引入不必要甚至错误的编辑知识,这对于我们的任务而言是不希望的。
  为了更好地利用增强数据,我们偷吃首先使用增强平行数据对模型进行预训练,然后使用原始训练数据对模型进行微调。在我们的预训练和微调(PT&FT)方法中,扩充后的数据与原始数据没有得到同等对待;相反,它只是作为先验知识,可以在微调阶段进行更新甚至覆盖。通过这种方式,模型可以更好地从原始数据中学习,而不会被增强的数据所淹没或分散。此外,将增强数据和原始数据划分为不同的训练阶段可以使模型对增强数据中的噪声变得更加宽容,从而降低了对增强数据的质量要求,并使模型可以使用噪声更大的增强数据甚至其他任务的训练数据。

Parallel Data Augmentation for Formality Style Transfer翻译相关推荐

  1. 论文解读:《Linguistically Motivated Parallel Data Augmentation for Code-switch Language Model》

    <语言驱动的用于语码转换语言模型的并行数据增强> 论文地址:Linguistically Motivated Parallel Data Augmentation for Code-swi ...

  2. ChipGAN: A Generative Adversarial Network for Chinese Ink Wash Painting Style Transfer翻译

    概要 ​ 风格转换已成功应用于照片,生成逼真的西方绘画.然而,由于中西绘画技法的内在差异,直接套用已有的方法,对中国水墨画风格的转换并不能产生令人满意的效果.本文提出了一种基于ChipGAN的端到端( ...

  3. A Hierarchical Reinforced Sequence Operation Method for Unsupervised Text Style Transfer

    无监督文本样式转换的分层增强序列运算方法 下载链接:https://arxiv.org/pdf/1906.01833.pdf 一.A Paper List for Style Transfer in ...

  4. UDA(Unsupervised Data Augmentation)-半监督学习与数据增强

    1 简介 当标注好的数据很少时,半监督学习在深度学习模型中有非常好的表现.目前常用的方法是一致性训练,基于大量的非标注数据进行训练来使模型可以应对各种输入噪声(或者隐状态的噪声). 有些方法是来设计各 ...

  5. face - Word Translation without Parallel Data

    无监督机器翻译一 机器翻译 Word Translation without Parallel Data 技术点 基线方法 相似性度量方法 对抗训练 改进 结果比较 无监督模型选择的验证标准 机器翻译 ...

  6. AUGNLG: Few-shot Natural Language Generation using Self-trained Data Augmentation翻译

    摘要 自然语言生成(NLG)是一个面向任务对话系统中的关键组成部分,它将结构化的语义表示(MR)转换为自然语言.对于大型对话系统,在具有超过数百个意图和数千个槽的情况下,基于模板的方法和基于模型的方法 ...

  7. 论文笔记-Real-Time MDE using Synthetic Data with Domain Adaptation via Image Style Transfer

    论文信息 标题: Real-Time Monocular Depth Estimation using Synthetic Data with Domain Adaptation via Image ...

  8. 【翻译】Style Transfer by Relaxed Optimal Transport and Self-Similarity

    通过宽松的最优运输和自相似性进行风格转移 文章目录 Abstract 1 介绍 2 方法 2.1 特征提取 2.2 Style Loss 2.3 Content Loss 2.4 User Contr ...

  9. 【翻译】In the light of feature distributions: moment matching for Neural Style Transfer

    根据特征分布:神经风格迁移的矩匹配 文章目录 Abstract 1. 绪论 2. 相关工作 3. 办法 3.1. 神经风格转移 3.2. Style as feature distribution 3 ...

最新文章

  1. 论文简述 | 无需校正和不失真的实时变化的鱼眼双目
  2. 说说我为什么看好Spring Cloud Alibaba
  3. rabbitmq几种工作模式_RabbitMQ六种队列模式-简单队列模式
  4. 编译高性能linux so库,关于如何在linux环境下生成a库和so库(改,附图)-Go语言中文社区...
  5. 【图论】【模板】静态仙人掌(luogu 5236)
  6. Maven精选系列--POM文件解析
  7. SQL Server2000企业管理器在Win7中新建表错误的解决方法
  8. JS——基础知识--变量类型和变量计算
  9. java标识语_Java 基本语法,标识符,修饰符,关键字
  10. JavaMail入门第五篇 解析邮件
  11. 第四章需求分析与设计工具
  12. NN求解NS方程进一步探讨
  13. 分布式事务之TCC事务
  14. 一个时代的剪影-----汉 (作者:金立扬)
  15. N点虚拟主机管理系统 企业版稳定亲测
  16. matlab仿真动画,用matlab制作简单仿真动画
  17. FJUT 1735 开宝箱
  18. 漳州可视化3d建模,智慧城市园区数字孪生可视化,数字孪生可视化工厂
  19. 蚂蚁金服上市估值2k亿美金!会开发到底有多吃香?
  20. 服务器上训练深度学习模型anaconda+cuda+cudnn+pycharm

热门文章

  1. 习丽妞 编程系统 诞生了
  2. 模拟QQ自动隐藏窗体
  3. DHV展示故事经典 案例 卖猪借宿
  4. 企查查移动端技术总监李骁:以数据之力赋能企业信息服务平台的技术提效
  5. oracle调用web severs,Oracle调用C#开发web services
  6. Win7电脑右下角声音图标小喇叭出现红叉没有声音解决方案
  7. Cerebral Cortex:初为人父者竟然出现纵向灰质皮层体积减少?两个国际样本提供了这样的证据...
  8. BodyContent揭秘及定制复杂的JSP标签
  9. 【SpringBoot项目实战+思维导图】瑞吉外卖①(项目介绍、开发环境搭建、后台登陆/退出功能开发)
  10. 论混合软件架构的设计