ParaDetox: Detoxification with Parallel Data

文章目录

  • ParaDetox: Detoxification with Parallel Data
    • Abstract
    • 1.Introduction
    • 2.Related Work
      • Style Transfer and Detoxification
    • 3.Data Collection Pipline
      • Generation Pipeline
      • Retrieval Pipeline
      • Crowdsourcing Settings
        • Preprocessing
        • Postprocessing
    • 4.Data Analysis
      • Analysis of Edits
      • ParaNMT:Existing paraphrases
    • 5.Evaluation
      • Metric
      • Result
        • Automatic Evaluation
        • Case Study
        • Manual Evaluation

会议:ACL2022

任务文本解毒/平行语料库构建/文本风格迁移/文本复述/可控文本生成

原文:链接

资源:源码及数据集

Abstract

​ 本文提出了一个新颖的文本解毒任务平行数据收集流水线,收集了超过1万个英文毒性句子的无毒复述。本文还展示了该流水线可以用于提取大量得现有得复述语料库,以获得毒性-中性得句子对。本文发布了两个平行语料库用于解毒任务的训练,这是该任务的第一个平行数据集,本文对平行数据收集流水线进行了详细的描述,使其能够快速地为一个新的语言或领域建立、开发平行语料资源。

​ 此外,本文还在收集的平行数据集上训练了几个去毒模型,并将它们和几个基线和最先进的无监督方法进行了比较,在自动评估和人工评估的相关指标上,在这个新颖的数据集上训练的模型的性能都大大优于SOTA的无监督方法,这表明本文这个新颖的数据集能够大大提高文本解毒模型的性能。

1.Introduction

​ 文本解毒任务,旨在自动改写有毒文本,在保证有用内容完整的同时消除文本的毒性。它被视为文本风格迁移任务的变体。作为一个序列到序列任务,文本风格迁移任务可以通过在平行语料库上训练的编码器-解码器模型来完成。但是,现有的用于风格迁移的平行语料库是十分缺乏的。

​ 文本提出了一个新的众包流水线来收集平行风格迁移数据。除了生成文本的解毒版本外,本文考虑一种为特定风格的数据提取现有复述数据集的方法。特别地,本文在英文复述数据集ParaNMT上发现了毒性-无毒句子对,并使用众包机制进行过滤。

本文的贡献有三:

  • 提出了一种新的用于收集文本解毒平行数据的流水线;
  • 使用该流水线收集了第一个平行解毒数据集ParaDetox,并从ParaNMT语料库中检索出毒性-中性的句子对;
  • 使用收集到的数据训练监督的文本解毒模型并达到了SOTA效果。

2.Related Work

​ 现实中平行语料是难以获取的,因为它们往往不是自然共现的。GYAFC是一个现有的手工构建的大规模的风格迁移数据集,它包括非正式文本和其正式风格版本的句子对,正式版本由外包撰写并由专家验证。

Style Transfer and Detoxification

​ 大多数文本风格迁移模型都是在非平行语料库上训练的,它们可以对带风格标记的单词执行逐点更正。另外,一些工作在非平行数据上训练编码器-解码器模型,并使用对抗分类器将解码器推向目标风格。另一种对抗缺乏平行语料数据的方式是使用强化学习、变分推理或来自风格迁移分类器的信息联合训练源到目标和目标到源的风格迁移模型。

​ **文本解毒任务通常被视为一个将文本从毒性风格迁移到中性(无毒)风格的文本风格迁移任务。**所以该任务可以使用标注有文本毒性的非平行数据集并将毒性和中性的句子视为两个子语料库。如Jigsaw(EACL2021),从Reddit和Twitter中获取的标注有毒性的数据集(ACL2018)。本文创建的数据集则Follow她们的工作,改写这些数据集。

​ 关于解毒的工作往往依赖于在其他领域测试的风格迁移模型。如训练了一个联合附加分类器和循环一致性损失的自编码器(ACL2018)通过将T5作为去噪自编码器执行类似的微调(EACL2021)。使用了逐点校正方法,然后使用seq2seq模型提高文本的流畅性(COLING2020)。类似地,使用掩码语言模型对有毒句子进行逐点编辑(EMNLP2021)。见参考文献。

​ 当存在可用的平行数据集时,大多数研究者会使用机器翻译工具和预训练语言模型来实现文本风格迁移任务。因此,本文遵循这一做法,使用BART模型在ParaDetox上微调。

3.Data Collection Pipline

​ 本文主要阐述了雇佣外包工作者进行平行数据收集的流水线,包括三个子任务:复述生成、内容保留度检查、毒性检查。每个任务作为一个单独的众包项目实现。

​ 任务一中,一些文本无法进行解毒,因为强制进行解毒将导致文本语义发生重大变化。这一类数据不包含在平行数据集中。

​ 数据收集的流水线主要有两个,生成和检索。

Generation Pipeline

​ 从标注有毒性的语料库中获取数据,并使用一个毒性分类器进行过滤。流水线执行过程,任务一->任务二->任务三。

Retrieval Pipeline

​ 检索流水线主要用于从大规模平行语料库中提取风格句子对,本文在ParaNMT数据集执行这一流水线。

​ 具体流程:

  • 从平行数据集中选择一对句子(有毒和无毒);
  • 使用毒性句子执行任务三,确保他是有毒的;
  • 使用中性句子执行任务三,确保他是无毒的;
  • 使用上述两个句子执行任务二,检查它们的语义匹配程度。

Crowdsourcing Settings

Preprocessing

​ 为了预选毒性句子,在三个合并的Jigsaw数据集的一半上微调了一个RoBERTa毒性分类器,在测试集上的F1-score为0.76。设置毒性分类置信度为0.8。为方便阅读和重写,选择包含5-20个单词的句子。根据人工验证,相似度较低的句子通常不是准确的复述,而相似的句子要么是有毒的,要么是无毒的。

​ 对于检索流水线,选择句子嵌入的余弦相似度为0.65到0.8之间的平行句子,相似度得分来自PARAGRAM-PHRASE(ICLR2016)模型。因为通过手工验证发现,相似度太低可能不是复述,太高则可能风格相同。

Postprocessing

​ 为了保证标注的正确性,本文雇佣了几个工作者对每个样例进行标注。对于子任务一,这给了我们更多复述也验证了”我不能重写“答案。对于任务二和任务三,使用Dawid-Skene聚合方法来计算最终的标签,这种方法通过迭代地赋予那些更经常地同意其他工作者的工作者的答案更多的权重来定义真正的标签。根据工人的同意,给一个例子贴标签的人数从3到5不等。为保证数据质量,仅接受置信度超过90%的标签。

4.Data Analysis

ParaDetox数据集是一个平行的解毒数据集,它包含超过12000个毒性句子1-3个无毒复述。并且,本文从ParaNMT数据集中手动过滤得到了约1400个毒性-中性句子对。毒性句子的获取主要有三个来源:1)Jigsaw;2)Reddit and Twitter(Fighting Offensive Language on Social Media with Unsupervised Text Style Transfer,ACL2018 );最终得到12610个毒性句子的20437个无毒复述。

ParaDetox的语料库的示例如下。

Analysis of Edits

​ 外包工作者往往根据一些原则来最小化对毒性文本的编辑,平均一个句子有1.36个改变,改变即删除、插入、重写一个或多个邻近词。许多编辑操作应该是删除,因为编辑后句子的平均长度从12.1下降到10.4个词。另外,实验结果表明,使用删除和代替冒犯词这类编辑方法在Reddit和Twitter数据集中占22%和30%,在Jigsaw仅占3%。另外,工作者也倾向于将口语化的文本正式化,或将一些敏感中性词用委婉语代替。

ParaNMT:Existing paraphrases

​ ParaNMT区别于ParaDetox,它每个句子仅有一个无毒复述,且非人工编辑得到,而是通过一系列翻译模型。因此,中性句子与毒性句子的相似度更低,编辑更加多样化,这点和Jigsaw比较像。

5.Evaluation

​ 为了评估收集到的语料库的有效性,本文使用构建的数据集训练了几个监督的文本解毒模型。将ParaDetox数据集划分为训练集和测试集,分别为11939和671个句子对。测试集的句子每个句子仅有一个参考句子。不使用测试集进行训练和参数选择。手工排除了测试集中的未解毒句子及重写后仍存在毒性的句子。

​ 本文在数据集上微调BART,对在以下数据集上训练的BART进行测试:

  • ParaDetox:完整的数据集;
  • ParaDetox-unique:每个毒性句子仅包含一个无毒复述的ParaDetox子集;
  • ParaDetox-1000:数据集中的1000个样本,在数据源中均匀分布,每个毒性句子有多个无毒复述;
  • ParaNMT:auto代表自动过滤的50W个样本,manual代表手工选择的1393个句子对。

Metric

  • BLEU
  • STA(Style accuracy):风格迁移准确率,使用在Jigsaw数据集上训练好的毒性风格分类器;
  • SIM(Content preservation):计算输入和输出句嵌入之间的余弦相似度,使用(Beyond BLEU:training neural machine translation with semantic similarity.ACL2018),该模型在ParaNMT上训练复述语料对,模型的训练目标是生成嵌入,使得复述语句的嵌入相似度高于非复述语句之间的相似度。
  • FL(Fluency):在CoLA数据集上训练的基于RoBERTa的语言可接受性分类器识别的流利句子的百分比。
  • J:联合指标,三个单项指标相乘。

Result

Automatic Evaluation

​ 自动评估的实验结果如表4所示,在BLEU和J上SOTA了。BART-zero-shot的低性能表明了这一SOTA效果的成功源自微调,而不是BART本身的能力。

​ 本文还研究了多少数据量可以保证较高的模型解毒质量,发现1000个训练样本已经足够达到一个较好的解毒效果。虽然SIM和FL对于vanilla BART (见BART - zero - shot模型)来说已经很高了,但是只需一些平行样本就可以改进STA。这表明风格迁移任务并不需要大型语料库这使得本文提出的流水线对其他风格迁移任务同样适用。

Case Study

​ 表5是不同模型的输出示例,Delete往往会返回一个不流畅的文本,CondBERT倾向于插入一些词来代替毒性词,这并不总是一个很好的策略。ParaGeDi从头开始生成句子,有时候会产生扭曲的意义。而在ParaDetox上训练的BART则没有这些缺点。

Manual Evaluation

​ 人工评估的实验结果如表6所示。训练在平行语料库上的BART达到SOTA了,但是Delete达到最低性能,而它却在自动评估指标上达到很好的性能,自动评估指标不一定都是可靠的。

  • 自动评估和人工评估指标相关性研究

    自动评估和人工评估指标之间,相关性最大的是FL,而STA和SIM仅有中等强度的相关性,J和人工的J几乎毫不相关。此外,BLEU仅和SIM相关,而和STA中度负相关,该指标仅能衡量内容保留度。

【论文笔记】ParaDetox:Detoxifification with Parallel Data相关推荐

  1. 论文笔记-Real-Time MDE using Synthetic Data with Domain Adaptation via Image Style Transfer

    论文信息 标题: Real-Time Monocular Depth Estimation using Synthetic Data with Domain Adaptation via Image ...

  2. 论文笔记之:Playing for Data: Ground Truth from Computer Games

    Playing for Data: Ground Truth from Computer Games ECCV 2016 Project Page:http://download.visinf.tu- ...

  3. 论文解读:《Linguistically Motivated Parallel Data Augmentation for Code-switch Language Model》

    <语言驱动的用于语码转换语言模型的并行数据增强> 论文地址:Linguistically Motivated Parallel Data Augmentation for Code-swi ...

  4. 论文笔记:WORD TRANSLATION WITHOUT PARALLEL DATA

    引用文章 Facebook MUSE 无监督跨语言迁移学习任务 face - Word Translation without Parallel Data 文献阅读笔记:Word Translatio ...

  5. 论文笔记(十六):Learning to Walk in Minutes Using Massively Parallel Deep Reinforcement Learning

    Learning to Walk in Minutes Using Massively Parallel Deep Reinforcement Learning 文章概括 摘要 1 介绍 2 大规模并 ...

  6. 论文笔记:DLWL: Improving Detection for Lowshot classes with Weakly Labelled data

    论文笔记:DLWL: Improving Detection for Lowshot classes with Weakly Labelled data 使用弱标签数据改进对Lowshot类的检测 1 ...

  7. 【Data Privacy顶会论文笔记汇总】

    Data Privacy顶会论文笔记汇总 联邦学习调研benchmark 汇总 FL 数据集.FL 安全-攻防方面.FL 图卷积.FL 系统.FL医疗.个性化 FL.FL + NLP 一. 属性推理攻 ...

  8. 论文笔记——Asynchronous Decentralized Parallel Stochastic Gradient Descent

    论文笔记--Asynchronous Decentralized Parallel Stochastic Gradient Descent 改变了中心化的结构,使用了分布式的结构 算法过程 每个wor ...

  9. 论文笔记(二十)VisuoTactile 6D Pose Estimation of an In-Hand Object using Vision and Tactile Sensor Data

    VisuoTactile 6D Pose Estimation of an In-Hand Object using Vision and Tactile Sensor Data 文章概括 摘要 1. ...

最新文章

  1. 数据库连接池到底应该设多大?
  2. Spring-AOP的五种通知和切面的优先级、通知变量声明
  3. java 矩阵转置算法
  4. 《Python数据科学指南》——1.16 使用lambda创造匿名函数
  5. mysql查看导入大小_mysql 数据导入、导出,及库大小查看
  6. vs中四点画矩形的算法_中考热点,初高中衔接之倒角利器四点共圆
  7. Microsoft.ACE.OLEDB.12.0' provider is not registered on the local machine
  8. 微异构Embree照片级光线追踪解决方案
  9. 20191114每日一句
  10. 如何完全的卸载MySQL数据库?
  11. Zoom会议使用指南
  12. F5 微信银行解决方案
  13. import.os 文件操作
  14. 【100 种语言速成】第 1 节:Python
  15. python求最小公倍数
  16. 人脸识别《一》opencv人脸识别之人脸检测
  17. Facebook的23岁创始人
  18. 互联网,因特网,以太网的区别
  19. 【单片机毕业设计】基于单片机的智能灌溉系统的设计
  20. MFC进度条学习笔记

热门文章

  1. 易班轻应用富文本介绍
  2. 如何实现页面广告随时上下线、过期自动下线及到时自动上线
  3. 1 - Hello MyBatis
  4. 难道主键除了自增就是GUID?支持k8s等分布式场景下的id生成器了解下
  5. 使用HM NIS Edit制作软件安装包
  6. Spreadsheet_Excel_Writer
  7. 联想小新Pro14 2023款和2022款区别
  8. csgo服务器显示指令,CSGO国服控制台怎么打开 CSGO国服指令代码大全
  9. 视频在线点播功能如何实现?
  10. python 连接数据库导数_python – 使用MongoDB聚合框架计算一阶导数