摘要

我们提出了一种独立于语言的新颖方法,通过将GEC任务分为两个子任务来提高语法错误纠正的效率:错误跨度检测(ESD)和错误跨度校正(ESC)。ESD使用有效的序列标注模型来识别语法错误的文本范围。然后,ESC利用seq2seq模型将带有错误跨度注释的句子作为输入,并仅输出这些跨度的校正文本。实验表明,我们的方法在英语和中文GEC基准中的性能均与常规seq2seq方法相当,推理时间不到50%

1.介绍


  由于近年来可用的错误纠错的并行语句数量不断增加,具有编码器-解码器架构的序列到序列(seq2seq)模型成为GEC的流行解决方案,它采用源(原始)语句作为输入,并输出目标(校正)语句。尽管自回归seq2seq模型有助于纠正各种语法错误并表现良好,但它们对GEC的效率不足。正如之前的工作所指出的那样,seq2seq模型采取大多数解码步骤,以在推理过程中将语法正确的文本范围从源复制到目标,这是主要的效率瓶颈。如果可以节省复制操作的时间,则效率应大大提高。
  出于这种动机,我们提出了一种简单而新颖的语言独立方法,通过将该任务分为两个子任务来提高GEC的效率:错误跨度检测(ESD)和错误跨度校正(ESC),如图1所示。如图1(a)所示,我们使用有效的序列标注模型来识别源句中语法错误的文本范围。然后,我们将带有错误跨度注释的句子输入ESC的seq2seq模型。与纠正完整句子的常规seq2seq方法相反,ESC仅纠正错误的跨度(请参见图1(b)),从而大大减少了解码的步数。中英文GEC基准测试表明,我们的方法与基于最新transformer的seq2seq模型相当,推理时间不到50%。此外,我们的方法为控制校正提供了更大的灵活性,从而使我们能够在各种应用场景中精确调整。

2.相关工作

最近,已经提出了许多改善GEC性能的方法。但是,除了那些添加合成错误数据和Wikipedia修订日志以外,大多数方法会导致延迟增加。例如,语言模型和从右到左(R2L)评分不仅需要花费时间来重新评分,而且还会在推理过程中放慢集束大小以校正模型 ; 多轮(迭代)解码需要重复运行模型; BERT-fuse为模型融合增加了额外的计算量。
  与对GEC性能的广泛研究相反,直到最近几年,很少有工作致力于提高GEC模型的效率。工作的一个分支是依赖语言的方法,例如PIE和GECToR。 他们预测一系列字符级别的编辑操作,包括许多手动设计的特定于语言的操作,例如更改动词形式(例如VBZ→VBDVBZ→VBDVBZ→VBD)和介词(例如in→onin→onin→on)。但是,它们很难适应其他语言。 另一个分支是独立于语言的模型,例如LaserTagger。他们从训练数据中学到了编辑操作的词汇,因此可以使用任何语言。但是,它们的性能不如seq2seq。我们的方法结合了两个分支的优势,并且与最新的seq2seq方法相比,具有高效的推理能力。

3.错误跨度检测

为了识别不正确的跨度,我们使用二进制序列标注模型,其中标签0表示字符在正确的跨度中;标签1表示字符的语法不正确,需要编辑,如图1(a)所示。我们在训练数据中跨源句子和目标句子对齐标记。通过字符对齐,我们可以识别已编辑的文本范围,从而可以将原始句子中已编辑的文本范围注释为错误的范围。

4.错误跨度纠错

使用ESD,我们可以识别句子中语法错误的文本范围。如果发现句子没有错误,我们将不采取进一步措施;否则,我们将注释不正确的跨度,并使用ESC模型对其进行校正,如图1(b)所示。
  为避免ESC在推理过程中由于ESD跨度检测错误而误导,我们以类似于SpanBERT的方式随机选择文本跨度,而不是仅在训练数据中根据标注的错误跨度来训练ESC模型。通过这种方式,ESC模型将看到各种各样的跨度注释,并学习如何在训练期间进行校正,从而提高了其鲁棒性:即使在推理过程中检测到的跨度不是十分准确,ESC模型也不会轻易失败。通过GEC训练数据中源句子和目标句子的标记对齐,我们可以生成带有跨度注释和修改后的训练实例,如图1(b)中的ESC示例。

5.实验

Improving the Efficiency of Grammatical Error Correction with Erroneous Span Detection翻译相关推荐

  1. Improving the Efficiency of Grammatical Error Correction with Erroneous Span Detection and Correctio

    EMNLP20,GEC(Grammar Error Correct)比较近的一篇文章,没啥太多的novelty,主要是用了RoBertA,和以往的neural方法一样,seq2seq model,只是 ...

  2. 论文笔记:Improving Grammatical Error Correction Models with Purpose-Built Adversarial Examples

    论文笔记:Improving Grammatical Error Correction Models with Purpose-Built Adversarial Examples 文章简要介绍 出处 ...

  3. 论文阅读:Overview of the NLPCC 2018 Shared Task: Grammatical Error Correction

    论文阅读:Overview of the NLPCC 2018 Shared Task: Grammatical Error Correction 1. 引言 2. 任务定义 3. 数据 3.1 训练 ...

  4. 复现有道NLPCC-2018 CGEC:A Neural Machine Translation Approach to Chinese Grammatical Error Correction

    有道NLPCC-2018 CGEC任务论文:A Neural Machine Translation Approach to Chinese Grammatical Error Correction ...

  5. 自动语法错误校正(Grammatical Error Correction)

    写英语论文很折磨人.平时用英语写的少,关键时候写的头痛死.记起前段时间在知乎上看了一个哥们写的NLP潜在热门方向,介绍了自动语法错误校正(具体名称记不起来了,当时没有收藏,现在找不到了).就不知道怎么 ...

  6. Jabba: hybrid error correction for long sequencing reads using maximal exact matches机译:Jabba:使用最大精

    Jabba: hybrid error correction for long sequencing reads using maximal exact matches 机译:Jabba:使用最大精确 ...

  7. Bi-level error correction for PacBio long reads. PacBio长读数的两级纠错

    Bi-level error correction for PacBio long reads. PacBio长读数的两级纠错 作者: Liu Yuansheng; Lan Chaowang; Blu ...

  8. HALC: High throughput algorithm for long read error correction

    Journal|[J]BMC BioinformaticsVolume 18, Issue 1. 2017. HALC: High throughput algorithm for long read ...

  9. Ratatosk - Hybrid error correction of long reads enables accurate variant calling and assembly

    Ratatosk - Hybrid error correction of long reads enables accurate variant calling and assembly   长读的 ...

最新文章

  1. UnitOfWork以及其在ABP中的应用
  2. GitHub移动端正式发布
  3. pycharm不进入test模式
  4. (C/C++学习)6.数组指针和指针数组
  5. c语言字符串文库总结,C语言字符串.ppt
  6. 会计期间13-16怎么用
  7. 记录程序人生2020.8.11
  8. [html] HTML全局属性(global attribute)有哪些(包含H5)?
  9. 2-STM32物联网开发WIFI(ESP8266)+GPRS(Air202)系统方案安全篇(监听Wi-Fi和APP的数据)
  10. ASP注入漏洞基础教程(二)
  11. Java笔记-异常机制中try(...)中括号的用法
  12. 2021高考分数文科成绩查询,2021高考分数线预测 文科理科分数线是多少
  13. synchronized锁自旋2
  14. Linux拷贝文件夹
  15. Linux源码安装Python3.7出现的各种坑
  16. EPS绘图常用快捷键及复杂台阶的画法
  17. 如何在SSD和HDD VPS主机之间进行选择
  18. 基于Citespace和vosviewer文献计量学可视化SCI论文高效写作方法
  19. VMware虚拟机超简单的联网方法
  20. 六十分之五——时间都去哪儿了?

热门文章

  1. Python 30天:第四天 -- 字符串
  2. 配置APC PDU的IP地址
  3. 视觉AI保驾护航——视频直播
  4. 元宇宙的八大支撑技术
  5. 网站推广对网站有什么要求
  6. 第二证券|千亿巨头飙涨,消费板块掀起涨停潮!
  7. 2009年软件架构师必须了解的十个新领域
  8. 直播预告 | Mila实验室来啦!
  9. 《市场调查与分析》:在校大学生对微信小程序的使用情况
  10. 贡献黑莓SDK for Eclipse 工具