论文阅读:Overview of the NLPCC 2018 Shared Task: Grammatical Error Correction

  • 1. 引言
  • 2. 任务定义
  • 3. 数据
    • 3.1 训练数据
    • 3.2 测试数据
  • 4. 评价指标
  • 5. 方法
  • 6. 结果对比
  • 7. 结论
  • 参考文献
  • 原文 [Overview of the NLPCC 2018 Shared Task: Grammatical Error Correction](http://tcci.ccf.org.cn/conference/2018/papers/EV11.pdf)


**摘要:**本文,我们综述了NLPCC 2018的语法修正(GEC)任务。详细的定义了任务的说明、训练数据以及评估方法。我们还总结了参与者的处理方法。这些方法证明了汉语语法纠错的水平。数据以及评估工具在https://github.com/zhaoyyoo/NLPCC2018_GEC提供下载。

1. 引言

GEC在NLP中是具有挑战性的任务,它也受到了越来越多的关注。今年,我们组织了第一次中文语法纠错任务,众多关注中文学习者的语法错误。具体的说,我们的任务是监检测非母语学者写的文章中的语法错误,并修正。之前对于中文语法错误的研究只要集中在错误检测,二我们共同的任务还包括自动纠正这些语法错误。尽我们所能,我们为这个中文GEC任务提供了第一个基准数据。
该任务的目标是开发一个工具去自动检测并纠正在学习中文的CSL(以中文为第二语言Chinese as a Second Language)。我们提供了一个大规模的非母语学者写的中文文章,其中的错误已被母语学者注释,并修正。使用统一的评测工具与评测指标以及盲测数据用于测评参与团队的结果。
一共有23支队伍报名了任务,只有6支队伍提交了他们的结果。这份综述文章详细说明了这个任务,并按以下内容展开:第二节给出了任务的定义;第三节详细介绍了数据集以及注释标准;第四节提供了评价指标;第五节结束了来自参与者的不同方法;第六届展示了最终的结果;第七节给出了综述的结论。

2. 任务定义

自动纠正语法错误是一项具有挑战性的任务,也越来越受关注。任务的而目标是检测并纠正有非母语学者书写的中文文章。对于带有语法错误更正和盲测数据的注释性训练数据,参赛团队应提交测试数据中自动更正的文本版本。表1显示了任务定义下的错误量词示例。

初始输入 那是一个牛 。
分词输入 那 是 一 个 牛 。
输出 那是一头牛。
输出 那 是 一 头 牛 。

3. 数据

这节介绍了此任务发布的训练、测试数据

3.1 训练数据

训练数据从http://lang-8.com/收集,这是一个语言学习网站,以英语为母语的人可以自由选择修改学习者的文章。我们通过探索“语言交换”社交网络服务(SNS),收集了一个大规模的汉语普通话学习者语料库。在这个SNS网站上大约有68500名中国普通话学习者。通过收集他们的中文论文和中国本地人的修订版,我们初步建立了一个语料库,从135754篇论文中收集了1108,907个句子。
由于修正规范不统一,原始语句中存在大量噪声,我们采取了一系列措施来清理数据。首先,我们删除被<spanclass = " sline " >包围的单词,因为这表示内容冗余。对于其他类型的标签,校正器以不同的方式使用它们。为了保持一致性和清晰度,我们只是去掉了标签,保留了内部的文字。学习者经常用母语提问,给语料库带来额外的干扰。我们需要通过检查外来词的Unicode值来删除外来词太多的句子。还有一种情况,作家们用汉语拼音字母来表示他们想表达但不知道如何用汉字来写的单词。这样的非标准语句被排除在最终数据集之外。为了使句子更紧凑,我们也会省略一些简单的句子,比如(大家好),(晚安)。根据我们的观察,作者有时使用“/”, “or”, “或” 、“ 或者”.来提供可选的更正。在这种情况下,第一个修正是保留。此外,为了解释原句不合语法的原因,改正者可以在修改后的句子的位置写评语。我们使用一个基于规则的分类器来决定是否将句子包含到语料库中。
通过以上的整理工作,我们最终整理出了一个由61个不同母语作家的717241个句子组成的汉语学习者语料库。在这些句子中,有123,501个句子被认为是正确的,300004个句子,一个改正,170407个句子有两次更正,一个句子最多更正21次。例句如表2所示。此外,我们使用PKUNLP工具(http://www.icst.pku.edu.cn/lcwm/pkunlp/downloads/libgrass-ui.tar.gz)进行中文分词。

初始句子 纠正句子
长成大人,我盒饭做的很开心。 长大成人后,我做盒饭做的很开心。
城市里的人能度过多方面的生活 城市里的人能过丰富多彩的生活
城市里的人能过多方面的生活
城市里的人能过多种多样的生活

3.2 测试数据

测试数据提取自北大汉语学习者语料库。北京大学中国学习者语料库由中国语言文学系建设,目标是促进国际教育和汉语中介语言的研究。它是由外国大学生写的论文组成的。我们从语料库中收集了2000个句子,并发布了源句和分段句。
为了纠正语法错误,两个注释员对这些句子进行了注释。注释准则遵循最小化的一般原则编辑距离。这一原则规定了如何重建一个含有错误的句子的正确形式,并选择一个最小化编辑距离的句子,这意味着我们选择尽可能地遵循作者的初衷。错误分为四种类型:冗余词(以大写字母“R”表示)、缺词(“M”)、选词错误(“S”)和排序错误(“W”)。第一个注释者只标记编辑,第二个注释者被要求检查注释并在他认为当前编辑不合适时进行修改。我们发布了两种黄金注释及其集成的评估结果。

4. 评价指标

我们使用MaxMatch (M2)记分器进行评估。M2算法是一种广泛应用的语法纠错评价方法。总的思路是计算源语句和系统输出之间的短语级编辑。具体来说,它将选择与注释器中的黄金编辑重叠最多的系统假设。扩展了M2的记分器,以处理多组可选的金标准注释,在这种情况下,对于当前的句子有多个合理的更正。
假设黄金编辑集是{g1, g2,…, gn},系统编辑集为{e1, e2,…,}。精度、查全率和F0.5定义如下:

以图1中的句子为例,假设源句为"随着通迅技术的发达我们的生活也是越来越放便。"黄金编辑集g和系统编辑集e如图所示
然后就会有P = 1, R = 2/3, F0.5 = 10/11.

5. 方法

共有6支队伍提交了18份参赛作品,每队最多3份。参与者的详细信息如表3所示。

大多数系统将GEC问题视为机器翻译(MT)任务。还探讨了基于规则的模型和语言模型。AliGM针对这个问题提出了两个模块:校正模块和组合模块。在前一模块中,每个输入句子用两个统计模型和一个神经模型生成校正候选词。统计模型包括基于规则的模型和基于统计机器翻译(SMT)的模型。神经模型是基于神经机器翻译(NMT)的模型。在后一模块中,它们以分层的方式组合这些模型。CU-Boulder使用Bi-LSTM模型,并注意进行校正。使用字符级最小编辑距离(MED)在多个候选文本中选择校正版本。实现五种模式的联合投票,提高性能。有道也将此问题转换为机器翻译任务。值得注意的是,他们使用分阶段的方法,并针对特定的错误(包括拼写、语法等)设计特定的模块。北京邮电大学采用两阶段法。在第一阶段,他们采用神经模型进行误差检测。在第二阶段,他们使用的统计方法如下,北大使用基于字符的MT模型来处理这个问题。此外,他们还提出了一个用于纠正拼写错误的预处理模块。首先,基于共现概率、互信息和卡方检验等二元特征进行误差检测。然后引入混淆集,在检测点生成候选项。最后的修正是语言模型概率最高的候选。为了提高精度分数,他们设置了一个较高的阈值。此外,他们在后期处理阶段用置信水平检查每次修正。BLCU[9]提出了一个主要基于卷积的序列-序列模型的系统。

6. 结果对比

我们对所有18个提交的关于两种黄金注释及其集成的评估。参考集成金标准编辑的每个系统的最佳性能如表4所示。从表4可以看出,汉语语法纠错是一项具有挑战性的任务。在自动化之间仍然有很大的差距,GEC系统和母语人士。其中,有道的召回率,F0.5分最高,BLCU准确度得分最高。这两个系统都将GEC问题视为MT任务。相比之下,基于规则的模型和语言模型的表现并不令人满意。

7. 结论

本文对2018年NLPCC中的语法纠错(GEC)共享任务进行了概述。我们发布了一个大型的汉语学习者语料库,并简要介绍了参与者的方法。最后的结果表明,这仍然是一个具有挑战性的任务,值得更多的关注。
Acknowledgement。这项工作得到了国家自然科学基金(61772036、61331011)和国家科技重点实验室的支持,新闻行业标准(智能媒体技术重点实验室)。我们感谢北京大学中文系提供了原始的测试数据输入。孙伟伟是通讯作者。

参考文献

  1. Ng, H.T., Wu, S.M., Wu, Y., Hadiwinoto, C., Tetreault, J.: The CoNLL-2013 shared task on grammatical error correction. In: Proceedings of the 17th Conference on Computational Natural Language Learning, Association for Computational Linguistics, Sofia, pp. 1–12 (2013)
  2. Rao, G., Zhang, B., Xun, E., Lee, L.: IJCNLP-2017 Task 1: Chinese grammatical error diagnosis. In: Proceedings of the IJCNLP 2017, Shared Tasks, pp. 1–8. Asian Federation of Natural Language Processing, Taipei (2017)
  3. Mizumoto, T., Komachi, M., Nagata, M., Matsumoto, Y.: Mining revision log of language learning SNS for automated Japanese error correction of second language learners. In: Proceedings of 5th International Joint Conference on Natural Language Processing, pp. 147–155. Asian Federation of Natural Language Processing, Chiang Mai (2011)
  4. Nagata, R., Sakaguchi, K.: Phrase structure annotation and parsing for learner English. In: Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pp. 1837–1847. Association for Computational Linguistics, Berlin (2016)
  5. Dahlmeier D, Ng H T.: Better evaluation for grammatical error correction. In: Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pp. 568–572. Association for Computational Linguistics (2012)
  6. Zhou, J., Li, C., Liu, H., Bao, Z., Xu, G., Li, L.: Chinese grammatical error correction using statistical and neural models. In: Proceedings of NLPCC-2018 (2018)
  7. Fu, K., Huang, J., Duan Y.: Youdao’s Winning solution to the NLPCC-2018 Task 2 challenge: a neural machine translation approach to Chinese grammatical error correction. In: Proceedings of NLPCC-2018 (2018)
  8. Chen, S., Tsai, Y., Lin, C.: Generating and scoring correction candidates in Chinese grammatical error diagnosis. In: Proceedings of the 3rd Workshop on Natural Language Processing Techniques for Educational Applications, Osaka, pp. 131–139 (2016)
  9. Ren, H., Yang, L. Xun, E.: A sequence to sequence learning for Chinese grammatical error correction. In: Proceedings of NLPCC-2018 (2018)

原文 Overview of the NLPCC 2018 Shared Task: Grammatical Error Correction

论文阅读:Overview of the NLPCC 2018 Shared Task: Grammatical Error Correction相关推荐

  1. NLPCC 2023 Shared Task 5:中文医疗教学视频问答任务

    背景介绍 近年来,人们能够轻松的访问互联网上的教学视频,这成为了一种趋势并彻底改变了以往的获取信息或传递知识的方式[1]-[2].许多人意识到在他们完成某项任务之前通过观看教学视频是一种更高效的方式, ...

  2. 论文笔记:Improving Grammatical Error Correction Models with Purpose-Built Adversarial Examples

    论文笔记:Improving Grammatical Error Correction Models with Purpose-Built Adversarial Examples 文章简要介绍 出处 ...

  3. 论文阅读《Paired Overbounding for Nonideal LAAS and WAAS Error Distributions》

    目录 摘要 1 介绍 2 包络方法 3 单CDF包络的局限性 A 非零均值和移动均值分布 B 非对称分布 C 多峰分布 4 双边包络定理 5 GPS增强的应用 A 双边高斯包络 B 包络实际误差分布 ...

  4. 【项目小结】英语语法错误检测(GEC)开题论文阅读记录

    毕业论文准备尝试一下GEC,虽然没有过这方面的经验,但做老生常谈的课题实在是亏待宝贵的最后一年.其实最主要的原因是莫名奇妙被一个从来没上过课的教授加微信翻了牌子,我看了一下他给出的题目:英语句法分析. ...

  5. 清华NLP组年度巨献:机器翻译30年最重要论文阅读清单(下)

    近日,清华大学NLP组总结了最近30年来机器翻译领域最重要的论文和学术文献目录,并在Github上公开放出. 此列表首先给出了30年来机器翻译领域必读的10篇最重要的论文,接下来的内容分为统计机器翻译 ...

  6. 【论文阅读】D19-1435——GEC问题解决的一种方法:PIE架构

    发现把所有的论文提纲写在一篇博客里我自己翻起来也很难受,干脆还是一篇论文一篇博客了. 跟之前很多使用神经机器翻译(NML)不一样的是,本文使用了一种PIE架构,Parallel Iterative E ...

  7. 【论文阅读】[CVPR 2018] PU-Net: Point Cloud Upsampling Network. [tensorflow] [rec. oth.]

    文章目录 [论文阅读][CVPR 2018] PU-Net: Point Cloud Upsampling Network. [tensorflow] [rec. oth.]

  8. [论文阅读] (18)英文论文Model Design和Overview如何撰写及精句摘抄——以系统AI安全顶会为例

    <娜璋带你读论文>系列主要是督促自己阅读优秀论文及听取学术讲座,并分享给大家,希望您喜欢.由于作者的英文水平和学术能力不高,需要不断提升,所以还请大家批评指正,非常欢迎大家给我留言评论,学 ...

  9. 【联邦学习论文阅读】FedProx(2018)Federated Optimization in Heterogeneous Networks

    [FedProx]论文链接:https://arxiv.org/abs/1812.06127 摘要 联邦学习面临两个关键挑战:系统异构性:统计异构性.本文的FedProx可以解决联邦学习的异构性,可看 ...

最新文章

  1. 前沿科技 | 中科院科学家在视觉学习行为的神经机制研究中取得进展
  2. 英国加密期货交易所增加比特币现金合约
  3. jquery之行自加自减
  4. python列表元素修改_python – 如何修改列表中列表中的元素
  5. UFLDL教程:Exercise:Convolution and Pooling
  6. 浅析支付系统的整体架构
  7. ffmpeg 转换flv压缩大小_使用ffmpeg进行视频文件转换成FLV整理
  8. Go 语言学习总结(7)—— 大厂 Go 编程规范总结
  9. 搭建nfs共享存储服务之三客户端配置
  10. CS:APP3e 深入理解计算机系统_3e Datalab实验
  11. SSM SpringBoot vue高校实训管理系统
  12. 基于PHP的网上书店系统(前后台)
  13. 《女士品茶》与统计检验
  14. 钽电容和贴片电容的区别
  15. h3c无线管理 dns服务器,H3C FIT AP与AC连接时三种的注册流程
  16. Rewrite和RewriteRule规则,http强转https的配置总结
  17. 【C和指针】const指针
  18. OpenJudge NOI 1.8 20:反反复复
  19. mysql 斯文克斯_14、mysql数据库基础
  20. 谁说计算机专业只能去互联网敲代码?国企,公务员,产品经理照样很香|应届生求职指南

热门文章

  1. 揭露!华为HR实名控诉:不要相信HR,他们不诚信!
  2. python中rgb颜色_自定义RGB颜色与Python诅咒
  3. Android service后台执行定时任务
  4. qemu-img命令
  5. Struts的vistor校验器
  6. android 电话号码发iphone怎么样,安卓手机如何轻松的向iPhone发文件呢?
  7. 解决IE浏览器打开,出现不能为“read”的问题
  8. 保姆级教程|ECharts图表插件一文搞懂!
  9. 服务器带宽10M能带多少人同时访问之并发数计算
  10. 剑指offe面试题19——正则表达式匹配