AAAI 2020 | MaskGEC:通过动态掩蔽改善语法纠错
作者 | 涂心琪
审稿 | 李梓盟
今天给大家介绍北京大学计算语言学教育部重点实验室的Zewei Zhao和Houfeng Wang在AAAI 2020发表的文章“MaskGEC: Improving Neural Grammatical Error Correction via Dynamic Masking”。作者在文章中提出了一种通过动态掩蔽改进基于神经机器翻译的语法纠错模型的方法,该方法解决了模型对“错误-正确”句子对的语料库的需求。
1
研究背景
语法纠错(GEC)是一种自然语言处理(NLP)应用,其目的是将语法错误的句子转换为正确的句子。神经机器翻译(NMT)方法已被广泛应用于这种类似翻译的任务,然而,这种方法需要一个相当大的“错误—正确“句子对语料库,这个条件难以满足,尤其是在中文语法纠错领域。针对这一问题,作者提出了一种简单而有效的使用的动态掩蔽改进基于NMT的GEC模型的方法。该方法通过在训练过程中动态地向原始源句子添加随机掩码,生成更多不同的句子对实例,以增强模型的泛化能力并提高语法纠错模型的有效性。作者通过实验证明,MaskGEC模型提高了神经GEC模型的性能,此外,在没有任何额外的知识的情况下,文章中的中文GEC单一模型的性能优于目前最先进的集成系统。
2
模型
2.1神经GEC模型
MaskGEC模型采用了Transformer作为NMT框架,Transformer是一种新型的编码器-解码器框架,该框架完全基于注意力机制,具备强大的单词序列建模能力,并在机器翻译任务中取得了最佳性能。给定源序列和与之对应的正确序列,语法纠错模型需要计算以下条件概率:
(1)
其中表示模型参数,该模型采用极大似然估计(MLE)进行训练。
2.2动态掩蔽
对于神经网络模型,训练语料库的大小通常是模型性能的关键因素之一。为了方便、有效地获得更多的训练样本,在训练过程中按一定的概率将噪声动态地添加到源序列X中,得到噪声文本,其中的计算方法如公式(2)所示:
(2)
其中表示单词替换函数,表示区间[0.0,1.0]上均匀分布的随机数,表示替换概率的阈值。语法纠错中的动态掩蔽方法的训练过程如图1所示。
图1 动态掩蔽方法在中文语法纠错中的训练过程
动态掩蔽算法如表1所示:
表1 动态掩蔽算法
2.3 噪声方案
(1)填充符替换:源句子中的每个单词都有一定的概率被选择并替换为填充符号“”。
(2)随机替换:按一定概率从源句子中随机抽取一些单词,然后使用词汇表中的随机单词来替换它们。
(3)字频替换:计数训练语料库中目标句子中每个单词的出现情况得到单词频率,然后计算单词表的概率分布, 在训练过程中,GEC模型根据单词频率对单词进行替换采样。
(4) 同音词替换:根据目标句子中的单词的拼音进行分类,并根据拼音类别计算单词频率,得到各拼音类型单词的概率分布。在训练过程中,选择替换的单词之后,查找这些单词的拼音并根据相应的单词频率分布选择同音词进行替换。
(5)混合替换:对于每个训练实例,中文GEC模型随机选择单个噪声方案或空方案,并将其应用于训练过程,这样可以集成了所有单一的噪声方案,并获得更多样化的噪声句子对。
3
实验
3.1 实验数据及基线模型
为了验证该方法在中文语法纠错任务中的有效性,作者在NLPCC 2018 Task 2的数据集上进行了一组实验。数据集的统计数据如表2所示:
表2 数据集统计
文章中使用MaxMatch()评分器来评估GEC模型,并与目前存在的中文语法纠错系统进行比较,其中包含(1)YouDao;(2)AliGM;(3)BLCU and BLCU (ensemble)。为了验证动态掩蔽方法在中文神经语法纠错模型中的有效性,作者实现了一个基于字符Transformer的中文语法纠错模型并将其作为基线模型。
3.2 实验结果
表3展示了MaskGEC模型和其它系统在中文GEC基准数据集上使用MaxMatch评分器的评估结果。NLPCC 2018 Task 2中的前三个模型都是集成模型,作者提出的单一模型的表现优于这些集成模型。文章中提出的方法与这些集成完全正交,这意味着作者提出的GEC模型相较于这些方法能够获得更好的结果。
表3 语法纠错系统在NLPCC-2018数据集上的性能
4
总结
在文章中,作者提出动态掩蔽方法可以促进中文语法纠错的神经机器翻译方法。为了解决GEC的神经方法的训练语料库小的问题,作者提出了五种噪声替换方案,这些方案能够生成多种多样的“错误—正确”句子对,从而构建足够大的语料库以提升常规seq2seq GEC模型性能。作者基于NMT的模型的动态掩盖方法使文章中的中文GEC系统能够超越NLPCC-2018基准数据集上的所有已发布结果,并建立了最新的技术水平。
参考资料
原文链接:
https://aaai.org/ojs/index.php/AAAI/article/view/5476
AAAI 2020 | MaskGEC:通过动态掩蔽改善语法纠错相关推荐
- AAAI 2020 | 通过解纠缠模型探测语义和语法的大脑表征机制
2020-01-06 10:26 导语:使用分离的语义和语法特征来研究大脑对应的神经基础. 作者 | 王少楠.张家俊 语义和语法是自然语言中最重要的特征.已有神经影像学的研究证明大脑处理语义和语法的神 ...
- 从ICLR 2020、AAAI 2020看对话系统近期研究进展
©PaperWeekly 原创 · 作者|王馨月 学校|四川大学本科生 研究方向|自然语言处理 本文盘点近期 ICLR 2020.AAAI 2020 上几篇对话系统相关的论文. ICLR 2020 论 ...
- AAAI 2020 | 首个使用 NAS 设计的 GCN,达到动作识别SOTA,代码将开源
点击我爱计算机视觉标星,更快获取CVML新技术 本文作者为52CV群友彭伟,现就读奥卢大学(芬兰) 博士二年级. Github:https://github.com/xiaoiker 知乎:https ...
- AAAI 2020 | 滴滴东北大学提出自动结构化剪枝压缩算法框架,性能提升高达120倍...
点击上方"视学算法",选择"星标" 快速获得最新干货 2020 年 2 月 7 日-2 月 12 日,AAAI 2020 将于美国纽约举办.不久之前,大会官方公 ...
- AAAI 2020 | 多模态基准指导的生成式多模态自动文摘
2020-01-06 10:17 导语:基本想法是优化多模态摘要训练的目标函数~ 作者 | 朱军楠.张家俊 多模态自动文摘是指利用计算机实现从含有两种或两种以上模态(如图片.文本等)的信息中生成图文式 ...
- 五分之一参会者将缺席AAAI 2020,主办方被迫“在线开会”,中国作者可远程演讲...
郭一璞 发自 宅家 量子位 报道 | 公众号 QbitAI 在疫情影响下,大家不仅开始在线办公.在线上课,甚至连学术会议也要在线参与了. 在疫情肆虐的时候,美国禁止中国人入境,受此影响,本来今天要在纽 ...
- 一个算法同时解决两大CV任务,让目标检测和实例分割互相帮助,地平线实习生论文被AAAI 2020收录...
允中 发自 凹非寺 量子位 报道 | 公众号 QbitAI 目标检测与实例分割是计算机视觉领域重要的两个任务,近年来出现了非常多优秀的算法解决这两个问题,且都取得了优异的效果. 但是,却鲜有文章深入 ...
- AAAI 2020 开源论文 | 语义感知BERT(SemBERT)
作者丨张倬胜 学校丨上海交通大学硕士生 研究方向丨自然语言理解 本文从计算语言学角度,提出使用显性语义角色信息来改善深度语言模型的建模性能,将语义角色标注用于机器阅读理解和推理任务中,提供更加丰富和精 ...
- AAAI 2020 | 微软亚洲研究院6篇精选论文在家看
点击我爱计算机视觉标星,更快获取CVML新技术 编者按:AAAI 2020 明天将在纽约开幕,然而这次的情况有些许不同,许多国内的小伙伴因疫情影响无法到现场参加会议.各位小伙伴在家中做好日常防护的同时 ...
最新文章
- java应用架构设计_java应用架构设计
- 平面内两条线段的位置关系(相交)判定与交点求解
- Android 5.x系统nfs挂载系统启动记录 nfs挂载文件记录
- 有问有答 | 精华问题汇总
- html正方形对话框素材,10种展示效果的弹出层对话框插件method.js
- 软件工程学习进度第四周暨暑期学习进度之第四周汇总
- pytorch常见错误(持续更新)
- python random函数_python随机模块random的22种函数(小结)
- 第二章:Improving On User Commands--14.格式化长句
- 机器学习算法——神经网络6(SOM网络)
- 汇编中add和inc的问题
- 半导体器件基础与二极管电路
- cv个人计算机SCI英文简历模板,个人英文简历模板
- 检定证书、校准证书与测试证书的区别
- 【机器学习】完整的机器学习项目演练:第三部分
- Java 通过SMTP实现发送QQ邮件
- c语言作业迷宫代码,用C语言写的走迷宫的代码
- Axure 高保真 日期选择器实现 可选任意年/月/日
- system data oracle,System.Data.OracleClient大全
- 《本地计算机DNS缓存文件》