论文解读:Correcting Chinese Spelling Errors with Phonetic Pre-training(ACL2021)

  中文拼写纠错CSC任务具有挑战性,目前的SOTA方法是仅使用语言模型,或将语音信息作为外部知识;本文将提出一种新的端到端的CSC模型,将phonetic(拼音)特征融入到预训练和微调部分:

  • 我们在预训练阶段,每次随机将某个token替换为sound-alike的词;
  • 提出adaptive weighted联合训练detection和correction。

简要信息:

序号 属性
1 模型名称 MLM-phonetics
2 所属领域 自然语言处理、中文拼写纠错
3 研究内容 中文拼写纠错
4 核心内容 BERT应用
5 GitHub源码
6 论文PDF https://aclanthology.org/2021.findings-acl.198.pdf

一、动机

  • 本文我们关注中文拼写纠错。中文字符需要借助拼音等信息。83%的错误均来自于发音相似的字符;
  • 语言模型用于生成流利的句子,语音特征可以防止模型产生发音偏离原始单词的预测;、

The language model is used to generate fluent sentences and the phonetic features can prevent the model from producing predictions whose pronunciation deviates from that of the original word

  • 模型虽然可以将错误的字进行纠错,虽然纠错后的语法层面上没有问题,但可能两个字的发音没有相关性。例如“的语”希望纠正为“德语”,但如果纠正为“英语”则不太合适;

二、方法

  模型包含两个模块:

  • detection module:喂入一个句子,该模块将预测每个token是错误的概率;
  • correction module:同时结合每个字符的word embedding和pinyin embedding,并使用detection module预测的概率作为权重,进行纠错;

1、模型架构

(1)Detection Module
  该模块用于判断句子中的token是否可能是错误的,采用0-1标签进行标注。
公式:


(2) Correction Module
  根据预测的概率值,对word embedding和pinyin embedding进行加权求和

最后输出:


备注:

  • 该模型架构与SoftMasked Bert思路一致,只不过SoftMasked Bert引入的是[MASK] embedding,而本文则是pinyin embddding;
  • 如上图,Embedding层、Encoder层和Correction Network参数均由MLM-phonetics初始化(见下文)

2、Joint Fine-tuning

训练时,Detection Network和Correction Network联合训练:

  • 第一个loss表示detection module,预测每个token是否是错误的,使用cross entropy loss;
  • 第二个loss表示correction module,预测每个token的真实词。对于每个token,使用 p(ydi∣xw;θd)p(y_{d_i}|\mathbf{x}_{\mathbf{w}};\theta_d)p(ydixw;θd)(Detection Module预测该位置ground-truth的概率)作为权重;

3、Pre-training MLM-phonetics

  传统的MLM预训练时,是将[MASK]喂入句子,并预测对应的词;而CSC则是喂入一个带有错误token的句子,并预测对应的正确的词,因此两者输入的分布有所区别;

  因此,本文提出基于MLM提出MLM-phonetic,即除了随机替换[MASK]以外,还根据pinyin的相似的其他token进行替换。随机替换规则如图所示:

在MLM-phonetics中,由20%的token将进行替换,其中:

  • 40%将随机替换为[MASK];
  • 30%将随机替换为noisy-pinyin(pinyin token);
  • 30%将随机替换为confused-Hanzi(通过pinyin构建混淆集);

四、实验

  在SIGHAN13、14和15测试集上测试的结果如下图:

可以看出,相比其他模型,MLM-phonetic达到SOTA性能。

论文解读:Correcting Chinese Spelling Errors with Phonetic Pre-training相关推荐

  1. Correcting Chinese Spelling Errors with Phonetic Pre-training

    语音预习矫正汉语拼写错误 张瑞清,庞超,张传强,王朔欢,何忠军.孙宇.吴华和海峰[1] 百度公司.中国北京上地10号街10号,100085{张瑞青奥尔,庞曹04,张川强,王寿环}@http://bai ...

  2. 论文解读:SpellBERT:A Lightweight Pretrained Model for Chinese Spelling Checking

    论文解读:SpellBERT:A Lightweight Pretrained Model for Chinese Spelling Checking 简要信息: 序号 属性 值 1 模型名称 Spe ...

  3. 论文解读:Dynamic Connected Networks for Chinese Spelling Check

    论文解读:Dynamic Connected Networks for Chinese Spelling Check   我们知道,拼写纠错任务比较类似预训练语言模型中的**Masked Langua ...

  4. 论文解读:DCSpell:A Detector-Corrector Framework for Chinese Spelling Error Correction

    论文解读:DCSpell:A Detector-Corrector Framework for Chinese Spelling Error Correction 简要信息: 序号 属性 值 1 模型 ...

  5. 论文解读:Spelling Error Correction with Soft-Masked BERT

    论文解读:Spelling Error Correction with Soft-Masked BERT(2020ACL)   拼写错误纠错是一个比较重要且挑战的任务,非常依赖于人类的语言理解能力.本 ...

  6. 【论文复现】MDCSpell: A Multi-task Detector-Corrector Framework for Chinese Spelling Correction论文复现

    文章目录 本文内容 环境配置 全局变量 模型构建 损失函数 模型训练 构造Dataset 构造Dataloader 训练 模型评估 模型使用 参考文献 代码地址 :https://github.com ...

  7. 论文解读:ChineseBERT: Chinese Pretraining Enhanced by Glyph and Pinyin Information

    论文解读:ChineseBERT: Chinese Pretraining Enhanced by Glyph and Pinyin Information(2021ACL) 简要信息: 序号 属性 ...

  8. AprilTag: A robust and flexible visual fiducial system论文解读

    AprilTags论文解读 一.Apriltag是改进的ARToolkit. ARTag . 1.1 ARToolkit的劣势: A major disadvantage of this approa ...

  9. 文献阅读笔记-CSC-数据集-A Hybrid Approach to Automatic Corpus Generation for Chinese Spelling Check

    A Hybrid Approach to Automatic Corpus Generation for Chinese Spelling Check 文献阅读笔记 论文相关信息: EMNLP-201 ...

最新文章

  1. JavaScript中的预解析(变量提升)介绍!
  2. OpenCV启动Viz
  3. 主机无法连接虚拟机中的redis服务
  4. JavaScript中encodeURI,encodeURIComponent与escape的注意
  5. 12.history的用法
  6. jaxl php,php往mysql写数据,中文乱码有关问题
  7. html5向上向下兼容插件,Sticky Header-兼容IE8的页面顶部固定jQuery插件
  8. 【Anylogic智能体状态转移】
  9. vue中的横向排列_vue + ElementUI 的横向表格代码
  10. ESAPI(一)索引的操作以及数据插入
  11. linux下c语言读写文件操作,Linux下C语言之文件操作
  12. 解决ubuntu安装软件的问题。
  13. 计算机触摸板设置方法,笔记本电脑触摸板设置
  14. (赤焰剑C-SKY)1-初识
  15. 您用c语言程序画过画?用c语言程序画个爱“心”,祝大家春节愉快,身体健康,平安吉祥,牛气冲天!顺便温习一下c语言编写,及运行正确姿势
  16. 容器编排的作用和要实现的内容
  17. Chevereto图片托管php源码_Chevereto图片托管 3.10.13|图片动画|PHP源码
  18. 解决127.0.0.1 已拒绝连接的方法
  19. FreeRTOS记录(八、用软件定时器?还是硬件定时器?)
  20. Brave浏览器推出首个基于隐私的广告平台

热门文章

  1. 【GPS周-周内秒、日历时、UTC转换和逆转换】
  2. Apache开源软件
  3. 敏捷开发的技术文档管理
  4. 最常见的strncpy函数的缺陷,‘\0‘问题
  5. 华为首款5G折叠屏手机MateX,可否成为下一个手机发展方向?
  6. 2021神木四中罗超同学高考成绩查询,2021衡阳市地区高考成绩排名查询,衡阳市高考各高中成绩喜报榜单...
  7. LLC变换器工作状态分析
  8. 来电语音播报软件下载apk_来电播报app下载 来电姓名播报 for Android v1.2.6 安卓版 下载-脚本之家...
  9. 梳状滤波器(to be continued)
  10. [转]汉字转换为拼音