论文解读:Correcting Chinese Spelling Errors with Phonetic Pre-training
论文解读:Correcting Chinese Spelling Errors with Phonetic Pre-training(ACL2021)
中文拼写纠错CSC任务具有挑战性,目前的SOTA方法是仅使用语言模型,或将语音信息作为外部知识;本文将提出一种新的端到端的CSC模型,将phonetic(拼音)特征融入到预训练和微调部分:
- 我们在预训练阶段,每次随机将某个token替换为sound-alike的词;
- 提出adaptive weighted联合训练detection和correction。
简要信息:
序号 | 属性 | 值 |
---|---|---|
1 | 模型名称 | MLM-phonetics |
2 | 所属领域 | 自然语言处理、中文拼写纠错 |
3 | 研究内容 | 中文拼写纠错 |
4 | 核心内容 | BERT应用 |
5 | GitHub源码 | |
6 | 论文PDF | https://aclanthology.org/2021.findings-acl.198.pdf |
一、动机
- 本文我们关注中文拼写纠错。中文字符需要借助拼音等信息。83%的错误均来自于发音相似的字符;
- 语言模型用于生成流利的句子,语音特征可以防止模型产生发音偏离原始单词的预测;、
The language model is used to generate fluent sentences and the phonetic features can prevent the model from producing predictions whose pronunciation deviates from that of the original word
- 模型虽然可以将错误的字进行纠错,虽然纠错后的语法层面上没有问题,但可能两个字的发音没有相关性。例如“的语”希望纠正为“德语”,但如果纠正为“英语”则不太合适;
二、方法
模型包含两个模块:
- detection module:喂入一个句子,该模块将预测每个token是错误的概率;
- correction module:同时结合每个字符的word embedding和pinyin embedding,并使用detection module预测的概率作为权重,进行纠错;
1、模型架构
(1)Detection Module
该模块用于判断句子中的token是否可能是错误的,采用0-1标签进行标注。
公式:
(2) Correction Module
根据预测的概率值,对word embedding和pinyin embedding进行加权求和
最后输出:
备注:
- 该模型架构与SoftMasked Bert思路一致,只不过SoftMasked Bert引入的是[MASK] embedding,而本文则是pinyin embddding;
- 如上图,Embedding层、Encoder层和Correction Network参数均由MLM-phonetics初始化(见下文)
2、Joint Fine-tuning
训练时,Detection Network和Correction Network联合训练:
- 第一个loss表示detection module,预测每个token是否是错误的,使用cross entropy loss;
- 第二个loss表示correction module,预测每个token的真实词。对于每个token,使用 p(ydi∣xw;θd)p(y_{d_i}|\mathbf{x}_{\mathbf{w}};\theta_d)p(ydi∣xw;θd)(Detection Module预测该位置ground-truth的概率)作为权重;
3、Pre-training MLM-phonetics
传统的MLM预训练时,是将[MASK]喂入句子,并预测对应的词;而CSC则是喂入一个带有错误token的句子,并预测对应的正确的词,因此两者输入的分布有所区别;
因此,本文提出基于MLM提出MLM-phonetic,即除了随机替换[MASK]以外,还根据pinyin的相似的其他token进行替换。随机替换规则如图所示:
在MLM-phonetics中,由20%的token将进行替换,其中:
- 40%将随机替换为[MASK];
- 30%将随机替换为noisy-pinyin(pinyin token);
- 30%将随机替换为confused-Hanzi(通过pinyin构建混淆集);
四、实验
在SIGHAN13、14和15测试集上测试的结果如下图:
可以看出,相比其他模型,MLM-phonetic达到SOTA性能。
论文解读:Correcting Chinese Spelling Errors with Phonetic Pre-training相关推荐
- Correcting Chinese Spelling Errors with Phonetic Pre-training
语音预习矫正汉语拼写错误 张瑞清,庞超,张传强,王朔欢,何忠军.孙宇.吴华和海峰[1] 百度公司.中国北京上地10号街10号,100085{张瑞青奥尔,庞曹04,张川强,王寿环}@http://bai ...
- 论文解读:SpellBERT:A Lightweight Pretrained Model for Chinese Spelling Checking
论文解读:SpellBERT:A Lightweight Pretrained Model for Chinese Spelling Checking 简要信息: 序号 属性 值 1 模型名称 Spe ...
- 论文解读:Dynamic Connected Networks for Chinese Spelling Check
论文解读:Dynamic Connected Networks for Chinese Spelling Check 我们知道,拼写纠错任务比较类似预训练语言模型中的**Masked Langua ...
- 论文解读:DCSpell:A Detector-Corrector Framework for Chinese Spelling Error Correction
论文解读:DCSpell:A Detector-Corrector Framework for Chinese Spelling Error Correction 简要信息: 序号 属性 值 1 模型 ...
- 论文解读:Spelling Error Correction with Soft-Masked BERT
论文解读:Spelling Error Correction with Soft-Masked BERT(2020ACL) 拼写错误纠错是一个比较重要且挑战的任务,非常依赖于人类的语言理解能力.本 ...
- 【论文复现】MDCSpell: A Multi-task Detector-Corrector Framework for Chinese Spelling Correction论文复现
文章目录 本文内容 环境配置 全局变量 模型构建 损失函数 模型训练 构造Dataset 构造Dataloader 训练 模型评估 模型使用 参考文献 代码地址 :https://github.com ...
- 论文解读:ChineseBERT: Chinese Pretraining Enhanced by Glyph and Pinyin Information
论文解读:ChineseBERT: Chinese Pretraining Enhanced by Glyph and Pinyin Information(2021ACL) 简要信息: 序号 属性 ...
- AprilTag: A robust and flexible visual fiducial system论文解读
AprilTags论文解读 一.Apriltag是改进的ARToolkit. ARTag . 1.1 ARToolkit的劣势: A major disadvantage of this approa ...
- 文献阅读笔记-CSC-数据集-A Hybrid Approach to Automatic Corpus Generation for Chinese Spelling Check
A Hybrid Approach to Automatic Corpus Generation for Chinese Spelling Check 文献阅读笔记 论文相关信息: EMNLP-201 ...
最新文章
- JavaScript中的预解析(变量提升)介绍!
- OpenCV启动Viz
- 主机无法连接虚拟机中的redis服务
- JavaScript中encodeURI,encodeURIComponent与escape的注意
- 12.history的用法
- jaxl php,php往mysql写数据,中文乱码有关问题
- html5向上向下兼容插件,Sticky Header-兼容IE8的页面顶部固定jQuery插件
- 【Anylogic智能体状态转移】
- vue中的横向排列_vue + ElementUI 的横向表格代码
- ESAPI(一)索引的操作以及数据插入
- linux下c语言读写文件操作,Linux下C语言之文件操作
- 解决ubuntu安装软件的问题。
- 计算机触摸板设置方法,笔记本电脑触摸板设置
- (赤焰剑C-SKY)1-初识
- 您用c语言程序画过画?用c语言程序画个爱“心”,祝大家春节愉快,身体健康,平安吉祥,牛气冲天!顺便温习一下c语言编写,及运行正确姿势
- 容器编排的作用和要实现的内容
- Chevereto图片托管php源码_Chevereto图片托管 3.10.13|图片动画|PHP源码
- 解决127.0.0.1 已拒绝连接的方法
- FreeRTOS记录(八、用软件定时器?还是硬件定时器?)
- Brave浏览器推出首个基于隐私的广告平台
热门文章
- 【GPS周-周内秒、日历时、UTC转换和逆转换】
- Apache开源软件
- 敏捷开发的技术文档管理
- 最常见的strncpy函数的缺陷,‘\0‘问题
- 华为首款5G折叠屏手机MateX,可否成为下一个手机发展方向?
- 2021神木四中罗超同学高考成绩查询,2021衡阳市地区高考成绩排名查询,衡阳市高考各高中成绩喜报榜单...
- LLC变换器工作状态分析
- 来电语音播报软件下载apk_来电播报app下载 来电姓名播报 for Android v1.2.6 安卓版 下载-脚本之家...
- 梳状滤波器(to be continued)
- [转]汉字转换为拼音