中文拼写检测（Chinese Spelling Checking）相关方法、评测任务、榜单

中文拼写检测（Chinese Spelling Checking，CSC）是近两年来比较火的小众任务，在包括ACL、EMNLP等顶会上发展迅速。本文简单介绍CSC任务，相关方法、评测任务和榜单。

一、中文拼写检测

中文拼写检测（Chinese Spelling Checking，CSC）又称中文拼写纠错（Chinese Spelling Correction，CSC），其旨在根据上下文来识别并纠正错误的拼写问题，起源于英文的拼写检测和语法错误识别问题。由于近年来中文NLP的发展加速，包括中文文本挖掘、中文预训练语言模型等，诸多中文语料或垂直领域语料中都会存在的一些拼写错误问题，因此提升语料质量十分重要。

目前中文拼写检测常用在如下三个场景中：

OCR识别：是指对图像类型的文字通过CV算法转换为UTF-8的字符。但是由于OCR属于单字独立识别，可能由于图像模糊、遮盖等问题导致识别出错，因此OCR识别出的文本可能会存在拼写错误问题。一般地，OCR属于视觉特征方面的文字识别任务，因此拼写错误通常来源于相似字形混淆。

例如“金属材料”可能会被错误识别为“金属材科”，因为“科”与“料”在字形上非常相似。

ASR识别：是指根据语音来转换为文字，属于语音识别。通常也会因为杂音、方言等问题，部分音节存在相似混淆而导致识别错误。

例如“星星产业”与“新兴产业”，“星星”与“新星”如果在说话者咬字不清晰的情况下是很难区分的。

意外错误：例如工作人员在键入信息时，可能由于敲错键盘等马虎行为，导致输入了错误的字符。

例如在输入“伤感”（shanggan）时，可能会误输入为“伤寒”（shanghan），因为“g”和“h”在键盘布局内仅靠在一起；

但是最终我们期望识别的文本在上下文是存在语义的，由于一些错误的拼写，我们依然可以判断他原始的正确字符。例如即便OCR错误识别为“金属材科”，我们依然可以根据上下文与先验知识来推测应为“金属材料”。当然也有可能是由于不同领域的问题，使得这个纠错任务并非完全依靠上下文。例如常见的搭配是“新兴产业”，但是不得排除“星星产业”是某一个商标或特定领域专有词汇。

因此，学术界引入中文拼写检测（CSC）来专门也就如何识别并纠错。在数据的构建上，可以直接根据混淆集来生成错误字符，而混淆集的构建则需要专门处理，如下图所示，可以针对对图像进行模糊化处理来生成错误的字符：

下面给出CSC基础概念：

混淆集（Confusion Set）：是指一系列存在字音字形相似的字符集合，例如“自”与“白”、“曰”存在字形混淆。在预测时，通常根据混淆集来召回可能的字符，再根据上下文预测正确的字符；
字形特征（Glyphic Feature）：通常表示一个汉字的偏旁部首（结构特征）和笔画序列（序列特征），例如：“争”的结构特征可以描述为“⿱⿰⿻⿻⿱”，序列特征为“丿㇇

中文拼写检测（Chinese Spelling Checking）相关方法、评测任务、榜单相关推荐
1. 中文拼写纠错_word-checker: Chinese and English word spelling corrector.(中文易错别字检测，中文拼写检测纠正。英文单词拼写校验工具)...
  项目简介本项目用于单词拼写检查. 目前支持英文单词拼写检测,后期将引入中文拼写检测. 特性说明支持英文的单词纠错可以迅速判断当前单词是否拼写错误可以返回最佳匹配结果可以返回纠正匹配列表,支持 ...
2. 论文解读：SpellBERT：A Lightweight Pretrained Model for Chinese Spelling Checking
  论文解读:SpellBERT:A Lightweight Pretrained Model for Chinese Spelling Checking 简要信息: 序号属性值 1 模型名称 Spe ...
3. 中文文本纠错(Chinese Spell Checking, CSC)任务各个论文的评价指标
  文章目录本文说明评价指标总结各开源项目使用的评价指标 SIGHAN(官方) Confusionset-guided Pointer Networks PLOME ReaLiSe SpellGCN ...
4. c语言拼写检测器,NLP 中文拼写检测实现思路
  目的汉字不存在错字,但是存在别字. 查了一遍整个 github,只有一个比较靠谱的实现 correction,基于 C 语言实现. 相对成熟的产品写作猫核心思路核心思路如下: 使用语言模型计算 ...
5. 中文纠错（Chinese Spelling Correct）最新技术方案总结
  中文纠错(Chinese Spelling Correct)最新技术方案总结https://blog.csdn.net/BGoodHabit/article/details/114589007
6. 【论文阅读】ReaLiSe：Read, Listen, and See: Leveraging Multimodal Information Helps Chinese Spell Checking
  文章目录本篇论文所需基础论文内容摘要(Abstract) 1. 介绍(Introduction)(略) 2. 相关工作 3. 模型部分(The REALISE Model) 3.1 语义编码器( ...
7. SpellBERT：预训练模型与中文拼写纠错
  作者 | 王嘉宁整理 | NewBeeNLP 大家好,这里是NewBeeNLP.中文拼写纠错在搜索引擎.问答系统中作为入口模块,对其有着至关重要的作用.拼写纠错,即,给定一个自然语言的句子,识别出其 ...
8. 中英文拼写检测纠正开源项目使用入门 word-checker 1.1.0
  项目简介 word-checker 本项目用于单词拼写检查.支持英文单词拼写检测,和中文拼写检测. 特性说明可以迅速判断当前单词是否拼写错误可以返回最佳匹配结果可以返回纠正匹配列表,支持指定返回 ...
9. 拼写纠错（Spelling Correct）技术方案总结
  目前在做日语纠错任务,主要是为了解决公司query召回率低的问题,目前可行的方案有下面几个: 一个是科大讯飞的那个gector模型 ,他主要是利用了bert或者Robert来做特征提取,然后会在最后接 ...
最新文章
热门文章

中文拼写检测（Chinese Spelling Checking）相关方法、评测任务、榜单

中文拼写检测（Chinese Spelling Checking）相关方法、评测任务、榜单

一、中文拼写检测

中文拼写检测（Chinese Spelling Checking）相关方法、评测任务、榜单相关推荐

最新文章

热门文章