中文拼写检测(Chinese Spelling Checking)相关方法、评测任务、榜单
中文拼写检测(Chinese Spelling Checking)相关方法、评测任务、榜单
中文拼写检测(Chinese Spelling Checking,CSC)是近两年来比较火的小众任务,在包括ACL、EMNLP等顶会上发展迅速。本文简单介绍CSC任务,相关方法、评测任务和榜单。
一、中文拼写检测
中文拼写检测(Chinese Spelling Checking,CSC)又称中文拼写纠错(Chinese Spelling Correction,CSC),其旨在根据上下文来识别并纠正错误的拼写问题,起源于英文的拼写检测和语法错误识别问题。由于近年来中文NLP的发展加速,包括中文文本挖掘、中文预训练语言模型等,诸多中文语料或垂直领域语料中都会存在的一些拼写错误问题,因此提升语料质量十分重要。
目前中文拼写检测常用在如下三个场景中:
- OCR识别:是指对图像类型的文字通过CV算法转换为UTF-8的字符。但是由于OCR属于单字独立识别,可能由于图像模糊、遮盖等问题导致识别出错,因此OCR识别出的文本可能会存在拼写错误问题。一般地,OCR属于视觉特征方面的文字识别任务,因此拼写错误通常来源于相似字形混淆。
例如“金属材料”可能会被错误识别为“金属材科”,因为“科”与“料”在字形上非常相似。
- ASR识别:是指根据语音来转换为文字,属于语音识别。通常也会因为杂音、方言等问题,部分音节存在相似混淆而导致识别错误。
例如“星星产业”与“新兴产业”,“星星”与“新星”如果在说话者咬字不清晰的情况下是很难区分的。
- 意外错误:例如工作人员在键入信息时,可能由于敲错键盘等马虎行为,导致输入了错误的字符。
例如在输入“伤感”(shanggan)时,可能会误输入为“伤寒”(shanghan),因为“g”和“h”在键盘布局内仅靠在一起;
但是最终我们期望识别的文本在上下文是存在语义的,由于一些错误的拼写,我们依然可以判断他原始的正确字符。例如即便OCR错误识别为“金属材科”,我们依然可以根据上下文与先验知识来推测应为“金属材料”。当然也有可能是由于不同领域的问题,使得这个纠错任务并非完全依靠上下文。例如常见的搭配是“新兴产业”,但是不得排除“星星产业”是某一个商标或特定领域专有词汇。
因此,学术界引入中文拼写检测(CSC)来专门也就如何识别并纠错。在数据的构建上,可以直接根据混淆集来生成错误字符,而混淆集的构建则需要专门处理,如下图所示,可以针对对图像进行模糊化处理来生成错误的字符:
下面给出CSC基础概念:
- 混淆集(Confusion Set):是指一系列存在字音字形相似的字符集合,例如“自”与“白”、“曰”存在字形混淆。在预测时,通常根据混淆集来召回可能的字符,再根据上下文预测正确的字符;
- 字形特征(Glyphic Feature):通常表示一个汉字的偏旁部首(结构特征)和笔画序列(序列特征),例如:“争”的结构特征可以描述为“⿱⿰⿻⿻⿱”,序列特征为“丿㇇
中文拼写检测(Chinese Spelling Checking)相关方法、评测任务、榜单相关推荐
- 中文拼写纠错_word-checker: Chinese and English word spelling corrector.(中文易错别字检测,中文拼写检测纠正。英文单词拼写校验工具)...
项目简介 本项目用于单词拼写检查. 目前支持英文单词拼写检测,后期将引入中文拼写检测. 特性说明 支持英文的单词纠错 可以迅速判断当前单词是否拼写错误 可以返回最佳匹配结果 可以返回纠正匹配列表,支持 ...
- 论文解读:SpellBERT:A Lightweight Pretrained Model for Chinese Spelling Checking
论文解读:SpellBERT:A Lightweight Pretrained Model for Chinese Spelling Checking 简要信息: 序号 属性 值 1 模型名称 Spe ...
- 中文文本纠错(Chinese Spell Checking, CSC)任务各个论文的评价指标
文章目录 本文说明 评价指标总结 各开源项目使用的评价指标 SIGHAN(官方) Confusionset-guided Pointer Networks PLOME ReaLiSe SpellGCN ...
- c语言拼写检测器,NLP 中文拼写检测实现思路
目的 汉字不存在错字,但是存在别字. 查了一遍整个 github,只有一个比较靠谱的实现 correction,基于 C 语言实现. 相对成熟的产品 写作猫 核心思路 核心思路如下: 使用语言模型计算 ...
- 中文纠错(Chinese Spelling Correct)最新技术方案总结
中文纠错(Chinese Spelling Correct)最新技术方案总结https://blog.csdn.net/BGoodHabit/article/details/114589007
- 【论文阅读】ReaLiSe:Read, Listen, and See: Leveraging Multimodal Information Helps Chinese Spell Checking
文章目录 本篇论文所需基础 论文内容 摘要(Abstract) 1. 介绍(Introduction)(略) 2. 相关工作 3. 模型部分(The REALISE Model) 3.1 语义编码器( ...
- SpellBERT:预训练模型与中文拼写纠错
作者 | 王嘉宁 整理 | NewBeeNLP 大家好,这里是NewBeeNLP.中文拼写纠错在搜索引擎.问答系统中作为入口模块,对其有着至关重要的作用.拼写纠错,即,给定一个自然语言的句子,识别出其 ...
- 中英文拼写检测纠正开源项目使用入门 word-checker 1.1.0
项目简介 word-checker 本项目用于单词拼写检查.支持英文单词拼写检测,和中文拼写检测. 特性说明 可以迅速判断当前单词是否拼写错误 可以返回最佳匹配结果 可以返回纠正匹配列表,支持指定返回 ...
- 拼写纠错(Spelling Correct)技术方案总结
目前在做日语纠错任务,主要是为了解决公司query召回率低的问题,目前可行的方案有下面几个: 一个是科大讯飞的那个gector模型 ,他主要是利用了bert或者Robert来做特征提取,然后会在最后接 ...
最新文章
- 17岁读大学,25岁博士毕业,高颜值医生爆红网络,却坦言只是普通人
- BAPI_GOODSMVT_CREATE的几个应用
- ASP.NET Core MVC中的 [Required]与[BindRequired]
- 模型存储在哪里_最强的模型工作收纳站「Artty Station」登场!
- jdk1.7安装过程
- idea新增文件自动添加到版本控制
- Android坡度计
- headerIP php_PHP正确获取客户端IP地址
- MATLAB 2016a 安装包以及安装破解教程
- videojs-flash.min.js 报错 this.el_.vjs_getProperty is not a function
- idea光标移至行尾快捷键——End键不能移至行尾的解决办法
- 解析小型机、大型机和PC服务器间的差别
- Vue在线客服系统【开源项目】
- window.print() 实现A4纸张打印及去掉页眉页脚及打印链接
- python学后总结_为什么那么多自学Python的后来都放弃了,总结起来就这些原因
- 低代码开发,是程序员的“福”还是“祸”?
- 机器学习四大任务:回归、分类、聚类与降维
- SpringBoot+vue邮箱登录(附带多种效验)
- Java语言程序设计与数据结构(基础篇)梁勇第九章 *9.3
- 苹果Windows7系统修改文件夹时出现没有权限操作该怎么办?
热门文章
- 深度学习--面试题目
- 软件测试的创新思维,解读测试设计
- 深入浅出存储备份 Host、LAN、LAN-free、Server-free和Server-less(NDMP)
- StarlingX 前世今生 -- (汇总了网上的一些资料)
- 在Keras的Embedding层中使用预训练的word2vec词向量
- 初学linux(-)
- Android中定位功能的判断与打开
- 计算机与科学专硕考研院校排名,22考研|全国首次专硕院校评估排名,看看有你想报的没...
- VUE+WebPack游戏设计:欲望都市城市图层的设计
- Xutils中网络请求
- 中文拼写纠错_word-checker: Chinese and English word spelling corrector.(中文易错别字检测,中文拼写检测纠正。英文单词拼写校验工具)...