2020 年 中英文拼写纠错开源框架梳理
一、中文:
1、Pycorrector:https://github.com/shibing624/pycorrector
当前主流的中文纠错框架,支持规则和端到端模型
2、FASPell:https://github.com/iqiyi/FASPell/blob/master
论文:https://www.aclweb.org/anthology/D19-5522.pdf
使用bert进行预训练+微调,再经过CSD过滤器得到最终结果。支持简体中文文本; 繁体中文文本; 人类论文; OCR结果等
3、YoungCorrector:https://github.com/hiyoung123/YoungCorrector
基于Pycorrector改造,实现基于纯规则的纠错系统。整个系统框架比较详细。与Pycorrector准确度差不多,耗时短(归功于前向最大匹配替代了直接索引混淆词典)
4、SoftMaskedBert:https://github.com/hiyoung123/SoftMaskedBert
对论文Soft-Masked Bert 的复现:https://arxiv.org/pdf/2005.07421.pdf
使用判别模型BiGRU+纠错模型BERT,实现端到端的纠错。
5、bert_chinese:https://github.com/JohanyCheung/bert_chinese/tree/master/corrector
直接预训练的bert模型实现中文的文本纠错,可参照学习bert如何做纠错任务
二、英文:
1、SoftMaskedBert:https://github.com/hiyoung123/SoftMaskedBert
更改训练集和测试集,即可应用于其他语言拼写纠错
2、xfspell:https://github.com/mhagiwara/xfspell
基于Transformer的拼写纠错。原理类似于机器翻译,解决了纠错时输入和输出必须保持一致的问题。通过交换输入数据和输出数据,生成大量包含错别字的文本数据。
3、spelling-correction:https://github.com/huseinzol05/NLP-Models-Tensorflow/tree/master/spelling-correction
基于bert预训练模型的拼写纠错(需指定错误位置)
4、spellcorrect:https://github.com/cbaziotis/ekphrasis/blob/master/ekphrasis/classes/spellcorrect.py
基于编辑距离的英文拼写纠错
2020 年 中英文拼写纠错开源框架梳理相关推荐
- 中文拼写纠错_中英文拼写纠错开源框架梳理
一.中文: 1.Pycorrector:https://github.com/shibing624/pycorrector 当前主流的中文纠错框架,支持规则和端到端模型 2.FASPell:https ...
- 中英文拼写纠错开源框架梳理
一.中文: 1.Pycorrector:https://github.com/shibing624/pycorrector 当前主流的中文纠错框架,支持规则和端到端模型 2.FASPell:https ...
- NLP-文本处理:拼写纠错【非词(编辑距离)、真词(编辑距离...)候选词 -> “噪音通道模型”计算候选词错拼成待纠错词的似然概率 -> N-gram模型评估候选词组成的语句合理性】
一.贝叶斯公式 1.单事件 P(Ax∣B)P(A_x|B)P(Ax∣B)=P(AxB)P(B)=P(B∣Ax)×P(Ax)P(B)=P(B∣Ax)×P(Ax)∑i=0n[P(B∣Ai)∗P(Ai)] ...
- 2020,国产AI开源框架“亮剑”TensorFlow、PyTorch
「AI技术生态论」 人物访谈栏目是CSDN发起的百万人学AI倡议下的重要组成部分.通过对AI生态专家.创业者.行业KOL的访谈,反映其对于行业的思考.未来趋势的判断.技术的实践,以及成长的经历. 20 ...
- 开源框架完美组合之Spring.NET + NHibernate + ASP.NET MVC + jQuery + easyUI 中英文双语言小型企业网站Demo项目分析
开源框架完美组合之Spring.NET + NHibernate + ASP.NET MVC + jQuery + easyUI 中英文双语言小型企业网站Demo,这个是一个在网上流传比较多的Spri ...
- 2020,国产 AI 开源框架“剑指”TensorFlow、PyTorch
「AI技术生态论」 人物访谈栏目是CSDN发起的百万人学AI倡议下的重要组成部分.通过对AI生态专家.创业者.行业KOL的访谈,反映其对于行业的思考.未来趋势的判断.技术的实践,以及成长的经历. 20 ...
- 拼写纠错(Spelling Correct)技术方案总结
目前在做日语纠错任务,主要是为了解决公司query召回率低的问题,目前可行的方案有下面几个: 一个是科大讯飞的那个gector模型 ,他主要是利用了bert或者Robert来做特征提取,然后会在最后接 ...
- 中国下一代AI开源框架:国际、创新、实用和长期主义
中国下一代AI开源框架:国际.创新.实用和长期主义 道翰天琼认知智能机器人平台API接口大脑为您揭秘.目前国内外的AI开源框架领域,以TensorFlow.PyTorch.MindSpore等为代表, ...
- java 实现中英文拼写检查和错误纠正?可我只会写 CRUD 啊!
简单的需求 临近下班,小明忙完了今天的任务,正准备下班回家. 一条消息闪烁了起来. "最近发现公众号的拼写检查功能不错,帮助用户发现错别字,体验不错.给我们系统也做一个." 看着这 ...
最新文章
- 区块链应用和法律规范
- Ubuntu Server 命令行下的默认语言 中文乱码
- JPA的泛型DAO设计及使用
- VS2010中水晶报表插件下载安装方法
- CentOS FTP安装及配置
- Kotlin入门(18)利用单例对象获取时间
- 【译】Serverless Jenkins with Jenkins X
- 新一届亚马逊研究奖公布!陈怡然、陈丹琦、杨笛一、吴佳俊等华人学者入选
- 通信原理与MATLAB(三):SSB的调制解调
- 当我们谈注册中心时我们谈什么
- 天刀计算机中丢失,天涯明月刀手游失踪白兔奇遇任务攻略
- PHP之父Rasmus Lerdorf演讲:激情下的PHP 百作坊
- python抓取网页表格数据
- 关于UC全民阅读的报告及带来的启发
- 数据库入门理论知识介绍以及编译安装MySql
- 体育直播android,500体育直播
- Vultr Debian8系统一键快速DD安装Windows7系统
- 招聘:IT-互联网相关职位。如:手机客户端、iphone\ios\、PHP 开发工程师,产品经理...
- 几种点云(网格)孔洞填充方法(1)
- 基于多目标算法的冷热电联供型综合能源系统运行优化 粒子群算法 平台:MATLAB
热门文章
- MWAN3报:interface vwan1 is error and tracking is active错误的解决
- 微信小程序详细教程(建议收藏)
- 独居老人一键式报警器
- HTC One X S720e 一键刷入boot.img教程
- 需要准备哪些材料才能申报中、高级职称?
- 屌丝程序员游戏从业8年之路
- 计算机专业学装机吗,不愧是计算机专业的大学生,万元电脑真霸气,靠自己值得点赞!...
- 【渝粤教育】国家开放大学2019年春季 706行政管理学导论 参考试题
- Hadoop缺少dll文件下载地址
- 工程师应如何仿真并得出结论