简介:pycorrector是一个开源的中文文本纠错工具。支持中文音似、形似、语法错误纠正,python3开发。pycorrector实现了Kenlm、ConvSeq2Seq、BERT、MacBERT、ELECTRA、ERNIE、Transformer等多种模型的文本纠错,并在SigHAN数据集评估各模型的效果。

历史攻略:

AI语音测试点

Python:2行代码实现文字转语音

项目开源地址:

https://github.com/shibing624/pycorrector

安装:

pip install -U pycorrector

案例1:文本纠错

# -*- coding: utf-8 -*-
# time: 2023/02/18 11:26
# file: demo1.py
# 公众号: 玩转测试开发import pycorrectormessage = "机七学习是人工智能领遇最能体现智能的一个分知"
corrected_sent, detail = pycorrector.message(mes)
print(corrected_sent, detail)

运行结果:

(base) [root@ci4vyvxi572ysx2s write]# python demo1.py
2023-02-18 11:53:18.515 | DEBUG    | pycorrector.detector:_initialize_detector:89 - Loaded language model: /root/.pycorrector/datasets/zh_giga.no_cna_cmn.prune01244.klm
机器学习是人工智能领域最能体现智能的一个分知 [('机七', '机器', 0, 2), ('领遇', '领域', 9, 11)]

案例2:成语、专名纠错

# -*- coding: utf-8 -*-
# time: 2023/02/18 11:26
# file: demo2.py
# 公众号: 玩转测试开发
import syssys.path.append("..")
from pycorrector.proper_corrector import ProperCorrectorm = ProperCorrector()
x = ['报应接中迩来','今天在拼哆哆上买了点苹果',
]for i in x:print(i, ' -> ', m.proper_correct(i))

运行结果:

(base) [root@ci4vyvxi572ysx2s write]# python demo2.py
报应接中迩来  ->  ('报应接踵而来', [('接中迩来', '接踵而来', 2, 6)])
今天在拼哆哆上买了点苹果  ->  ('今天在拼多多上买了点苹果', [('拼哆哆', '拼多多', 3, 6)])

案例3:英文拼写纠错

# -*- coding: utf-8 -*-
# time: 2023/02/18 11:26
# file: demo3.py
# 公众号: 玩转测试开发
import pycorrectorsent = "what happending? how to speling it, can you gorrect it?"
corrected_text, details = pycorrector.en_correct(sent)
print(sent, '=>', corrected_text)
print(details)

运行结果:

(base) [root@ci4vyvxi572ysx2s write]# python demo3.py
2023-02-18 11:59:02.620 | DEBUG    | pycorrector.en_spell:_init:39 - load en spell data: /root/miniconda3/lib/python3.9/site-packages/pycorrector/data/en/en.json.gz, size: 30120
what happending? how to speling it, can you gorrect it? => what happening? how to spelling it, can you correct it?
[('happending', 'happening', 5, 15), ('speling', 'spelling', 24, 31), ('gorrect', 'correct', 44, 51)]

更多使用技巧详见官方文档。

Python:使用pycorrector处理错字、纠正相关推荐

  1. python拼写_用 Python 27 行实现拼写纠正

    用 Python 27 行实现拼写纠正 徐宥翻译过一次,但是后来 Norvig 又更新了代码. 首先,这不是一个工业级的拼写纠正器,是 Peter Norvig(Director of Researc ...

  2. 文本纠错pycorrector

    原文链接:https://blog.csdn.net/javastart/article/details/107428483 这一段时间再研究身份证和面单识别项目,总发现一些识别准确率问题,在想办法提 ...

  3. [文本纠错] pycorrector框架测试

    pycorrector:https://github.com/shibing624/pycorrector pycorrector 中文文本纠错工具.音似.形似错字(或变体字)纠正,可用于中文拼音.笔 ...

  4. 中文纠错Pycorrector是如何收获2000 Star的?

    (导语) 计算机行业发展至今,"开源"已逐渐成为技术茁壮成长最肥沃的土壤.而在中国,企业开源热闹非常,个人开源也方兴未艾.尽管个人开源困难重重,还是有一些开发者仍然在努力做着这样& ...

  5. 中文文本纠错神器Pycorrector是如何收获2000 Star的?

    点击左上方蓝字关注我们 计算机行业发展至今,"开源"已逐渐成为技术茁壮成长最肥沃的土壤.而在中国,企业开源热闹非常,个人开源也方兴未艾.尽管运营一个个人开源项目需要耗费大量时间精力 ...

  6. idea的jsp如何显示语法高亮_如何啃下Python学习中的三块硬骨头?

    Python 根式字 [51CTO.com快译]众所周知,作为一门开源的高级编程语言,Python的用途十分广泛.它可以被用于不同的应用场景中,包括:开发基于桌面和Web的应用程序,分析访问数据,开发 ...

  7. Python 有名为poetry.txt的文件,删除第三行内容

    Python 删除txt文件的第三行内容 文章目录 Python 删除txt文件的第三行内容 前言 很逗的答案 正文 一.利用计数器,算出第几行进行删除 二.利用TXT内容的 \n 换行符,将文件内容 ...

  8. 从零开始运营微信公众号

    微信公众号我是正式从2022年2月份开始做的,定位是免费资源公众号分享.那时候公众号的粉丝还很少,大多都是身边朋友关注的,可以说黏性用户根本没有. 在2022年9月份的现在,我做公众号慢慢摸索到了一点 ...

  9. 【论文阅读】Spelling Error Correction with Soft-Masked BERT

    文章目录 论文内容 摘要(Abstract) 1. 介绍(Introduction) 2. 方法(Our Approach) 2.1 问题和思路(Problem and Motivation) 2.2 ...

最新文章

  1. [异常笔记] spring cloud 服务消费者启动-2018040501
  2. 【 MATLAB 】ellip 函数介绍(椭圆滤波器设计)
  3. [C++11]override关键字的使用
  4. 2018.3.30 边框应用与导航栏设置
  5. JSON.stringify()和JOSN.parse()
  6. 嵌入式 linux usb转串口,Linux下,USB转串口问题
  7. Bootstrap 排版h1~h6标题
  8. 倒数58天 -- 分治法 -- 使用循环求方程的一个解
  9. SAP License:什么是ERP、SAP?
  10. html文档中strokestyle,HTML5画布的StrokeStyle?(html5 canvas strokeStyle?)
  11. 不要轻易碰我,不然我就知道你有多软了 | Science Robotics
  12. 「leetcode」C++题解:15.三数之和 /3Sum 方法1:哈希法,方法2:排序+双指针,详细注释
  13. 数据库SQL Server DAC 导入导出数据到SQL Azure问题
  14. HADOOP docker(二):HDFS 高可用原理
  15. 2020-12-25
  16. 第一行输入一个正整数N,随后的N行各输入一个人的姓名和年龄,中间用空格分隔(形如 “Tom 18“),将字符串转为形如 {“name“:“Tom“,“age“:18} 的字典,按顺序加入到列表中,得到
  17. 手机支付宝服务器安全证书安装不了,手机上如何安装支付宝的安全证书?
  18. 陈潭:大数据战略实施的实践逻辑与行动框架
  19. 基于MQTT协议的Mosquitto的使用及libmosquitto客户端编程
  20. 计算机改显存会有啥影响,显卡显存越大越好吗?显存对电脑速度的影响有哪些?...

热门文章

  1. 使用Postman,生成接口测试文档
  2. mysql自定义函数IsNumeric
  3. C语言新手关机整蛊程序
  4. 朱啸虎:ChatGPT对创业公司很不友好,未来两三年内请大家放弃融资幻想
  5. 海关精准帮扶助力潮州糖果走出国门
  6. 软件、jar版本说明
  7. Linux 学习笔记(自己整理仅供自己复习)
  8. Python图形界面设计
  9. ESP32学习笔记(41)——SNTP接口使用
  10. 矩估计和极大似然估计