目录

初步认识pycorrector:

下载安装工具包:

pycorrector初步演示:

总结回顾:


一、初步认识pycorrector:

简介:

  • 中文文本纠错工具。音似、形似错字(或变体字)纠正,可用于中文拼音、笔画输入法的错误纠正。python3.6开发。

常见类型错误:

  • 谐音字词,如 配副眼睛-配副眼镜
  • 混淆音字词,如 流浪织女-牛郎织女
  • 字词顺序颠倒,如 伍迪艾伦-艾伦伍迪
  • 字词补全,如 爱有天意-假如爱有天意
  • 形似字错误,如 高梁-高粱
  • 中文拼音全拼,如 xingfu-幸福
  • 中文拼音缩写,如 sz-深圳
  • 语法错误,如 想象难以-难以想象

二、下载安装工具包:

步骤:

  1. 下载kenlm
  2. 下载pycorrector

①Kenlm:

pip install https://github.com/kpu/kenlm/archive/master.zip

注意此处是要在自己想要使用该工具包的项目下的Lib中下载哦,否则下载后会出现使用不太成功的样子。

下面是下载成功的截图:

可以看到对应的Lib列表中生成对应文件:kenlm.cp310-win_amd64.pyd

缺失该文件会使得接下来的pycorrector工具包不能使用,因此需要先安装下载,并且不要出现中文路径哦。

②Pycorrector:

pip install pycorrector

(此处忘记截图省略下载成功图)


三、pycorrector初步演示:

提示:事不宜迟,下载完立马进行演示!

下载kenlm和pycorrector工具包之后就可以开始进行测试啦!

例如下面的简短代码段:

import pycorrectorcorrected_sent, detail = pycorrector.correct('少先队员因该为老人让坐')
print(corrected_sent, detail)

运行之后需要加载模型,可以看到这个时间并不是一眨眼

准确来说足足加载了701s,加载完之后给了个开门红惊喜:

真的是让人错不及防,好在撇开了红红不说,结果也顺利地出现了,可以看到pycorrector工具包成功地将错误结果显示出来:

少先队员应该为老人让座 [('因该', '应该', 4, 6), ('坐', '座', 10, 11)]

返回的第一个参数corrected_sent是修改后的正确字符串,

第二个参数detail则是包涵各个错别字的List

那么上面的代码敲法为什么会出现红红呢,难道是pycorrector工具包不能屈屈于某方法之内,于是当我把在方法中使用pycorrector的代码去掉之后:

可以看到红红转身向山海走去!!!

具体原因很复杂。

当放大图片仔细比对之后会发现,居然是第14行代码比第8行代码多敲了一个“or”,也就是pycorrector.correct被误敲成pycorrector.corrector!!!

此时字里行间已透露着许多心酸的眼泪,因为就是这个红红Bug导致好几天下载了一大堆没有用的工具包。。。本以为是kenlm下载不好,便去下载visualcppbuildtools_full,这个tool安装不了又找了上G的安装包几K几K下载,结果不行,又去弄了个git,使用gitBash下载kenlm:pip install -e git+https://github.com/kpu/kenlm.git#egg=kenlm下载成功后发现依旧解决不了这个Bug......

这个故事告诉我们,初学者最好不要自己对着大佬的贴子敲代码,即使是你贴子什么都看不懂只剩下对屏幕敲这个功能,能复制的先复制,因为不知道Bug和敲错哪个会先来到。


四、总结回顾:

末尾:今天的1分钟学习到此为止啦

  • 使用pycorrector需要用到两个工具包:kenlm、pycorrector
  • 注意先后下载安装顺序
  • 使用pip的时候需要切换到对应的项目中的Lib,如E:\Python\Project\pycorrector_project\venv\Lib\site-packages

最后上链接,感谢从中获益的贴子:

【深度学习】PyCorrector中文文本纠错实战_海贼王的博客的博客-CSDN博客_pycorrector

【自然语言处理 文本纠错】10分钟了解下文本纠错框架pycorrector_东华果汁哥的博客-CSDN博客_pycorrector

【NLP】1分钟理清文本纠错框架pycorrector相关推荐

  1. 中文文本纠错神器Pycorrector是如何收获2000 Star的?

    点击左上方蓝字关注我们 计算机行业发展至今,"开源"已逐渐成为技术茁壮成长最肥沃的土壤.而在中国,企业开源热闹非常,个人开源也方兴未艾.尽管运营一个个人开源项目需要耗费大量时间精力 ...

  2. 文本纠错pycorrector

    原文链接:https://blog.csdn.net/javastart/article/details/107428483 这一段时间再研究身份证和面单识别项目,总发现一些识别准确率问题,在想办法提 ...

  3. lstm 文本纠错_中文文本纠错算法错别字纠正的二三事

    本文首先介绍一下: 1)错别字的类型有哪些 2)错别字纠正的关键技术和关键点 3)简要介绍我们项目中采用的文本纠错框架 4)介绍错别字项目的个人体会 5)几个现成的工具包 ,百度nlp平台最近也推出了 ...

  4. lstm 文本纠错_中文文本纠错算法--错别字纠正的二三事

    本文首先介绍一下: 1)错别字的类型有哪些 2)错别字纠正的关键技术和关键点 3)简要介绍我们项目中采用的文本纠错框架 4)介绍错别字项目的个人体会 5)几个现成的工具包 ,百度nlp平台最近也推出了 ...

  5. 中文拼写纠错_中文文本纠错算法--错别字纠正的二三事

    本文首先介绍一下: 1)错别字的类型有哪些 2)错别字纠正的关键技术和关键点 3)简要介绍我们项目中采用的文本纠错框架 4)介绍错别字项目的个人体会 5)几个现成的工具包 ,百度nlp平台最近也推出了 ...

  6. [文本纠错] pycorrector框架训练

    深度模型使用说明 Install 全自动安装:pip install pycorrector 半自动安装: git clone https://github.com/shibing624/pycorr ...

  7. [文本纠错] pycorrector框架测试

    pycorrector:https://github.com/shibing624/pycorrector pycorrector 中文文本纠错工具.音似.形似错字(或变体字)纠正,可用于中文拼音.笔 ...

  8. nlp 中文文本纠错_百度中文纠错技术

    原标题:百度中文纠错技术 分享嘉宾:付志宏 百度资深研发工程师 编辑整理:李润顺 内容来源:Baidu Brain & DataFun AI Talk<百度中文纠错技术> 出品社区 ...

  9. NLP(四十八)使用kenlm进行文本纠错

      本文将会介绍如何使用kenlm工具进行文本纠错.   kenlm是用C++编写的语言模型工具,可以方便.快速地计算n-gram.kenlm工具的首页网址为:https://kheafield.co ...

最新文章

  1. java学习笔记-java中运算符号的优先顺序
  2. 我的Pandas学习经历及动手实践
  3. ISP_MPLS *** 理论笔记
  4. 微信小程序——tab切换内容
  5. 计组(唐朔飞)第一章自我总结
  6. Mysql 索引-1
  7. canvas beginPath()的初步理解
  8. 请实现一个函数,将一个字符串中的每个空格替换成...
  9. 关于C#的sqlite数据库操作类
  10. 【PRML 学习笔记】第一章 - 介绍 (Introduction)
  11. 测试显卡cpu中文软件,显卡信息检测工具(GPUinfo)
  12. 8-9 魔术师_动画魔术师:将作弊变成艺术形式的8种方法
  13. 20190131-JS - Promise使用详解--摘抄笔记
  14. (10) IFC中的构件与空间结构(IfcRelContainedInSpatialStructure) (Industry Foundation Class)
  15. linux基础教程之部署Go语言程序到Linux服务器
  16. linux pvs命令安装,使用linux的pvs命令格式化输出物理卷信息报表
  17. 我使用Hexo+Github搭建Blog的经验
  18. 基于Android的旅游景点推荐
  19. 【正则表达式验证邮箱】
  20. 互联网如何基于4P理论做运营?

热门文章

  1. 全球及中国警用身体佩戴相机行业研究及十四五规划分析报告
  2. Spring开发Service层
  3. CentOS 上最佳的第三方仓库
  4. 图像亮度、对比度计算
  5. web前端开发在微博/帖子/评论/博客等所用的几种常用编辑器
  6. 施工现场常见安全隐患、违规违章行为大全,80页PPT下载
  7. 如何实现微信公众号本地调试
  8. 垃圾收集器的的一些基本算法
  9. NBA 2007 live 安装DirectX问题解决
  10. 宽带连接远程计算机691,联网错误691什么意思,错误691已拒绝远程连接-