Python工具包-中文处理工具FoolNLTK
FoolNTLK的使用
简介
NLTK(自然语言处理工具包)可以说是五花八门,但是,用户wu.zheng开源的这个使用双向LSTM构建的中文处理工具包FoolNLTK,不仅可以实现分词、词性标注和命名实体识别,同时还能使用用户自定义字典加强分词的效果。该工具包Github官方地址,不过,最近的一次维护已经是一年前了。该工具包有Java版本,Pyhton版本后端使用TensorFlow。
工具包特点
- 可能不是最快的开源中文分词,但很可能是最准的开源中文分词
- 基于BiLSTM模型训练而成
- 包含分词,词性标注,实体识别, 都有比较高的准确率
- 用户自定义词典
- 可训练自己的模型
- 批量处理
参考论文
上述所说的BiLSTM可以参考这篇论文。
具体使用
安装
pip install foolnltk
安装默认下载模型。
分词
import fooldef cut_words():text = "一个傻子在北京"print(fool.cut(text))
也可以使用命令行对文件进行分词
python -m fool [filename]
可指定-b参数,每次切割的行数,能加快分词速度
用户自定义词典(类似jieba)
词典每一行格式如下,词的权重越高,词的长度越长就越越可能出现, 权重值请大于1
词语名称 权重值(建议整数且大于1)
加载词典并使用,示例如下。
def user_dict():import foolfool.load_userdict('myDict.txt')text = ["我在北京天安门看你难受香菇", "我在北京晒太阳你在非洲看雪"]print(fool.cut(text))
删除字典
fool.delete_userdict()
词性标注(标注规则见官方文档)
def cixinbiaozhu():import fooltext = ["一个傻子在北京"]print(fool.pos_cut(text))
实体识别
import fooltext = ["一个傻子在北京", "你好啊"]
words, ners = fool.analysis(text)
print(ners)
补充说明
我的环境是Linux下Python3环境,Windows环境下类似。找不到模型文件的, 可以看下sys.prefix,一般默认为/usr/local/。具体代码和配置好的Linux下的venv环境可以查看我的GitHub。
Python工具包-中文处理工具FoolNLTK相关推荐
- python tokenizer_中文分词工具 MiNLP-Tokenizer
MiNLP-Tokenizer 1. 工具介绍 MiNLP-Tokenizer是小米AI实验室NLP团队自研的中文分词工具,基于深度学习序列标注模型实现,在公开测试集上取得了SOTA效果.其具备以下特 ...
- Python中文分词工具大合集:安装、使用和测试
转自:AINLP 这篇文章事实上整合了之前文章的相关介绍,同时添加一些其他的Python中文分词相关资源,甚至非Python的中文分词工具,仅供参考. 首先介绍之前测试过的8款中文分词工具,这几款工具 ...
- python 分词工具训练_Python中文分词工具大合集:安装、使用和测试
这篇文章事实上整合了前面两篇文章的相关介绍,同时添加一些其他的Python中文分词相关资源,甚至非Python的中文分词工具,仅供参考. 首先介绍之前测试过的8款中文分词工具,这几款工具可以直接在AI ...
- 资源 | Python中文分词工具大合集
跟着博主的脚步,每天进步一点点 这篇文章事实上整合了之前文章的相关介绍,同时添加一些其他的Python中文分词相关资源,甚至非Python的中文分词工具,仅供参考. 首先介绍之前测试过的8款中文分词工 ...
- python100例 分词-Python中文分词工具之结巴分词用法实例总结【经典案例】
本文实例讲述了Python中文分词工具之结巴分词用法.分享给大家供大家参考,具体如下: 结巴分词工具的安装及基本用法,前面的文章<Python结巴中文分词工具使用过程中遇到的问题及解决方法> ...
- jieba库 python2.7 安装_Python中文分词工具大合集:安装、使用和测试
这篇文章事实上整合了前面两篇文章的相关介绍,同时添加一些其他的Python中文分词相关资源,甚至非Python的中文分词工具,仅供参考. 首先介绍之前测试过的8款中文分词工具,这几款工具可以直接在AI ...
- python英文语义角色标注_八款中文词性标注工具使用及在线测试
结束了中文分词工具的安装.使用及在线测试,开启中文词性标注在线测试之旅,一般来说,中文分词工具大多数都附带词性标注功能的,这里测试了之前在AINLP公众号上线的8款中文分词模块或者工具,发现它们都是支 ...
- 中文分词工具比较 6大中文分词器测试(哈工大LTP、中科院计算所NLPIR、清华大学THULAC和jieba、FoolNLTK、HanLP)
中文分词工具比较 6大中文分词器测试(jieba.FoolNLTK.HanLP.THULAC.nlpir.ltp) 哈工大LTP.中科院计算所NLPIR.清华大学THULAC和jieba 个人接触的分 ...
- python 中文分词工具
python 中文分词工具 jieba,https://github.com/fxsjy/jieba jieba_fast,https://github.com/deepcs233/jieba_fas ...
最新文章
- java freemarker 模版_Java模板引擎-FreeMarker
- 将字符串的部分保存,剩余删去,或只保留指定一段子字符串
- boost::program_options模块实现支持自定义选项语法的测试程序
- nssl1320,jzoj(初中)2108-买装备【dfs,水题】
- mysql案例~非常规操作汇总
- 清华寒门女孩毕业演讲刷爆网络:世界本不公平,努力是你唯一的路!
- 淘淘商城简介——淘淘商城(一)
- 各大快递电子面单---Api接口(顺丰、快递鸟、菜鸟)
- 进阶篇: ramdump分析--9 ram dump文件种类
- wps2005插件开发之旅
- Linux 命令大全完整版
- 光纤信号服务器,485转光纤的两种方式
- 自制StartUp宏病毒专杀小工具
- 植物大战僵尸 - 修改关卡和商店金钱
- 【无标题】A <Route> is only ever to be used as the child of <Routes> element, never rendered directly. Pl
- 2022美国小非农ADP数据发布时间一览表
- 转行面试,跳槽面试,软件测试人员都必须知道的这几种面试技巧
- html给图片和文字加链接 a标签的用法
- linux如何更改mac地址
- postfix中recipient/client/sender/helo四者的区别转载