FoolNTLK的使用

简介

NLTK(自然语言处理工具包)可以说是五花八门,但是,用户wu.zheng开源的这个使用双向LSTM构建的中文处理工具包FoolNLTK,不仅可以实现分词、词性标注和命名实体识别,同时还能使用用户自定义字典加强分词的效果。该工具包Github官方地址,不过,最近的一次维护已经是一年前了。该工具包有Java版本,Pyhton版本后端使用TensorFlow。

工具包特点

  • 可能不是最快的开源中文分词,但很可能是最准的开源中文分词
  • 基于BiLSTM模型训练而成
  • 包含分词,词性标注,实体识别, 都有比较高的准确率
  • 用户自定义词典
  • 可训练自己的模型
  • 批量处理

参考论文

上述所说的BiLSTM可以参考这篇论文。

具体使用

安装

pip install foolnltk

安装默认下载模型。

分词

import fooldef cut_words():text = "一个傻子在北京"print(fool.cut(text))

也可以使用命令行对文件进行分词

python -m fool [filename]

可指定-b参数,每次切割的行数,能加快分词速度

用户自定义词典(类似jieba)

词典每一行格式如下,词的权重越高,词的长度越长就越越可能出现, 权重值请大于1

词语名称 权重值(建议整数且大于1)

加载词典并使用,示例如下。

def user_dict():import foolfool.load_userdict('myDict.txt')text = ["我在北京天安门看你难受香菇", "我在北京晒太阳你在非洲看雪"]print(fool.cut(text))

删除字典

 fool.delete_userdict()

词性标注(标注规则见官方文档)

def cixinbiaozhu():import fooltext = ["一个傻子在北京"]print(fool.pos_cut(text))

实体识别

 import fooltext = ["一个傻子在北京", "你好啊"]
words, ners = fool.analysis(text)
print(ners)

补充说明

我的环境是Linux下Python3环境,Windows环境下类似。找不到模型文件的, 可以看下sys.prefix,一般默认为/usr/local/。具体代码和配置好的Linux下的venv环境可以查看我的GitHub。

Python工具包-中文处理工具FoolNLTK相关推荐

  1. python tokenizer_中文分词工具 MiNLP-Tokenizer

    MiNLP-Tokenizer 1. 工具介绍 MiNLP-Tokenizer是小米AI实验室NLP团队自研的中文分词工具,基于深度学习序列标注模型实现,在公开测试集上取得了SOTA效果.其具备以下特 ...

  2. Python中文分词工具大合集:安装、使用和测试

    转自:AINLP 这篇文章事实上整合了之前文章的相关介绍,同时添加一些其他的Python中文分词相关资源,甚至非Python的中文分词工具,仅供参考. 首先介绍之前测试过的8款中文分词工具,这几款工具 ...

  3. python 分词工具训练_Python中文分词工具大合集:安装、使用和测试

    这篇文章事实上整合了前面两篇文章的相关介绍,同时添加一些其他的Python中文分词相关资源,甚至非Python的中文分词工具,仅供参考. 首先介绍之前测试过的8款中文分词工具,这几款工具可以直接在AI ...

  4. 资源 | Python中文分词工具大合集

    跟着博主的脚步,每天进步一点点 这篇文章事实上整合了之前文章的相关介绍,同时添加一些其他的Python中文分词相关资源,甚至非Python的中文分词工具,仅供参考. 首先介绍之前测试过的8款中文分词工 ...

  5. python100例 分词-Python中文分词工具之结巴分词用法实例总结【经典案例】

    本文实例讲述了Python中文分词工具之结巴分词用法.分享给大家供大家参考,具体如下: 结巴分词工具的安装及基本用法,前面的文章<Python结巴中文分词工具使用过程中遇到的问题及解决方法> ...

  6. jieba库 python2.7 安装_Python中文分词工具大合集:安装、使用和测试

    这篇文章事实上整合了前面两篇文章的相关介绍,同时添加一些其他的Python中文分词相关资源,甚至非Python的中文分词工具,仅供参考. 首先介绍之前测试过的8款中文分词工具,这几款工具可以直接在AI ...

  7. python英文语义角色标注_八款中文词性标注工具使用及在线测试

    结束了中文分词工具的安装.使用及在线测试,开启中文词性标注在线测试之旅,一般来说,中文分词工具大多数都附带词性标注功能的,这里测试了之前在AINLP公众号上线的8款中文分词模块或者工具,发现它们都是支 ...

  8. 中文分词工具比较 6大中文分词器测试(哈工大LTP、中科院计算所NLPIR、清华大学THULAC和jieba、FoolNLTK、HanLP)

    中文分词工具比较 6大中文分词器测试(jieba.FoolNLTK.HanLP.THULAC.nlpir.ltp) 哈工大LTP.中科院计算所NLPIR.清华大学THULAC和jieba 个人接触的分 ...

  9. python 中文分词工具

    python 中文分词工具 jieba,https://github.com/fxsjy/jieba jieba_fast,https://github.com/deepcs233/jieba_fas ...

最新文章

  1. java freemarker 模版_Java模板引擎-FreeMarker
  2. 将字符串的部分保存,剩余删去,或只保留指定一段子字符串
  3. boost::program_options模块实现支持自定义选项语法的测试程序
  4. nssl1320,jzoj(初中)2108-买装备【dfs,水题】
  5. mysql案例~非常规操作汇总
  6. 清华寒门女孩毕业演讲刷爆网络:世界本不公平,努力是你唯一的路!
  7. 淘淘商城简介——淘淘商城(一)
  8. 各大快递电子面单---Api接口(顺丰、快递鸟、菜鸟)
  9. 进阶篇: ramdump分析--9 ram dump文件种类
  10. wps2005插件开发之旅
  11. Linux 命令大全完整版
  12. 光纤信号服务器,485转光纤的两种方式
  13. 自制StartUp宏病毒专杀小工具
  14. 植物大战僵尸 - 修改关卡和商店金钱
  15. 【无标题】A <Route> is only ever to be used as the child of <Routes> element, never rendered directly. Pl
  16. 2022美国小非农ADP数据发布时间一览表
  17. 转行面试,跳槽面试,软件测试人员都必须知道的这几种面试技巧
  18. html给图片和文字加链接 a标签的用法
  19. linux如何更改mac地址
  20. postfix中recipient/client/sender/helo四者的区别转载

热门文章

  1. 自定义线程池-java内置线程池构造方法介绍
  2. 七牛云存储:通过SDK上传图片
  3. React相关资源推荐
  4. 静态static关键字修饰成员变量
  5. 初始化方法-创建对象时自动调用初始化方法
  6. Tomcat集群快速入门2
  7. 垃圾回收机制之复制算法
  8. 利用python进行数据分析第二版pdf百度云_参考《利用Python进行数据分析(第二版)》高清中文PDF+高清英文PDF+源代码...
  9. 白苹果了怎么强制开机_iphone X 手机进水开机卡白苹果怎么回事?
  10. 【面试】JAVA六种运算符详解及优先级