分词在自然语言处理中有着常见的场景,比如从一篇文章自动提取关键词就需要用到分词工具,中文搜索领域同样离不开分词,python中,有很多开源的分词工具。下面来介绍以下常见的几款。

1. jieba 分词

“结巴”分词,GitHub最受欢迎的分词工具,立志做最好的 Python 中文分词组件,支持多种分词模式,支持自定义词典。

github star:26k

代码示例

import jiebastrs=["我来到北京清华大学","乒乓球拍卖完了","中国科学技术大学"]for str in strs:seg_list = jieba.cut(str,use_paddle=True) # 使用paddle模式print("Paddle Mode: " + '/'.join(list(seg_list)))seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print("全模式: " + "/ ".join(seg_list))  # 全模式seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print("精确模式: " + "/ ".join(seg_list))  # 精确模式seg_list = jieba.cut("他来到了网易杭研大厦")  # 默认是精确模式
print("新词识别:", ",".join(seg_list))seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所,后在日本京都大学深造")  # 搜索引擎模式
print("搜索引擎模式:", ".join(seg_list))

输出:

【全模式】: 我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学【精确模式】: 我/ 来到/ 北京/ 清华大学【新词识别】:他, 来到, 了, 网易, 杭研, 大厦    (此处,“杭研”并没有在词典中,但是也被Viterbi算法识别出来了)【搜索引擎模式】: 小明, 硕士, 毕业, 于, 中国, 科学, 学院, 科学院, 中国科学院, 计算, 计算所, 后, 在, 日本, 京都, 大学, 日本京都大学, 深造

github地址:https://github.com/fxsjy/jieba

2. pkuseg 分词

pkuseg 是北大语言计算与机器学习研究组开源的一款分词工具,它的特点是支持多领域分词,目前支持新闻领域,网络领域,医药领域,旅游领域,以及混合领域的分词预训练模型,用户可以自由地选择不同的模型。相比通用分词工具,它的分词准确率更高 。

github star:5.4k

代码示例

import pkusegseg = pkuseg.pkuseg()           # 以默认配置加载模型
text = seg.cut('python是一门很棒的语言')  # 进行分词
print(text)

输出

['python', '是', '一', '门', '很', '棒', '的', '语言']

github地址:https://github.com/lancopku/pkuseg-python

3. FoolNLTK 分词

基于BiLSTM模型训练而成,据说可能是最准的开源中文分词,同样支持用户自定义词典。

GitHub  star: 1.6k

代码示例

import fooltext = "一个傻子在北京"
print(fool.cut(text))
# ['一个', '傻子', '在', '北京']

github地址:https://github.com/rockyzhengwu/FoolNLTK

4. THULAC

THULAC由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包。具有词性标注功能,能分析出某个词是名词还是动词或者形容词。

github star:1.5k

 代码示例1代码示例1import thulac  thu1 = thulac.thulac()  #默认模式text = thu1.cut("我爱北京天安门", text=True)  #进行一句话分词print(text) # 我_r 爱_v 北京_ns 天安门_ns代码示例2thu1 = thulac.thulac(seg_only=True)  #只进行分词,不进行词性标注thu1.cut_f("input.txt", "output.txt")  #对input.txt文件内容进行分词,输出到output.txt

github地址:https://github.com/thunlp/THULAC-Python

python分词工具,你用哪个相关推荐

  1. python 分词工具训练_中文分词入门和分词工具汇总攻略

    [注意]如果寻找分词和文本分析软件,为了完成内容分析和其他文本研究任务,直接使用集搜客分词和文本分析软件就可以了.本文是为了讲解集搜客分词和文本分析的实现原理,是给产品设计者和开发者看的. 最近在整理 ...

  2. python 分词工具训练_Python中文分词工具大合集:安装、使用和测试

    这篇文章事实上整合了前面两篇文章的相关介绍,同时添加一些其他的Python中文分词相关资源,甚至非Python的中文分词工具,仅供参考. 首先介绍之前测试过的8款中文分词工具,这几款工具可以直接在AI ...

  3. python 分词工具对比_分词工具使用解析

    1.现有的分词工具包 由于中文文本词与词之间没有像英文那样有空格分隔,因此很多时候中文文本操作都涉及切词,因此我上网整理了一些中文分词工具.这些分词工具大都是基于JAVA语言. perminusmin ...

  4. python 分词工具_「分词工具」干货 | 史上最全中文分词工具整理 - seo实验室

    分词工具 作者 | fendouai 分词服务接口列表 二.准确率评测: THULAC:与代表性分词软件的性能对比 我们选择LTP-3.2.0 .ICTCLAS(2015版) .jieba(C++版) ...

  5. python 分词工具对比_五款中文分词工具在线PK: Jieba, SnowNLP, PkuSeg, THULAC, HanLP

    最近玩公众号会话停不下来: 玩转腾讯词向量:Game of Words(词语的加减游戏) ,准备把NLP相关的模块搬到线上,准确的说,搬到AINLP公众号后台对话,所以,趁着劳动节假期,给AINLP公 ...

  6. python 分词工具 jieba

        全几天看到高手下了个jieba分词快速入门的东西  ,希望关注我博客的人也能看得到 https://github.com/SalutLyndon/hello-world/blob/master ...

  7. 自然语言处理系列十七》中文分词》分词工具实战》Python的Jieba分词

    注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书<分布式机器学习实战>(人工智能科学与技术丛书)[陈敬雷编著][清华大学出版社] 文章目录 自然语言处理系列十七 分词工 ...

  8. python 中文分词工具

    python 中文分词工具 jieba,https://github.com/fxsjy/jieba jieba_fast,https://github.com/deepcs233/jieba_fas ...

  9. 『开发技术』Python中文分词工具SnowNLP教程

    介绍一个好用多功能的Python中文分词工具SnowNLP,全称Simplified Chinese Text Processing.在实现分词的同时,提供转换成拼音(Trie树实现的最大匹配)及繁体 ...

  10. 资源 | Python中文分词工具大合集

    跟着博主的脚步,每天进步一点点 这篇文章事实上整合了之前文章的相关介绍,同时添加一些其他的Python中文分词相关资源,甚至非Python的中文分词工具,仅供参考. 首先介绍之前测试过的8款中文分词工 ...

最新文章

  1. 常用地理数据平台及环境数据资源 (GIS)
  2. 怎么在python下载网站内容-用Python下载一个网页保存为本地的HTML文件实例
  3. java安全编码指南之:Number操作
  4. c++------------之---【虚函数和抽象基类的应用】
  5. 唯有自己变得强大_强大自己!(经典)
  6. vue + 高德地图 + 图例
  7. PR 音频去噪、音频信号增强、音频导出wav文件;
  8. 30岁学前端晚不晚?别被年龄定义你的人生!
  9. 木马万能查杀清除方法,木马专杀
  10. TortoiseSVN 打Tags
  11. 鸿蒙系统官网电脑版,华为鸿蒙pc系统
  12. 专科学历事业单位工资计算机,【事业单位工资标准表】 事业单位学历工资标准...
  13. python中的帮助系统_python系统模块
  14. anaconda快捷键
  15. 优化算法系列-模拟退火算法(1)——基本原理枯燥版本
  16. Oracle 版本查看及版本号说明
  17. DIV自动填满剩余空间
  18. linux命令行下写for语句,Linux命令行 – 流程控制:for 循环
  19. 小括号教学设计导入_括号教学设计
  20. C6678+K7+AD9253/AD9783 8路AD高速信号处理板

热门文章

  1. 行测中图形推理题的规律
  2. 医疗健康APP的开发和设计
  3. IIS安装和URL Rewrite 重写配置、反向代理配置
  4. 金字塔原理——表达的逻辑
  5. 笔记本风扇控制程序,支持蓝天模具笔记本
  6. 520 miix 小兵 黑苹果,Hackintosh黑苹果长期维护机型整理清单
  7. 亚马逊平板刷机Linux系统,亚马逊平板刷机步骤是什么样的?
  8. html表格的行合并代码,HTML代码制作的表格合并单元格教程
  9. 曼昆微观经济学第8版笔记和课后习题答案
  10. 东华大学计算机专业在哪个校区,东华大学有几个校区及地址