学术界著名的分词器:

  • 中科院的 ICTCLAS,代码并不十分好读
  • 哈工大的 ltp,
  • 东北大学的 NIU Parser,

另外,中文 NLP 和英文 NLP 不太一致的地方还在于,中文首先需要分词,针对中文的分词问题,有两种基本的解决思路:

  • 启发式(Heuristic):查字典
  • 机器学习/统计方法:HMM、CRF

jieba 分词是python写成的一个算是工业界的分词开源库,其 github 地址为:<a href=“https://github.com/fxsjy/jieba”, target="_blank">https://github.com/fxsjy/jieba

jieba 分词虽然效果上不如 ICTCLAS 和 ltp,但是胜在 python 编写,代码清晰,扩展性好,对 jieba 有改进的想法可以很容易的自己写代码进行魔改。

<a href=“https://segmentfault.com/a/1190000004061791”, target="_blank">jieba分词学习笔记(一)

0. install

有两种方式:

  • 进入 cmd:pip install jiebe
  • 在 <a href=“https://pypi.python.org/pypi/jieba/”, target="_blank">https://pypi.python.org/pypi/jieba/,下载 jieba-0.38.zip
    • 解压后,执行 python setup.py install

1. jieba 的特色

  • 支持三种分词模式,对于 sentence = '我来到了陕西西安'

    • 精确模式(也是默认模式),试图将句子最精确地切开,适合文本分析;
    >> '/'.join(jieba.cut(sentence))
    我/来到/了/陕西/西安
    >> '/'.join(jieba.cut(sentence, cut_all=False))
    我/来到/了/陕西/西安
    
    • 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;
    >> '/'.join(jieba.cut(sentence, cut_all=True))
    '我/来到/了/陕西/西西/西安'
    
    • 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。
    >> '/'.join(jieba.cut_for_search("⼩小明硕⼠士毕业于中国科学院计算所,后在⽇日本京都⼤大学深造"))
    '⼩/小明硕/⼠/士/毕业/于/中国/科学/学院/科学院/中国科学院/计算/计算所/,/后/在/⽇/日本/京都/⼤/大学/深造'
    
  • 支持繁体分词

  • 支持自定义词典

  • MIT 授权协议

jieba(结巴)—— Python 中文分词相关推荐

  1. jieba,为中文分词而生的Python库

    jieba,为中文分词而生的Python库 中文分词,通俗来说,就是将一句(段)话按一定的规则(算法)拆分成词语.成语.单个文字. 中文分词是很多应用技术的前置技术,如搜索引擎.机器翻译.词性标注.相 ...

  2. “结巴”中文分词:做最好的 Python 中文分词组件

    jieba "结巴"中文分词:做最好的 Python 中文分词组件 "Jieba" (Chinese for "to stutter") C ...

  3. [工具]python中文分词---【jieba】

    jieba "结巴"中文分词:做最好的 Python 中文分词组件 "Jieba" (Chinese for "to stutter") C ...

  4. python 中文分词_python中文分词,使用结巴分词对python进行分词(实例讲解)

    在采集 中文分词是中文文本处理的一个基础性工作,结巴分词利用进行中文分词. 其基本实现原理有三点: 1.基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG) ...

  5. python中文分词---jieba

    原文地址:http://blog.csdn.net/sherlockzoom/article/details/44566425 jieba "结巴"中文分词:做最好的 Python ...

  6. python100例 分词-Python中文分词工具之结巴分词用法实例总结【经典案例】

    本文实例讲述了Python中文分词工具之结巴分词用法.分享给大家供大家参考,具体如下: 结巴分词工具的安装及基本用法,前面的文章<Python结巴中文分词工具使用过程中遇到的问题及解决方法> ...

  7. 【NLP】jieba分词-Python中文分词领域的佼佼者

    1. jieba的江湖地位 NLP(自然语言)领域现在可谓是群雄纷争,各种开源组件层出不穷,其中一支不可忽视的力量便是jieba分词,号称要做最好的 Python 中文分词组件. "最好的& ...

  8. 基于python中jieba包的中文分词中详细使用(一)

    文章目录 基于python中jieba包的中文分词中详细使用(一) 01.前言 02.jieba的介绍 02.1 What 02.2特点 02.3安装与使用 02.4涉及到的算法 03.主要功能 03 ...

  9. 基于python中jieba包的中文分词中详细使用(二)

    文章目录 基于python中jieba包的中文分词中详细使用(二) 01.前言 02.关键词提取 02.01基于TF-IDF算法的关键词提取 02.02词性标注 02.03并行分词 02.04Toke ...

  10. 基于python中jieba包的中文分词中详细使用

    基于python中jieba包的中文分词中详细使用(一) 01.前言 之前的文章中也是用过一些jieba分词但是基本上都是处于皮毛,现在就现有的python环境中对其官方文档做一些自己的理解以及具体的 ...

最新文章

  1. Git(一)之基本操作详解
  2. Map集合的遍历(java)
  3. mysql 时间差函数 timestampdiff datediff 简介
  4. 2022年了我才发现Chrome原来可以直接生成二维码...
  5. VTK:模型之DelaunayMesh
  6. Ext.net中的MessageBox的简单应用
  7. 分享一个NHibernate的博客链接
  8. idea debug的时候 启动起来超级慢
  9. ssh-keygen的使用方法及配置authorized_keys两台linux机器相互认证
  10. Aop 是面向切面编程,
  11. 楼天成 中国大学生编程第一人
  12. 关于8.0出现Only fullscreen opaque activities can request orientation
  13. 打怪游戏 勇者打恶龙1.6(1.7)
  14. 苹果手机怎么在照片上添加文字_要给照片快速添加文字、图框、印章,用这款手机软件比较方便...
  15. 一对一直播源码一对一直播源码搭建你要知道的功能
  16. 局域网本地连接计算机,Windows XP下让电脑通过无线网卡共享本地连接实现局域网共享宽带上网...
  17. 如何快速定位 elastic search 运行出现的 bug HTTP/1.1 400 Bad Request type is missing VALUE_NUMBER_INT
  18. 市场调研报告-全球与中国溶剂净化器市场现状及未来发展趋势
  19. 前端基础入门之css像素与视口和媒体查询
  20. mysql扩展之mysqli

热门文章

  1. python练手程序_写的python练习程序
  2. Nginx高可用-Keepalived
  3. Scala初步学习(三)
  4. vue-html5-editor接收数据,在vue中获取wangeditor的html和text的操作
  5. 地理信息系统概论_2021考研专业课地理信息系统概论(黄杏元版)知识点总结(五)...
  6. 括号表示法字符串构造二叉树_一篇文章学会二叉树和二叉查找树
  7. Conditional Expectation Entropy
  8. C++设计模式之Strategy(策略模式)
  9. lvm硬盘管理及LVM扩容
  10. 查看mysql所有命令