jieba(结巴)—— Python 中文分词
学术界著名的分词器:
- 中科院的 ICTCLAS,代码并不十分好读
- 哈工大的 ltp,
- 东北大学的 NIU Parser,
另外,中文 NLP 和英文 NLP 不太一致的地方还在于,中文首先需要分词,针对中文的分词问题,有两种基本的解决思路:
- 启发式(Heuristic):查字典
- 机器学习/统计方法:HMM、CRF
jieba 分词是python写成的一个算是工业界的分词开源库,其 github 地址为:<a href=“https://github.com/fxsjy/jieba”, target="_blank">https://github.com/fxsjy/jieba
jieba 分词虽然效果上不如 ICTCLAS 和 ltp,但是胜在 python 编写,代码清晰,扩展性好,对 jieba 有改进的想法可以很容易的自己写代码进行魔改。
<a href=“https://segmentfault.com/a/1190000004061791”, target="_blank">jieba分词学习笔记(一)
0. install
有两种方式:
- 进入 cmd:
pip install jiebe
- 在 <a href=“https://pypi.python.org/pypi/jieba/”, target="_blank">https://pypi.python.org/pypi/jieba/,下载 jieba-0.38.zip
- 解压后,执行
python setup.py install
- 解压后,执行
1. jieba 的特色
支持三种分词模式,对于
sentence = '我来到了陕西西安'
:- 精确模式(也是默认模式),试图将句子最精确地切开,适合文本分析;
>> '/'.join(jieba.cut(sentence)) 我/来到/了/陕西/西安 >> '/'.join(jieba.cut(sentence, cut_all=False)) 我/来到/了/陕西/西安
- 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;
>> '/'.join(jieba.cut(sentence, cut_all=True)) '我/来到/了/陕西/西西/西安'
- 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。
>> '/'.join(jieba.cut_for_search("⼩小明硕⼠士毕业于中国科学院计算所,后在⽇日本京都⼤大学深造")) '⼩/小明硕/⼠/士/毕业/于/中国/科学/学院/科学院/中国科学院/计算/计算所/,/后/在/⽇/日本/京都/⼤/大学/深造'
支持繁体分词
支持自定义词典
MIT 授权协议
jieba(结巴)—— Python 中文分词相关推荐
- jieba,为中文分词而生的Python库
jieba,为中文分词而生的Python库 中文分词,通俗来说,就是将一句(段)话按一定的规则(算法)拆分成词语.成语.单个文字. 中文分词是很多应用技术的前置技术,如搜索引擎.机器翻译.词性标注.相 ...
- “结巴”中文分词:做最好的 Python 中文分词组件
jieba "结巴"中文分词:做最好的 Python 中文分词组件 "Jieba" (Chinese for "to stutter") C ...
- [工具]python中文分词---【jieba】
jieba "结巴"中文分词:做最好的 Python 中文分词组件 "Jieba" (Chinese for "to stutter") C ...
- python 中文分词_python中文分词,使用结巴分词对python进行分词(实例讲解)
在采集 中文分词是中文文本处理的一个基础性工作,结巴分词利用进行中文分词. 其基本实现原理有三点: 1.基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG) ...
- python中文分词---jieba
原文地址:http://blog.csdn.net/sherlockzoom/article/details/44566425 jieba "结巴"中文分词:做最好的 Python ...
- python100例 分词-Python中文分词工具之结巴分词用法实例总结【经典案例】
本文实例讲述了Python中文分词工具之结巴分词用法.分享给大家供大家参考,具体如下: 结巴分词工具的安装及基本用法,前面的文章<Python结巴中文分词工具使用过程中遇到的问题及解决方法> ...
- 【NLP】jieba分词-Python中文分词领域的佼佼者
1. jieba的江湖地位 NLP(自然语言)领域现在可谓是群雄纷争,各种开源组件层出不穷,其中一支不可忽视的力量便是jieba分词,号称要做最好的 Python 中文分词组件. "最好的& ...
- 基于python中jieba包的中文分词中详细使用(一)
文章目录 基于python中jieba包的中文分词中详细使用(一) 01.前言 02.jieba的介绍 02.1 What 02.2特点 02.3安装与使用 02.4涉及到的算法 03.主要功能 03 ...
- 基于python中jieba包的中文分词中详细使用(二)
文章目录 基于python中jieba包的中文分词中详细使用(二) 01.前言 02.关键词提取 02.01基于TF-IDF算法的关键词提取 02.02词性标注 02.03并行分词 02.04Toke ...
- 基于python中jieba包的中文分词中详细使用
基于python中jieba包的中文分词中详细使用(一) 01.前言 之前的文章中也是用过一些jieba分词但是基本上都是处于皮毛,现在就现有的python环境中对其官方文档做一些自己的理解以及具体的 ...
最新文章
- Git(一)之基本操作详解
- Map集合的遍历(java)
- mysql 时间差函数 timestampdiff datediff 简介
- 2022年了我才发现Chrome原来可以直接生成二维码...
- VTK:模型之DelaunayMesh
- Ext.net中的MessageBox的简单应用
- 分享一个NHibernate的博客链接
- idea debug的时候 启动起来超级慢
- ssh-keygen的使用方法及配置authorized_keys两台linux机器相互认证
- Aop 是面向切面编程,
- 楼天成 中国大学生编程第一人
- 关于8.0出现Only fullscreen opaque activities can request orientation
- 打怪游戏 勇者打恶龙1.6(1.7)
- 苹果手机怎么在照片上添加文字_要给照片快速添加文字、图框、印章,用这款手机软件比较方便...
- 一对一直播源码一对一直播源码搭建你要知道的功能
- 局域网本地连接计算机,Windows XP下让电脑通过无线网卡共享本地连接实现局域网共享宽带上网...
- 如何快速定位 elastic search 运行出现的 bug HTTP/1.1 400 Bad Request type is missing VALUE_NUMBER_INT
- 市场调研报告-全球与中国溶剂净化器市场现状及未来发展趋势
- 前端基础入门之css像素与视口和媒体查询
- mysql扩展之mysqli
热门文章
- python练手程序_写的python练习程序
- Nginx高可用-Keepalived
- Scala初步学习(三)
- vue-html5-editor接收数据,在vue中获取wangeditor的html和text的操作
- 地理信息系统概论_2021考研专业课地理信息系统概论(黄杏元版)知识点总结(五)...
- 括号表示法字符串构造二叉树_一篇文章学会二叉树和二叉查找树
- Conditional Expectation Entropy
- C++设计模式之Strategy(策略模式)
- lvm硬盘管理及LVM扩容
- 查看mysql所有命令