一、分词模式

二、自定义词典

注意：HMM模型（隐马尔可夫模型），可以识别新词

2.1 命令

jieba.load_userdict(filename) filename为自定义词典的路径

2.2 使用方式

在使用的时候，词典的格式和jieba分词器本身的分词器中的词典格式必须保持一致，一个词占一行，每一行分成三部分，一部分为词语，一部分为词频（可以省略），最后为词性（可以省略），用空格隔开。

三、关键词抽取（基于TF－IDF算法）

关键词抽取并且进行词向量化之后，才好进行下一步的文本分析，可以说这一步是自然语言处理技术中文本处理最基础的一步。提取出来的关键词是字典形式存储。

3.1 用jieba.analyse.extract_tags()

命令：

jieba.analyse.extract_tags(sentence,topK=20,withWeight=False,allowPos=())

参数：sentence：待提取文本
topK：返回几个TF/IDF权重最大的关键词，默认为20个
withWeight：是否返回关键词的权重值，默认为False
allowPos：仅包含指定词性的词，默认为空，即不筛选
例子：

import jieba.analyse
s="我好想去重庆找大瑞玩然后一起吃火锅喝冰奶茶啊"
for a,b in jieba.analyse.extract_tags(s,withWeight=True):print(a,b)

结果：

找大瑞 1.7078239289857142
喝冰 1.7078239289857142
吃火锅 1.5578493397714286
奶茶 1.4661559274571427
重庆 0.9241968538314286
一起 0.6959970096985714
然后 0.6867600907842857

3.2 用jieba.analyse.textrank(s)

和extract_tags的不同好像在于textrank进行了归一化。
命令：

jieba.analyse.textrank(sentence,topK=20,withWeight=False,allowPOS)

参数：和上述一样。
例子：

import jieba.analyse
s="不想上学啊啊啊啊"
a= jieba.analyse.textrank(s,withWeight=True)
print(a)

结果：

[('不想', 1.0), ('上学', 0.9961264494011037)]

四、词性标注

切出来的结果是generator。
例子：

s="这个十一月俺要去南京看枫叶、吃生煎和锅贴。"
for c,d in jieba.posseg.cut(s):print(c,d)

结果：

这个 r
十一月 m
俺 r
要 v
去 v
南京 ns
看 v
枫叶 n
、 x
吃生 v
煎 v
和 c
锅贴 n
。 x

paddle模式词性：

标签	含义	标签	含义	标签	含义	标签	含义
n	普通名词	f	方位名词	s	处所名词	t	时间
nr	人名	ns	地名	nt	机构名	nw	作品名
nz	其他专名	v	普通动词	vd	动副词	vn	名动词
a	形容词	ad	副行词	an	名形词	d	副词
m	数量词	q	量词	r	代词	p	介词
c	连词	u	助词	xc	其他虚词	w	标点符号
PER	人名	LOC	地名	ORG	机构名	TIME	时间

五、并行分词

注意：windows不支持并行分词
命令：jieba.enable_parallel(4)，参数代表并行进程数
jieba.disable_parallel(),关闭并行分词模式

六、返回词语在原文的起止位置

使用jieba.tokenize可以返回词语在原文的起始位置
注意：输入参数只接受unicode

result = jieba.tokenize(u'上海益民食品一厂有限公司')
print("【普通模式】")
for tk in result:print("word: {0} \t\t start: {1} \t\t end: {2}".format(tk[0],tk[1],tk[2]))

中文分词jieba学习笔记相关推荐

中文分词方法汇总笔记
中文分词方法汇总笔记分词难点分词方法传统基于字典(规则分词) 基于机器学习的分词方法统计分词语言模型隐马尔可夫 HMM 模型其他分词工具和云服务其他感谢知乎 @华天清的总结分词 ...
中文分词jieba python 学习
中文分词工具,结巴分词很好用,以下是验证小结. import jieba import jieba.analyse import jieba.posseg as pseg import time fi ...
Python中文分词--jieba的基本使用
中文分词的原理 1.中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词. 分词就是将连续的字序列按照一定的规范重新组合成词序列的过程 2.现有的 ...
中文分词(jieba)
中文分词中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词.分词就是将连续的字序列按照一定的规范重新组合成词序列的过程.jieba 是目前Py ...
Python中文分词 jieba 十五分钟入门与进阶
文章目录整体介绍三种分词模式与一个参数关键词提取中文歧义测试与去除停用词三种可以让分词更准确的方法并行计算整体介绍 jieba 基于Python的中文分词工具,安装使用非常方便,直接pi ...
盘古分词工具学习笔记
下载了盘古分词工具,学习工具使用的同时学习中文分词基础. 1. 一元分词/二元分词/多元分词/精确分词一元分词是按字拆分的,比如一句话"梦想很丰满",在盘古分词中使用一元分词拆 ...
[非卷积5D中文翻译及学习笔记] 神经辐射场 NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
不使用3D建模,使用静态图片进行训练,用(非卷积)深度网络表示场景的5D连续体表示,再通过ray marching进行渲染. 本中文翻译使用"机器学习+人工校准/注解"的方式完成. ...
使用python进行“中文词频分析”学习笔记
首先什么是"词频分析"? 词频分析,就是对某一或某些给定的词语在某文件中出现的次数进行统计分析. 那么它能做哪些事情? 比如:分析你最喜欢的作者的表达习惯是怎样的? 判断一首诗是李 ...
python中文分词---jieba
原文地址:http://blog.csdn.net/sherlockzoom/article/details/44566425 jieba "结巴"中文分词:做最好的 Python ...

中文分词jieba学习笔记