python jieba库的基本使用

第一步：先安装jieba库

　　输入命令：pip install jieba

jieba库常用函数：

　　jieba库分词的三种模式：
　　1、精准模式：把文本精准地分开，不存在冗余
　　2、全模式：把文中所有可能的词语都扫描出来，存在冗余
　　3、搜索引擎模式：在精准模式的基础上，再次对长词进行切分

　　精准模式：

　　>>> import jieba
　　>>> jieba.lcut("中国是一个伟大的国家")
　　Building prefix dict from the default dictionary ...
　　Loading model from cache C:\Users\25282\AppData\Local\Temp\jieba.cache
　　Loading model cost 0.869 seconds.
　　Prefix dict has been built succesfully.
　　['中国', '是', '一个', '伟大', '的', '国家']

　　全模式：

　　>>> jieba.lcut("中国是一个伟大的国家",cut_all=True)
　　['中国', '国是', '一个', '伟大', '的', '国家']

　　搜索引擎模式：

　　>>> jieba.lcut_for_search("中华人民共和国是伟大的")
　　['中华', '华人', '人民', '共和', '共和国', '中华人民共和国', '是', '伟大', '的']

　　向分词词典增加新词：

　　>>> jieba.add_word("蟒蛇语言")
　　>>> jieba.lcut("python是蟒蛇语言")
　　['python', '是', '蟒蛇语言']

jieba库应用举例1 ——统计八荣八耻中出现的词汇

jieba库分词统计实例2--三国演义词汇

　（1）查找出“threekingdoms.txt”文件中出现频率前十位的词汇

　（2）统计出“threekingdoms.txt”文件 “关羽”、“曹操”、“诸葛亮”、“刘备” 等人名出现的次数

转载于:https://www.cnblogs.com/ltb6w/p/10886416.html

jieba(结巴)常用方法相关推荐

jieba分词_wordcloud词云美化——jieba结巴中文分词（将长句拆分）
大家好,上一篇文章<五行代码上手WordCloud词云--用一个重复的单词做一个单词云>已经带大家初步认识了词云的基本制作流程,本节教大家如何对长句进行拆分制作词云: 首先我们来了解这张图 ...
jieba结巴分词--关键词抽取_结巴中文分词原理分析2
作者:白宁超,工学硕士,现工作于四川省计算机研究院,著有<自然语言处理理论与实战>一书,作者公众号:机器学习和自然语言处理(公众号ID:datathinks) 结巴分词详解1中文分词介绍 ...
jieba结巴分词--关键词抽取_初学者 | 知否？知否？一文学会Jieba使用方法
欢迎关注同名微信公众号:AI小白入门.跟着博主的脚步,每天进步一点点哟我始终觉得,入门学习一件事情最好的方式就是实践,加之现在python如此好用,有越来越多的不错nlp的python库,所以接下来 ...
jieba结巴分词--关键词抽取_jieba分词的原理（文末有维特比算法讲解）
前言实习期间在做一个专利分析的项目,用到了文本处理的方法,大部分文本分析类的项目应该都离不开分词这个最基础的操作吧,我在做项目之前,在网上找了一些例子,搞清楚分词的代码处理流程,就直接在我的项目里用 ...
jieba结巴分词--关键词抽取（核心词抽取）
转自:http://www.cnblogs.com/zhbzz2007 欢迎转载,也请保留这段声明.谢谢! 1 简介关键词抽取就是从文本里面把跟这篇文档意义最相关的一些词抽取出来.这个可以追溯到文献 ...
jieba结巴分词加入自定义词典
文章目录分词返回generator 返回list 添加自定义词典动态调整词典参考 jieba官方文档分词返回generator jieba.cut 以及 jieba.cut_for_sea ...
jieba结巴分词器
安装: pip install jieba 相关知识: 三种分词模式: 1. 全模式 :把句子中所有可以成词的词语都扫描出来,速度非常快,但是不能解决歧义.这种全模式,会根据字典,将所有出现的字词全部 ...
jieba 结巴分词常用说明
安装全自动:easy_install jieba 或者 pip install jieba 或者pip3 install jieba 手动:jieba 目录放置于当前目录或者 site-packa ...
mysql使用结巴语句_结巴分词 java 高性能实现，是 huaban jieba 速度的 2倍
Segment Segment 是基于结巴分词词库实现的更加灵活,高性能的 java 分词实现. 创作目的分词是做 NLP 相关工作,非常基础的一项功能. jieba-analysis 作为一款非常 ...

jieba(结巴)常用方法