jieba(结巴)常用方法
python jieba库的基本使用
第一步:先安装jieba库
输入命令:pip install jieba
jieba库常用函数:
jieba库分词的三种模式:
1、精准模式:把文本精准地分开,不存在冗余
2、全模式:把文中所有可能的词语都扫描出来,存在冗余
3、搜索引擎模式:在精准模式的基础上,再次对长词进行切分
精准模式:
>>> import jieba
>>> jieba.lcut("中国是一个伟大的国家")
Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\25282\AppData\Local\Temp\jieba.cache
Loading model cost 0.869 seconds.
Prefix dict has been built succesfully.
['中国', '是', '一个', '伟大', '的', '国家']
全模式:
>>> jieba.lcut("中国是一个伟大的国家",cut_all=True)
['中国', '国是', '一个', '伟大', '的', '国家']
搜索引擎模式:
>>> jieba.lcut_for_search("中华人民共和国是伟大的")
['中华', '华人', '人民', '共和', '共和国', '中华人民共和国', '是', '伟大', '的']
向分词词典增加新词:
>>> jieba.add_word("蟒蛇语言")
>>> jieba.lcut("python是蟒蛇语言")
['python', '是', '蟒蛇语言']
jieba库应用举例1 ——统计八荣八耻中出现的词汇
jieba库分词统计实例2--三国演义词汇
(1)查找出“threekingdoms.txt”文件中出现频率前十位的词汇
(2)统计出“threekingdoms.txt”文件 “关羽”、“曹操”、“诸葛亮”、“刘备” 等人名出现的次数
转载于:https://www.cnblogs.com/ltb6w/p/10886416.html
jieba(结巴)常用方法相关推荐
- jieba分词_wordcloud词云美化——jieba结巴中文分词(将长句拆分)
大家好,上一篇文章<五行代码上手WordCloud词云--用一个重复的单词做一个单词云>已经带大家初步认识了词云的基本制作流程,本节教大家如何对长句进行拆分制作词云: 首先我们来了解这张图 ...
- jieba结巴分词--关键词抽取_结巴中文分词原理分析2
作者:白宁超,工学硕士,现工作于四川省计算机研究院,著有<自然语言处理理论与实战>一书,作者公众号:机器学习和自然语言处理(公众号ID:datathinks) 结巴分词详解1中文分词介绍 ...
- jieba结巴分词--关键词抽取_初学者 | 知否?知否?一文学会Jieba使用方法
欢迎关注同名微信公众号:AI小白入门.跟着博主的脚步,每天进步一点点哟 我始终觉得,入门学习一件事情最好的方式就是实践,加之现在python如此好用,有越来越多的不错nlp的python库,所以接下来 ...
- jieba结巴分词--关键词抽取_jieba分词的原理(文末有维特比算法讲解)
前言 实习期间在做一个专利分析的项目,用到了文本处理的方法,大部分文本分析类的项目应该都离不开分词这个最基础的操作吧,我在做项目之前,在网上找了一些例子,搞清楚分词的代码处理流程,就直接在我的项目里用 ...
- jieba结巴分词--关键词抽取(核心词抽取)
转自:http://www.cnblogs.com/zhbzz2007 欢迎转载,也请保留这段声明.谢谢! 1 简介 关键词抽取就是从文本里面把跟这篇文档意义最相关的一些词抽取出来.这个可以追溯到文献 ...
- jieba结巴分词加入自定义词典
文章目录 分词 返回generator 返回list 添加自定义词典 动态调整词典 参考 jieba官方文档 分词 返回generator jieba.cut 以及 jieba.cut_for_sea ...
- jieba结巴分词器
安装: pip install jieba 相关知识: 三种分词模式: 1. 全模式 :把句子中所有可以成词的词语都扫描出来,速度非常快,但是不能解决歧义.这种全模式,会根据字典,将所有出现的字词全部 ...
- jieba 结巴分词 常用说明
安装 全自动:easy_install jieba 或者 pip install jieba 或者pip3 install jieba 手 动:jieba 目录放置于当前目录或者 site-packa ...
- mysql使用结巴语句_结巴分词 java 高性能实现,是 huaban jieba 速度的 2倍
Segment Segment 是基于结巴分词词库实现的更加灵活,高性能的 java 分词实现. 创作目的 分词是做 NLP 相关工作,非常基础的一项功能. jieba-analysis 作为一款非常 ...
最新文章
- OpenGl的glMatrixMode()函数理解
- ASP.NET 2.0用户管理数据库的注册
- C++中mutable、volatile关键字
- 对于WebAssembly编译出来的.wasm文件js如何调用
- ASP.NET Core 开源论坛项目 NETCoreBBS
- 【C++】C++中的头文件(.h)—详解(2)
- Linux 建立文件夹的链接
- linux buffer/cache手动释放
- Spring Boot 学习系列(01)—从0到1,只需两分钟
- 上海 day16 -- python 常用模块1
- marlab中主成分得分怎么求_雅漾恒润保湿精华乳,做完配方成分解读,我表示遗憾,决定守住我的花呗...
- 计算机考试报名照片可以是白底吗,软考报名照片必须白底的是吗?
- shell中各种括号用法
- 论fastadmin里面token加密方式
- msf介绍及其常用模块
- 马未都说收藏:陶瓷篇(8、9)元青花、永宣青花
- Chrome 扩展开发教程
- 系统设计师之路·第二节·看山是山,看水是水——设计师的三种境界
- 我的工程师爸爸 - 音频应用DIY系列之三:汤姆猫
- java spring boot 微信公众号 分享功能
热门文章
- UVA 10479 The Hendrie Sequence
- C#中怎样将Listlt;自己定义gt;转为Json格式 及相关函数-DataContractJsonSerializer
- Ubuntu架设FTP
- MVC5+EF6 入门完整教程七
- 使PropertyGrid控件的属性值可以显示多行的方法
- 网站制作时应该如何更合理定位与策划
- Java中的集合笔记
- (Easy) Height Checker LeetCode
- Fiddler抓包1-抓firefox上https请求
- 创建vue项目+总结使用(跨域问题+vue 创建)